Нейросетевой алгоритм выделения тональных, шумовых и пауз-  ных участков устной речи

Ivan Yuriiovych Bondarenko; Olha Mykolaivna Ladoshko

doi:10.20535/2312-1807.2012.17.6.11392

PDF

Опубликован: Feb 28, 2013

DOI: https://doi.org/10.20535/2312-1807.2012.17.6.11392

Ключевые слова:

классификация речь-шум-пауза, нейронная сеть

Ivan Yuriiovych Bondarenko

Донецкий нацональный технический университет

Olha Mykolaivna Ladoshko

Национальный технический университет Украины «Киевский политехнический институт»

Аннотация

Рассматривается проблема автоматического выделения тональных, шумовых и паузных участков устной речи. Для решения этой проблемы предлагается нейросетевой алгоритм, выполняющий классификацию последовательности фреймов, на которые разбивается речевой сигнал. На материале речевых корпусов TIMIT и NTIMIT проведены эксперименты по оценке качества, надежности и скорости работы алгоритма в дикторонезависимом режиме, в том числе в условиях нестационарного шума, вызванного влиянием телефонного канала.

Как цитировать

Bondarenko, I. Y., & Ladoshko, O. M. (2013). Нейросетевой алгоритм выделения тональных, шумовых и пауз- ных участков устной речи. Электроника и Связь, 17(6), 19–25. https://doi.org/10.20535/2312-1807.2012.17.6.11392

Выпуск

Том 17 № 6 (2012)

Раздел

теория сигналов и систем

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Авторы, публикующиеся в данном журнале, соглашаются со следующими условиями:

Авторы сохраняют за собой права на авторство своей работы и предоставляют журналу право первой публикации этой работы на условиях лицензии Creative Commons Attribution License, которая позволяет другим лицам свободно распространять опубликованную работу с обязательной ссылокой на авторов оригинальной работы и оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные договора на неэксклюзивное распространение работы в том виде, в котором она была опубликована этим журналом (например, размещать работу в электронном архиве учреждения или публиковать в составе монографии), с условием сохраниения ссылки на оригинальную публикацию в этом журнале.
Политика журнала разрешает и поощряет размещение авторами в сети Интернет (например в институтском хранилище или на персональном сайте) рукописи работы как до ее подачи в редакцию, так и во время ее редакционной обработки, так как это способствует продуктивной научной дискуссии и положительно сказывается на оперативности и динамике цитирования статьи (см. The Effect of Open Access).

Библиографические ссылки

Atal B., Rabiner L. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition // Acoustics, Speech and Signal Processing. – 1976. – Vol.24, Issue 3. – P.201-212.

Jamal Ghasemi, Amard Afzalian, M.R. Karami Mollaei. A Combined Voice Activity Detector Based On Singular Value Decomposition and Fourier Transform // Signal Processing. – 2010. – Vol.4, Issue 1. – P.54-61.

Jankowski C., Kalyanswamy A., Basson S., Spitz J. NTIMIT: A Phonetically Balanced, Continuous Speech, Telephone Bandwidth Speech Database//Proc. of ICASSP-90. – 1990. – P. 109-112.

LeCun Y., Bottou L., Orr G., Muller K. Efficient BackProp // Neural Networks: Tricks of the trade. – Springer Verlag, 1998. – P. 5-50.

Martin A., Charlet D., Mauuary L. Robust speech/non-speech detection using LDA applied to MFCC // Proc. of ICASSP'01. – 2001. – Vol.1. – P.237-240.

Wilson D.R., Martinez T.R. The general inefficiency of batch training for gradient descent learning // Neural Networks. – 2003. – Vol.16. Issue 10. – P.1429-1451.

Zue V., Seneff S., Glass J. Speech database development at MIT: TIMIT and beyond // Speech Communication. – 1990. – Vol. 9, № 4. – P.351-356.

Arkhipov I.A., Gitlin V.B, Luzin D.A An adaptive algorithm for deciding "TONE - not tone", synchronous with the main tone / / Speech technologies. – 2009. - № 1. - P.80-93. (Rus)

Gorban A.N. Generalized approximation theorem and the computational capabilities of neural networks // Siberian Journal of Numerical Mathematics. –- 1998. - V.1, № 1. - P. 12-24. (Rus)

Methods of processing speech signals in the time domain / L.R. Rabiner, R. Schafer Digital processing of speech signals. Per. from English. - M.: Radio and communication, 1981. – P.110-160. (Rus)

Unidirectional multilayered network of sigmoidal type / Osovsky C. Neural networks for information processing. Per. from Polish. - Moscow: Finance and Statistics, 2004. - P.46-88. (Rus)

##plugins.themes.bootstrap3.article.sidebar##

##plugins.themes.bootstrap3.article.main##

Аннотация

##plugins.themes.bootstrap3.article.details##

Библиографические ссылки