Нейросетевой алгоритм выделения тональных, шумовых и пауз- ных участков устной речи

##plugins.themes.bootstrap3.article.main##

Ivan Yuriiovych Bondarenko
Olha Mykolaivna Ladoshko

Аннотация

Рассматривается проблема автоматического выделения тональных, шумовых и паузных участков устной речи. Для решения этой проблемы предлагается нейросетевой алгоритм, выполняющий классификацию последовательности фреймов, на которые разбивается речевой сигнал. На материале речевых корпусов TIMIT и NTIMIT проведены эксперименты по оценке качества, надежности и скорости работы алгоритма в дикторонезависимом режиме, в том числе в условиях нестационарного шума, вызванного влиянием телефонного канала.

##plugins.themes.bootstrap3.article.details##

Как цитировать
Bondarenko, I. Y., & Ladoshko, O. M. (2013). Нейросетевой алгоритм выделения тональных, шумовых и пауз- ных участков устной речи. Электроника и Связь, 17(6), 19–25. https://doi.org/10.20535/2312-1807.2012.17.6.11392
Раздел
теория сигналов и систем

Библиографические ссылки

Atal B., Rabiner L. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition // Acoustics, Speech and Signal Processing. – 1976. – Vol.24, Issue 3. – P.201-212.

Jamal Ghasemi, Amard Afzalian, M.R. Karami Mollaei. A Combined Voice Activity Detector Based On Singular Value Decomposition and Fourier Transform // Signal Processing. – 2010. – Vol.4, Issue 1. – P.54-61.

Jankowski C., Kalyanswamy A., Basson S., Spitz J. NTIMIT: A Phonetically Balanced, Continuous Speech, Telephone Bandwidth Speech Database//Proc. of ICASSP-90. – 1990. – P. 109-112.

LeCun Y., Bottou L., Orr G., Muller K. Efficient BackProp // Neural Networks: Tricks of the trade. – Springer Verlag, 1998. – P. 5-50.

Martin A., Charlet D., Mauuary L. Robust speech/non-speech detection using LDA applied to MFCC // Proc. of ICASSP'01. – 2001. – Vol.1. – P.237-240.

Wilson D.R., Martinez T.R. The general inefficiency of batch training for gradient descent learning // Neural Networks. – 2003. – Vol.16. Issue 10. – P.1429-1451.

Zue V., Seneff S., Glass J. Speech database development at MIT: TIMIT and beyond // Speech Communication. – 1990. – Vol. 9, № 4. – P.351-356.

Arkhipov I.A., Gitlin V.B, Luzin D.A An adaptive algorithm for deciding "TONE - not tone", synchronous with the main tone / / Speech technologies. – 2009. - № 1. - P.80-93. (Rus)

Gorban A.N. Generalized approximation theorem and the computational capabilities of neural networks // Siberian Journal of Numerical Mathematics. –- 1998. - V.1, № 1. - P. 12-24. (Rus)

Methods of processing speech signals in the time domain / L.R. Rabiner, R. Schafer Digital processing of speech signals. Per. from English. - M.: Radio and communication, 1981. – P.110-160. (Rus)

Unidirectional multilayered network of sigmoidal type / Osovsky C. Neural networks for information processing. Per. from Polish. - Moscow: Finance and Statistics, 2004. - P.46-88. (Rus)