Нейросетевой алгоритм выделения тональных, шумовых и пауз- ных участков устной речи
##plugins.themes.bootstrap3.article.main##
Аннотация
##plugins.themes.bootstrap3.article.details##
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, публикующиеся в данном журнале, соглашаются со следующими условиями:- Авторы сохраняют за собой права на авторство своей работы и предоставляют журналу право первой публикации этой работы на условиях лицензии Creative Commons Attribution License, которая позволяет другим лицам свободно распространять опубликованную работу с обязательной ссылокой на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы сохраняют право заключать отдельные договора на неэксклюзивное распространение работы в том виде, в котором она была опубликована этим журналом (например, размещать работу в электронном архиве учреждения или публиковать в составе монографии), с условием сохраниения ссылки на оригинальную публикацию в этом журнале.
- Политика журнала разрешает и поощряет размещение авторами в сети Интернет (например в институтском хранилище или на персональном сайте) рукописи работы как до ее подачи в редакцию, так и во время ее редакционной обработки, так как это способствует продуктивной научной дискуссии и положительно сказывается на оперативности и динамике цитирования статьи (см. The Effect of Open Access).
Библиографические ссылки
Atal B., Rabiner L. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition // Acoustics, Speech and Signal Processing. – 1976. – Vol.24, Issue 3. – P.201-212.
Jamal Ghasemi, Amard Afzalian, M.R. Karami Mollaei. A Combined Voice Activity Detector Based On Singular Value Decomposition and Fourier Transform // Signal Processing. – 2010. – Vol.4, Issue 1. – P.54-61.
Jankowski C., Kalyanswamy A., Basson S., Spitz J. NTIMIT: A Phonetically Balanced, Continuous Speech, Telephone Bandwidth Speech Database//Proc. of ICASSP-90. – 1990. – P. 109-112.
LeCun Y., Bottou L., Orr G., Muller K. Efficient BackProp // Neural Networks: Tricks of the trade. – Springer Verlag, 1998. – P. 5-50.
Martin A., Charlet D., Mauuary L. Robust speech/non-speech detection using LDA applied to MFCC // Proc. of ICASSP'01. – 2001. – Vol.1. – P.237-240.
Wilson D.R., Martinez T.R. The general inefficiency of batch training for gradient descent learning // Neural Networks. – 2003. – Vol.16. Issue 10. – P.1429-1451.
Zue V., Seneff S., Glass J. Speech database development at MIT: TIMIT and beyond // Speech Communication. – 1990. – Vol. 9, № 4. – P.351-356.
Arkhipov I.A., Gitlin V.B, Luzin D.A An adaptive algorithm for deciding "TONE - not tone", synchronous with the main tone / / Speech technologies. – 2009. - № 1. - P.80-93. (Rus)
Gorban A.N. Generalized approximation theorem and the computational capabilities of neural networks // Siberian Journal of Numerical Mathematics. –- 1998. - V.1, № 1. - P. 12-24. (Rus)
Methods of processing speech signals in the time domain / L.R. Rabiner, R. Schafer Digital processing of speech signals. Per. from English. - M.: Radio and communication, 1981. – P.110-160. (Rus)
Unidirectional multilayered network of sigmoidal type / Osovsky C. Neural networks for information processing. Per. from Polish. - Moscow: Finance and Statistics, 2004. - P.46-88. (Rus)