Программный инструментарий для тестирования систем обработки речевых сигналов. Часть 1. Моделирование сигналов и систем
##plugins.themes.bootstrap3.article.main##
Аннотация
Предложен состав программного инструментария для исследований и оптимизации алгоритмов систем коррекции и кодирования речевых сигналов, подверженных различного рода искажениям, таким как шумовая и реверберационная помехи, ошибки кодирования. В первой части данной работы рассмотрен инструментарий, позволяющий решать такие задачи как создание корпусов зашумленной речи и коррекция зашумленных речевых сигналов. Произведен анализ достоинств и недостатков инструментариев FaNT и VoiceBox, выработаны рекомендации по компенсации указанных недостатков средствами Matlab. Показана целесообразность создания обобщенного инструментария, путем объединения инструментариев FaNT и VoiceBox. Кроме того, показана целесообразность дополнения такого инструментария программными модулями, обеспечивающими моделирование оценивания качества систем обработки речевых сигналов. Рассмотренные примеры свидетельствуют о работоспособности и правильности функционирования данного инструментария.
Библ. 18, рис. 5, табл. 1.
##plugins.themes.bootstrap3.article.details##
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, публикующиеся в данном журнале, соглашаются со следующими условиями:- Авторы сохраняют за собой права на авторство своей работы и предоставляют журналу право первой публикации этой работы на условиях лицензии Creative Commons Attribution License, которая позволяет другим лицам свободно распространять опубликованную работу с обязательной ссылокой на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы сохраняют право заключать отдельные договора на неэксклюзивное распространение работы в том виде, в котором она была опубликована этим журналом (например, размещать работу в электронном архиве учреждения или публиковать в составе монографии), с условием сохраниения ссылки на оригинальную публикацию в этом журнале.
- Политика журнала разрешает и поощряет размещение авторами в сети Интернет (например в институтском хранилище или на персональном сайте) рукописи работы как до ее подачи в редакцию, так и во время ее редакционной обработки, так как это способствует продуктивной научной дискуссии и положительно сказывается на оперативности и динамике цитирования статьи (см. The Effect of Open Access).
Библиографические ссылки
Beerends J.G. Extension of ITU-T Recommendation P.862 PESQ towards Measuring Speech Intelligibility with Vocoders / Beerends J.G., van Wijngaarden S., van Buuren R. // [On-line]. – Available: http://www.dtic.mil/cgi-bin/GetTRDoc?AD=ADA454414 (Eng) (1.03.2013).
Cappe O. (2007), [Elimination of the Musical Noise Phenomenon with the Ephraim and Malah Noise Suppressor]. EEE Trans Speech Audio Processing. Vol. 2. No 2. Pp. 345–349.
Erkelens J., Jensen J., Heusdens R. (2007), [A Data-Driven Approach to Optimizing Spectral Speech Enhancement Methods for Various Error Criteria]. Speech Communication. No 49. Pp. 530–541.
Ephraim Y., Malah D. (1984), [Speech Enhancement Using a Minimum-Mean Square Error Short-Time Spectral Amplitude Estimator]. IEEE Trans Acoustics Speech and Signal Proc. Vol. 32. No. 6. Pp. 1109–1121.
Ephraim Y., Malah D. (1985), [Speech Enhancement Using a Minimum Mean-Square Error log-Spectral Amplitude Estimator]. IEEE Trans Acoustics Speech and Signal Proc. Vol. 33. No 2. Pp. 443–445.
Gerkmann T., Hendriks R. (2012), [Unbiased MMSE-Based Noise Power Estimation With Low Complexity and Low Tracking Delay]. IEEE Trans Audio, Speech, Language Proc. No 20. Pp. 1383–1393.
Hirsch H.-G. FaNT - Filtering and Noise Adding Tool. [On-line]. – Available: http://dnt.kr.hsnr.de/ (1.03.2013).
Hirsch H.-G., Finster H. (2005), [The Simulation of Realistic Acoustic Input Scenarios for Speech Recognition Systems]. 9th European Conf on Speech Communication and Technology. Lisboa, September. Pp. 1–4.
Martin R. (2001), [Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics]. IEEE Trans. Speech and Audio Processing. Vol. 9. No 5. Pp. 504–512.
Martin R. (2005), [Statistical Methods for the Enhancement of Noisy Speech. In J. Benesty, S. Makino, and J. Chen, editors, Speech Enhancement, chapter 3]. New-York: Springer-Verlag, Pp. 43–64.
Recommendation ITU-T P.56. Series P: Terminals and Subjective and Objective Assesement Methods. Objective Measuring Apparatus. Objective Measurement of Active Speech Level. – Geneva: Telecommunication Standartisation Sector of ITU, 2008. Vol. 12. P. 24.
Recommendation ITU-T P.863. Series P: Terminals and Subjective and Objective Assesement Methods. Methods for Objective and Subjective Assessment of Speech Quality. Perceptual Objective Listening Quality Assessment. – Geneva: Telecommunication Standartisation Sector of ITU, 2011. Vol. 1. P. 76.
Simulation of Acoustic Environments Including the Transmission over Telephone Channels. [On-line]. – Available: http://dnt.kr.hsnr.de/sireac.html (1.03.2013).
Jacob Benesty, M. Mohan Sondhi, Yiteng Huang. (2008), [Springer Handbook of Speech Processing]. Berlin: Springer-Verlag, P. 1176.
VoiceBox: Speech Processing Toolbox for MATLAB. [On-line]. – Available: http://www.ee.ic.ac.uk/hp/staff/dmb/ (1.03.2013).
Krivnova O.F. (2008), [Speech Corpora on New Technological Way]. Rechevye tehnologii. no2. Pp. 13–23. (Rus)
Prodeus A.N., Didkovskiy V.S., Didkovskaya М.V. (2008), [Acoustic Examination of Speech Communication Channels. Monograph]. Kyiv: Imex-Ltd, P. 420. (Rus)
Prodeus A.N. (2010), [Some Features of the Development of Objective Methods for Speech Intelligibility Measuring]. Electronics and Communications, tematicheskiy vypusk "Electronika i nanotehnologii". Vol. 2. Pp. 217–223. (Rus)