Програмний інструментарій для тестування систем обробки мовленнєвих сигналів. Частина 1. Моделювання сигналів і систем
Основний зміст сторінки статті
Анотація
Запропоновано склад програмного інструментарію для досліджень і оптимізації алгоритмів систем корекції й кодування мовленнєвих сигналів, що піддані різного роду спотворенням, таким як шумова й ревербераційна перешкоди, помилки кодування. У першій частині даної роботи розглянуто інструментарій, що дозволяє розв’язувати такі завдання як створення корпусів зашумленої мови й корекція зашумлених мовленнєвих сигналів. Виконано аналіз достоїнств і недоліків інструментаріїв FaNT і VoiceBox, вироблені рекомендації з компенсації зазначених недоліків засобами Matlab. Показано доцільність створення узагальненого інструментарію, шляхом об'єднання інструментаріїв FaNT і VoiceBox. Крім того, показано доцільність доповнення такого інструментарію програмними модулями, що забезпечують моделювання оцінювання якості систем обробки мовних сигналів. Розглянуті приклади свідчать про працездатність й правильність функціонування даного інструментарію.
Библ. 18, мал. 5, табл. 1.
Блок інформації про статтю
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).
Посилання
Beerends J.G. Extension of ITU-T Recommendation P.862 PESQ towards Measuring Speech Intelligibility with Vocoders / Beerends J.G., van Wijngaarden S., van Buuren R. // [On-line]. – Available: http://www.dtic.mil/cgi-bin/GetTRDoc?AD=ADA454414 (Eng) (1.03.2013).
Cappe O. (2007), [Elimination of the Musical Noise Phenomenon with the Ephraim and Malah Noise Suppressor]. EEE Trans Speech Audio Processing. Vol. 2. No 2. Pp. 345–349.
Erkelens J., Jensen J., Heusdens R. (2007), [A Data-Driven Approach to Optimizing Spectral Speech Enhancement Methods for Various Error Criteria]. Speech Communication. No 49. Pp. 530–541.
Ephraim Y., Malah D. (1984), [Speech Enhancement Using a Minimum-Mean Square Error Short-Time Spectral Amplitude Estimator]. IEEE Trans Acoustics Speech and Signal Proc. Vol. 32. No. 6. Pp. 1109–1121.
Ephraim Y., Malah D. (1985), [Speech Enhancement Using a Minimum Mean-Square Error log-Spectral Amplitude Estimator]. IEEE Trans Acoustics Speech and Signal Proc. Vol. 33. No 2. Pp. 443–445.
Gerkmann T., Hendriks R. (2012), [Unbiased MMSE-Based Noise Power Estimation With Low Complexity and Low Tracking Delay]. IEEE Trans Audio, Speech, Language Proc. No 20. Pp. 1383–1393.
Hirsch H.-G. FaNT - Filtering and Noise Adding Tool. [On-line]. – Available: http://dnt.kr.hsnr.de/ (1.03.2013).
Hirsch H.-G., Finster H. (2005), [The Simulation of Realistic Acoustic Input Scenarios for Speech Recognition Systems]. 9th European Conf on Speech Communication and Technology. Lisboa, September. Pp. 1–4.
Martin R. (2001), [Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics]. IEEE Trans. Speech and Audio Processing. Vol. 9. No 5. Pp. 504–512.
Martin R. (2005), [Statistical Methods for the Enhancement of Noisy Speech. In J. Benesty, S. Makino, and J. Chen, editors, Speech Enhancement, chapter 3]. New-York: Springer-Verlag, Pp. 43–64.
Recommendation ITU-T P.56. Series P: Terminals and Subjective and Objective Assesement Methods. Objective Measuring Apparatus. Objective Measurement of Active Speech Level. – Geneva: Telecommunication Standartisation Sector of ITU, 2008. Vol. 12. P. 24.
Recommendation ITU-T P.863. Series P: Terminals and Subjective and Objective Assesement Methods. Methods for Objective and Subjective Assessment of Speech Quality. Perceptual Objective Listening Quality Assessment. – Geneva: Telecommunication Standartisation Sector of ITU, 2011. Vol. 1. P. 76.
Simulation of Acoustic Environments Including the Transmission over Telephone Channels. [On-line]. – Available: http://dnt.kr.hsnr.de/sireac.html (1.03.2013).
Jacob Benesty, M. Mohan Sondhi, Yiteng Huang. (2008), [Springer Handbook of Speech Processing]. Berlin: Springer-Verlag, P. 1176.
VoiceBox: Speech Processing Toolbox for MATLAB. [On-line]. – Available: http://www.ee.ic.ac.uk/hp/staff/dmb/ (1.03.2013).
Krivnova O.F. (2008), [Speech Corpora on New Technological Way]. Rechevye tehnologii. no2. Pp. 13–23. (Rus)
Prodeus A.N., Didkovskiy V.S., Didkovskaya М.V. (2008), [Acoustic Examination of Speech Communication Channels. Monograph]. Kyiv: Imex-Ltd, P. 420. (Rus)
Prodeus A.N. (2010), [Some Features of the Development of Objective Methods for Speech Intelligibility Measuring]. Electronics and Communications, tematicheskiy vypusk "Electronika i nanotehnologii". Vol. 2. Pp. 217–223. (Rus)