Розробка системи і інтерфейсу синтезу мовлення українською мовою для сайтів

Основний зміст сторінки статті

Олександр Русланович Осадчук
https://orcid.org/0000-0003-4934-2565

Анотація

У статті описано систему синтезу та озвучування контенту на сайтах українською мовою, призначену для спрощення споживання контенту для людей з вадами зору, яка відрізняється простотою інтеграції в найпопулярнішу систему управління контентом на сайтах, а саме CMC Wordpress.


Наразі люди з вадами зору дуже обмежені у використанні Інтернет-продуктів, оскільки більшість веб-ресурсів не адаптовані до їхніх потреб. Сучасні інформаційні технології дозволяють таким людям отримувати інформацію поряд із здоровою завдяки рішенням, розробленим вченими та інженерами з різних країн.


Текстова інформація може бути доставлена ​​людям з вадами зору за допомогою лупи або шляхом програмного збільшення шрифту, незрячим – озвучуванням тексту за допомогою комп’ютерних програм або відображенням текстів на екрані Брайля монітора. Це ефективне рішення, але вибір методів відтворення такої інформації мають повністю забезпечувати самі люди з обмеженими можливостями, що є значною проблемою через значні витрати часу на споживання інформації.


Щоб полегшити сприйняття людей із вадами зору під час використання веб-сайтів, розроблено міжнародний стандарт для веб-майстрів – посібник із доступності веб-контенту під назвою W3 Web Content Accessibility Guidelines (WCAG) Consortium 2.0. Стандарт детально описує вимоги людей з вадами зору, які рекомендується виконувати, щоб вони могли без проблем переглядати веб-сайт. Основні положення WCAG 2.0 описуватимуть параметри та алгоритми масштабування, кластеризації та поділу інформації програмами для людей із вадами зору та нададуть рекомендації щодо написання коду веб-сайту.


Однак для реалізації таких рекомендацій веб-майстрам необхідно вивчити нові принципи та алгоритми програмування та використовувати додаткові інструменти розробки. Це часто буває складно, вимагає додаткової підготовки, що тягне за собою невиконання веб-майстрами таких вимог. Така система була розроблена на базі глибинних нейронних мереж та має можливість інтегруватися в найпопулярнішу в світі систему управління контентом веб сайтів WordPress® і однієї системи Google© Cloud Platform®.


За допомогою використання та навчання глибинних нейронних мереж було адаптовано процедуру синтезу мовлення під українську мову, а також розроблено пакетне рішення (архів плагіну додається до дипломної роботи) для інтеграції такої системи синтезу мовлення в сайти на базі системи управління контентом WordPress©, практична частина роботи реалізована на веб сайті www.voice.uttermouse.com.


Для подальшої зручності користування слабозорим на сайт був інтегрований голосовий чат, який розроблено за допомоги сервісів Google© Cloud Platform та Google© Dialogflow та Google© Speech to Text API і адаптований для роботи з веб сайтом за допомогою мови PHP.

Блок інформації про статтю

Як цитувати
[1]
О. Р. Осадчук, «Розробка системи і інтерфейсу синтезу мовлення українською мовою для сайтів», Мікросист., Електрон. та Акуст., т. 27, вип. 1, с. 255961–1, Квіт 2022.
Розділ
Акустичні прилади та системи

Посилання

Rabiner, L. B.H. Juang. Fundamentals of Speech Recognition, San Carlos, USA: Prentice-Hall International, Inc,1993.

Hinton Geoffrey, Deng Li, Yu Dong, Dahl George, Mohamed Abdel-rahman, Jaitly Navdeep, Senior Andrew, Vanhoucke Vincent, Nguyen Patrick, Sainath Tara, Kingsbury Brian, "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups." IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82–97, Nov. 2012. DOI: https://doi.org/10.1109/MSP.2012.2205597

Jaitly, Q. V. Le, O. Vinyals, Attend and Spell, 2015 [Electronic source] Resource access mode: https://arxiv.org/pdf/1508.01211.pdf

Prabhavalkar, R., Rao, K., Sainath, T.N., Li, B., Johnson, L., Jaitly, N. (2017) A Comparison of Sequence-to-Sequence Models for Speech Recognition. Proc. Interspeech 2017, 939-943, DOI: https://doi.org/10.21437/Interspeech.2017-233

R. Prabhavalkar, T. N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C. Chiu, A. Kannan, Minimum word error rate training for attention-based sequence-to-sequence models, 2017. URL: https://arxiv.org/pdf/1712.01818.pdf

C. Chelba, Large Scale Language Modeling in Automatic Speech Recognition URL: https://cloud.Google.com/dialogflow/docs/quick/setup

developers.Google.com, Create a Project and Dialogflow Agent URL: https://developers.Google.com/assistant/actions/dialogflow/project-agent

cloud.Google.com , Dialogflow Documentation URL: https://cloud.Google.com/dialogflow/docs.

cloud.Google.com, Quickstart: Build an agent URL: https://cloud.Google.com/dialogflow/docs/quick/build-agent

Statcounter Global Stats 2020 URL: https://gs.statcounter.com/

Marr, Bernard. How Artificial Intelligence IS Making Chatbots Better For Business. URL: https://www.forbes.com/sites/bernardmarr/2018/05/18/how-artificialintelligence-ismaking-chatbots-better-for-businesses/#69638bae4e72

M. T. Mutiwokuziva, M. W. Chanda, P. Kadebu, A. Mukwazvure, and T. T. Gotora, “A neural-network based chat bot”, in 2017 2nd International Conference on Communication and Electronics Systems (ICCES), Coimbatore, 2017, pp. 212–217. DOI: https://doi.org/10.1109/CESYS.2017.8321268