Development of a System and Interface for Speech Synthesis in Ukrainian for Websites

Олександр Русланович Осадчук

doi:10.20535/2523-4455.mea.255961

PDF (English)

Опубліковано: кві 29, 2022

DOI: https://doi.org/10.20535/2523-4455.mea.255961

Ключові слова:

синтез мовлення, підтримка слабкого зору, алгоритм розпізнавання, обробка природної мови, нейронна мережа, розуміння природної мови, веб-інтеграція, CMS Wordpress

Олександр Русланович Осадчук

Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»,Igor Sikorsky Kyiv Polytechnic Institute [https://ror.org/00syn5v21]

https://orcid.org/0000-0003-4934-2565

Анотація

У статті описано систему синтезу та озвучування контенту на сайтах українською мовою, призначену для спрощення споживання контенту для людей з вадами зору, яка відрізняється простотою інтеграції в найпопулярнішу систему управління контентом на сайтах, а саме CMC Wordpress.

Наразі люди з вадами зору дуже обмежені у використанні Інтернет-продуктів, оскільки більшість веб-ресурсів не адаптовані до їхніх потреб. Сучасні інформаційні технології дозволяють таким людям отримувати інформацію поряд із здоровою завдяки рішенням, розробленим вченими та інженерами з різних країн.

Текстова інформація може бути доставлена людям з вадами зору за допомогою лупи або шляхом програмного збільшення шрифту, незрячим – озвучуванням тексту за допомогою комп’ютерних програм або відображенням текстів на екрані Брайля монітора. Це ефективне рішення, але вибір методів відтворення такої інформації мають повністю забезпечувати самі люди з обмеженими можливостями, що є значною проблемою через значні витрати часу на споживання інформації.

Щоб полегшити сприйняття людей із вадами зору під час використання веб-сайтів, розроблено міжнародний стандарт для веб-майстрів – посібник із доступності веб-контенту під назвою W3 Web Content Accessibility Guidelines (WCAG) Consortium 2.0. Стандарт детально описує вимоги людей з вадами зору, які рекомендується виконувати, щоб вони могли без проблем переглядати веб-сайт. Основні положення WCAG 2.0 описуватимуть параметри та алгоритми масштабування, кластеризації та поділу інформації програмами для людей із вадами зору та нададуть рекомендації щодо написання коду веб-сайту.

Однак для реалізації таких рекомендацій веб-майстрам необхідно вивчити нові принципи та алгоритми програмування та використовувати додаткові інструменти розробки. Це часто буває складно, вимагає додаткової підготовки, що тягне за собою невиконання веб-майстрами таких вимог. Така система була розроблена на базі глибинних нейронних мереж та має можливість інтегруватися в найпопулярнішу в світі систему управління контентом веб сайтів WordPress® і однієї системи Google© Cloud Platform®.

За допомогою використання та навчання глибинних нейронних мереж було адаптовано процедуру синтезу мовлення під українську мову, а також розроблено пакетне рішення (архів плагіну додається до дипломної роботи) для інтеграції такої системи синтезу мовлення в сайти на базі системи управління контентом WordPress©, практична частина роботи реалізована на веб сайті www.voice.uttermouse.com.

Для подальшої зручності користування слабозорим на сайт був інтегрований голосовий чат, який розроблено за допомоги сервісів Google© Cloud Platform та Google© Dialogflow та Google© Speech to Text API і адаптований для роботи з веб сайтом за допомогою мови PHP.

Як цитувати

[1]

О. Р. Осадчук, «Розробка системи і інтерфейсу синтезу мовлення українською мовою для сайтів», Мікросист., Електрон. та Акуст., т. 27, вип. 1, с. 255961–1, Квіт 2022.

Номер

Том 27 № 1 (2022)

Розділ

Акустичні прилади та системи

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:

Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).

Посилання

Rabiner, L. B.H. Juang. Fundamentals of Speech Recognition, San Carlos, USA: Prentice-Hall International, Inc,1993.

Hinton Geoffrey, Deng Li, Yu Dong, Dahl George, Mohamed Abdel-rahman, Jaitly Navdeep, Senior Andrew, Vanhoucke Vincent, Nguyen Patrick, Sainath Tara, Kingsbury Brian, "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups." IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82–97, Nov. 2012. DOI: https://doi.org/10.1109/MSP.2012.2205597

Jaitly, Q. V. Le, O. Vinyals, Attend and Spell, 2015 [Electronic source] Resource access mode: https://arxiv.org/pdf/1508.01211.pdf

Prabhavalkar, R., Rao, K., Sainath, T.N., Li, B., Johnson, L., Jaitly, N. (2017) A Comparison of Sequence-to-Sequence Models for Speech Recognition. Proc. Interspeech 2017, 939-943, DOI: https://doi.org/10.21437/Interspeech.2017-233

R. Prabhavalkar, T. N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C. Chiu, A. Kannan, Minimum word error rate training for attention-based sequence-to-sequence models, 2017. URL: https://arxiv.org/pdf/1712.01818.pdf

C. Chelba, Large Scale Language Modeling in Automatic Speech Recognition URL: https://cloud.Google.com/dialogflow/docs/quick/setup

developers.Google.com, Create a Project and Dialogflow Agent URL: https://developers.Google.com/assistant/actions/dialogflow/project-agent

cloud.Google.com , Dialogflow Documentation URL: https://cloud.Google.com/dialogflow/docs.

cloud.Google.com, Quickstart: Build an agent URL: https://cloud.Google.com/dialogflow/docs/quick/build-agent

Statcounter Global Stats 2020 URL: https://gs.statcounter.com/

Marr, Bernard. How Artificial Intelligence IS Making Chatbots Better For Business. URL: https://www.forbes.com/sites/bernardmarr/2018/05/18/how-artificialintelligence-ismaking-chatbots-better-for-businesses/#69638bae4e72

M. T. Mutiwokuziva, M. W. Chanda, P. Kadebu, A. Mukwazvure, and T. T. Gotora, “A neural-network based chat bot”, in 2017 2nd International Conference on Communication and Electronics Systems (ICCES), Coimbatore, 2017, pp. 212–217. DOI: https://doi.org/10.1109/CESYS.2017.8321268

Бічна панель сторінки статті

Основний зміст сторінки статті

Анотація

Блок інформації про статтю

Посилання