Аналіз особливостей використання ресурсів мікроконтролера для розпізнавання мовлення

Анна Романівна Рижова; Юрій Олексійович Оникієнко

doi:10.20535/2523-4455.mea.265406

Залежність точності визначення ключового слова від кількості MFC коефіцієнтів

PDF

Опубліковано: сер 21, 2022

DOI: https://doi.org/10.20535/2523-4455.mea.265406

Ключові слова:

мікроконтролери, мел-частотні кепстральні коефіцієнти, згорткові нейронні мережі, розпізнавання голосу

Анна Романівна Рижова

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

https://orcid.org/0000-0003-3278-8448

к.т.н. доц. Юрій Олексійович Оникієнко

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

https://orcid.org/0000-0001-7508-8391

Анотація

В роботі виконано аналіз використання обчислювальних ресурсів мікроконтролера для машинного навчання та розпізнавання голосу. Поставлено експеримент для визначення залежності часу розпізнавання ключового слова, об’єму використаної оперативної пам’яті та пам’яті програм в залежності від кількості мел-частотних кепстральних коефіцієнтів та типу згорткової нейронної мережі. Для проведення експерименту використано плату розробки Arduino Nano 33 BLE Sense. Модель нейронної мережі створено та треновано на програмній платформі Edge Impulse. В результаті аналізу встановлено, що пам’яті 32-х бітного мікроконтролера достатньо для обчислень та використання нейронної мережі. Однак час класифікації ключового слова складає приблизно 0,3 с, відповідно розпізнавання довгих фраз може зайняти декілька секунд, що не завжди є прийнятним.

Як цитувати

[1]

А. Р. Рижова і Ю. О. Оникієнко, «Аналіз особливостей використання ресурсів мікроконтролера для розпізнавання мовлення», Мікросист., Електрон. та Акуст., т. 27, вип. 2, с. 265406–1, Сер 2022.

Номер

Том 27 № 2 (2022)

Розділ

Акустичні прилади та системи

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:

Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).

Посилання

S. Misra, T. Das, P. Saha, U. Baruah and R. H. Laskar, "Comparison of MFCC and LPCC for a fixed phrase speaker verification system, time complexity and failure analysis," 2015 International Conference on Circuits, Power and Computing Technologies [ICCPCT-2015], 2015, pp. 1-4, DOI: https://doi.org/10.1109/ICCPCT.2015.7159307.

Zheng, F., Zhang, G. & Song, Z. “Comparison of different implementations of MFCC”, J. Computer Science & Technology 16, 2001, pp.582–589, DOI: https://doi.org/10.1007/BF02943243

Md Sahidullah, G. Saha, "Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition," Speech Communication, Volume 54, Issue 4, May 2012, pp. 543-565, DOI: https://doi.org/10.1016/j.specom.2011.11.004

O. Cheng, W. Abdulla and Z. Salcic, "Hardware–Software Codesign of Automatic Speech Recognition System for Embedded Real-Time Applications," in IEEE Transactions on Industrial Electronics, vol. 58, no. 3, pp. 850-859, March 2011, DOI: https://doi.org/10.1109/TIE.2009.2022520

F. Barkani, H. Satori, M. Hamidi, O. Zealouk and N. Laaidi, "Amazigh Speech Recognition Embedded System," 2020 1st Inter-national Conference on Innovative Research in Applied Science, Engineering and Technology (IRASET), 2020, pp. 1-5, DOI: https://doi.org/10.1109/IRASET48871.2020.9092014

A. G. Howard M. Zhu B. Chen D. Kalenichenko W. Wang T. Weyand et al. "Mobilenets: Efficient convolutional neural networks for mobile vision applications" arXiv preprint arXiv 17 Apr 2017, pp. 1-9, DOI: https://doi.org/10.48550/arXiv.1704.04861

D. Sinha and M. El-Sharkawy, "Ultra-thin MobileNet," 2020 10th Annual Computing and Communication Workshop and Con-ference (CCWC), 2020, pp. 0234-0240, DOI: https://doi.org/10.1109/CCWC47524.2020.9031228

Y. -C. Ling, H. -H. Chin, H. -I. Wu and R. -S. Tsay, "Designing A Compact Convolutional Neural Network Processor on Em-bedded FPGAs," 2020 IEEE Global Conference on Artificial Intelligence and Internet of Things (GCAIoT), 2020, pp. 1-7, DOI: https://doi.org/10.1109/GCAIoT51063.2020.9345903

S. M. A. H. Jafri, A. Hemani and L. Intesa, "SPEED: Open-Source Framework to Accelerate Speech Recognition on Embedded GPUs," 2017 Euromicro Conference on Digital System Design (DSD), 2017, pp. 94-101, DOI: https://doi.org/10.1109/DSD.2017.89.

F. Raffaeli and S. Awad, "Portable low-cost platform for embedded speech analysis and synthesis," 2016 12th International Computer Engineering Conference (ICENCO), 2016, pp. 117-122, DOI: https://doi.org/10.1109/ICENCO.2016.7856455

A. P. Pant, K. -R. Wu and Y. -C. Tseng, "Speak to Action: Offline and Hybrid Language Recognition on Embedded Board for Smart Control System," 2020 International Computer Symposium (ICS), 2020, pp. 85-90, DOI: https://doi.org/10.1109/ICS51289.2020.00026

F. Sutton, R. Da Forno, R. Lim, M. Zimmerling and L. Thiele, "Demonstration abstract: Automatic speech recognition for re-source-constrained embedded systems," IPSN-14 Proceedings of the 13th International Symposium on Information Processing in Sensor Networks, 2014, pp. 323-324, DOI: https://doi.org/10.1109/IPSN.2014.6846784.

I. Kramberger, M. Grasic and T. Rotovnik, "Door phone embedded system for voice based user identification and verification platform," in IEEE Transactions on Consumer Electronics, vol. 57, no. 3, pp. 1212-1217, August 2011, DOI: https://doi.org/10.1109/TCE.2011.6018876.

Q. Qu and L. Li, "Realization of embedded speech recognition module based on STM32," 2011 11th International Symposium on Communications & Information Technologies (ISCIT), 2011, pp. 73-77, DOI: https://doi.org/10.1109/ISCIT.2011.6092186.

“TensorFlow”, TensorFlow.org URL: https://www.tensorflow.org/ (access data 05.06.2022)

"Keras: The Python deep learning API", Keras: the Python deep learning API. URL: https://keras.io/ (access data 04.06.2022).

C. M. J. Galangque and S. A. Guirnaldo, "Speech Recognition Engine using ConvNet for the development of a Voice Command Controller for Fixed Wing Unmanned Aerial Vehicle (UAV)," 2019 12th International Conference on Information & Communi-cation Technology and System (ICTS), 2019, pp. 93-97, DOI: https://doi.org/10.1109/ICTS.2019.8850961.

J. Dudak, M. Kebisek, G. Gaspar and P. Fabo, "Implementation of machine learning algorithm in embedded devices," 2020 19th International Conference on Mechatronics - Mechatronika (ME), 2020, pp. 1-6, DOI: https://doi.org/10.1109/ME49197.2020.9286705.

X. Huang, A. Acero, H.-W. Hon, R. Reddy, “Spoken Language Processing - A Guide to Theory, Algorithm, and System Development”, Prentice Hall, 2001, 965pp.

Gu, J., et al., “Recent advances in convolutional neural networks”, Pattern Recognition, 2018, 77: pp. 354-377, DOI: https://doi.org/10.48550/arXiv.1512.07108

S. Kiranyaz, T. Ince, O. Abdeljaber, O. Avci and M. Gabbouj, "1-D Convolutional Neural Networks for Signal Processing Ap-plications," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 8360-8364, DOI: https://doi.org/10.1109/ICASSP.2019.8682194.

A. Shenfield, M. Howarth. "A Novel Deep Learning Model for the Detection and Identification of Rolling Element-Bearing Faults" Sensors 2020, 20, 5112. DOI: https://doi.org/10.3390/s20185112

Edge impulse, edgeimpulse.com, URL: https://www.edgeimpulse.com/ (access data 05.06.2022).

Arduino Nano 33 BLE, store.arduino.cc, URL: https://store.arduino.cc/products/arduino-nano-33-ble (access data 05.06.2022).

Бічна панель сторінки статті

Основний зміст сторінки статті

Анотація

Блок інформації про статтю

Посилання