Аналіз особливостей використання ресурсів мікроконтролера для розпізнавання мовлення

Основний зміст сторінки статті

Анна Романівна Рижова
к.т.н. доц. Юрій Олексійович Оникієнко

Анотація

В роботі виконано аналіз використання обчислювальних ресурсів мікроконтролера для машинного навчання та розпізнавання голосу. Поставлено експеримент для визначення залежності часу розпізнавання ключового слова, об’єму використаної оперативної пам’яті та пам’яті програм в залежності від кількості мел-частотних кепстральних коефіцієнтів та типу згорткової нейронної мережі. Для проведення експерименту використано плату розробки Arduino Nano 33 BLE Sense. Модель нейронної мережі створено та треновано на програмній платформі Edge Impulse. В результаті аналізу встановлено, що пам’яті 32-х бітного мікроконтролера достатньо для обчислень та використання нейронної мережі. Однак час класифікації ключового слова складає приблизно 0,3 с, відповідно розпізнавання довгих фраз може зайняти декілька секунд, що не завжди є прийнятним.

Блок інформації про статтю

Як цитувати
[1]
А. Р. Рижова і Ю. О. Оникієнко, «Аналіз особливостей використання ресурсів мікроконтролера для розпізнавання мовлення», Мікросист., Електрон. та Акуст., т. 27, вип. 2, с. 265406–1, Сер 2022.
Розділ
Акустичні прилади та системи

Посилання

S. Misra, T. Das, P. Saha, U. Baruah and R. H. Laskar, "Comparison of MFCC and LPCC for a fixed phrase speaker verification system, time complexity and failure analysis," 2015 International Conference on Circuits, Power and Computing Technologies [ICCPCT-2015], 2015, pp. 1-4, DOI: https://doi.org/10.1109/ICCPCT.2015.7159307.

Zheng, F., Zhang, G. & Song, Z. “Comparison of different implementations of MFCC”, J. Computer Science & Technology 16, 2001, pp.582–589, DOI: https://doi.org/10.1007/BF02943243

Md Sahidullah, G. Saha, "Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition," Speech Communication, Volume 54, Issue 4, May 2012, pp. 543-565, DOI: https://doi.org/10.1016/j.specom.2011.11.004

O. Cheng, W. Abdulla and Z. Salcic, "Hardware–Software Codesign of Automatic Speech Recognition System for Embedded Real-Time Applications," in IEEE Transactions on Industrial Electronics, vol. 58, no. 3, pp. 850-859, March 2011, DOI: https://doi.org/10.1109/TIE.2009.2022520

F. Barkani, H. Satori, M. Hamidi, O. Zealouk and N. Laaidi, "Amazigh Speech Recognition Embedded System," 2020 1st Inter-national Conference on Innovative Research in Applied Science, Engineering and Technology (IRASET), 2020, pp. 1-5, DOI: https://doi.org/10.1109/IRASET48871.2020.9092014

A. G. Howard M. Zhu B. Chen D. Kalenichenko W. Wang T. Weyand et al. "Mobilenets: Efficient convolutional neural networks for mobile vision applications" arXiv preprint arXiv 17 Apr 2017, pp. 1-9, DOI: https://doi.org/10.48550/arXiv.1704.04861

D. Sinha and M. El-Sharkawy, "Ultra-thin MobileNet," 2020 10th Annual Computing and Communication Workshop and Con-ference (CCWC), 2020, pp. 0234-0240, DOI: https://doi.org/10.1109/CCWC47524.2020.9031228

Y. -C. Ling, H. -H. Chin, H. -I. Wu and R. -S. Tsay, "Designing A Compact Convolutional Neural Network Processor on Em-bedded FPGAs," 2020 IEEE Global Conference on Artificial Intelligence and Internet of Things (GCAIoT), 2020, pp. 1-7, DOI: https://doi.org/10.1109/GCAIoT51063.2020.9345903

S. M. A. H. Jafri, A. Hemani and L. Intesa, "SPEED: Open-Source Framework to Accelerate Speech Recognition on Embedded GPUs," 2017 Euromicro Conference on Digital System Design (DSD), 2017, pp. 94-101, DOI: https://doi.org/10.1109/DSD.2017.89.

F. Raffaeli and S. Awad, "Portable low-cost platform for embedded speech analysis and synthesis," 2016 12th International Computer Engineering Conference (ICENCO), 2016, pp. 117-122, DOI: https://doi.org/10.1109/ICENCO.2016.7856455

A. P. Pant, K. -R. Wu and Y. -C. Tseng, "Speak to Action: Offline and Hybrid Language Recognition on Embedded Board for Smart Control System," 2020 International Computer Symposium (ICS), 2020, pp. 85-90, DOI: https://doi.org/10.1109/ICS51289.2020.00026

F. Sutton, R. Da Forno, R. Lim, M. Zimmerling and L. Thiele, "Demonstration abstract: Automatic speech recognition for re-source-constrained embedded systems," IPSN-14 Proceedings of the 13th International Symposium on Information Processing in Sensor Networks, 2014, pp. 323-324, DOI: https://doi.org/10.1109/IPSN.2014.6846784.

I. Kramberger, M. Grasic and T. Rotovnik, "Door phone embedded system for voice based user identification and verification platform," in IEEE Transactions on Consumer Electronics, vol. 57, no. 3, pp. 1212-1217, August 2011, DOI: https://doi.org/10.1109/TCE.2011.6018876.

Q. Qu and L. Li, "Realization of embedded speech recognition module based on STM32," 2011 11th International Symposium on Communications & Information Technologies (ISCIT), 2011, pp. 73-77, DOI: https://doi.org/10.1109/ISCIT.2011.6092186.

“TensorFlow”, TensorFlow.org URL: https://www.tensorflow.org/ (access data 05.06.2022)

"Keras: The Python deep learning API", Keras: the Python deep learning API. URL: https://keras.io/ (access data 04.06.2022).

C. M. J. Galangque and S. A. Guirnaldo, "Speech Recognition Engine using ConvNet for the development of a Voice Command Controller for Fixed Wing Unmanned Aerial Vehicle (UAV)," 2019 12th International Conference on Information & Communi-cation Technology and System (ICTS), 2019, pp. 93-97, DOI: https://doi.org/10.1109/ICTS.2019.8850961.

J. Dudak, M. Kebisek, G. Gaspar and P. Fabo, "Implementation of machine learning algorithm in embedded devices," 2020 19th International Conference on Mechatronics - Mechatronika (ME), 2020, pp. 1-6, DOI: https://doi.org/10.1109/ME49197.2020.9286705.

X. Huang, A. Acero, H.-W. Hon, R. Reddy, “Spoken Language Processing - A Guide to Theory, Algorithm, and System Development”, Prentice Hall, 2001, 965pp.

Gu, J., et al., “Recent advances in convolutional neural networks”, Pattern Recognition, 2018, 77: pp. 354-377, DOI: https://doi.org/10.48550/arXiv.1512.07108

S. Kiranyaz, T. Ince, O. Abdeljaber, O. Avci and M. Gabbouj, "1-D Convolutional Neural Networks for Signal Processing Ap-plications," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 8360-8364, DOI: https://doi.org/10.1109/ICASSP.2019.8682194.

A. Shenfield, M. Howarth. "A Novel Deep Learning Model for the Detection and Identification of Rolling Element-Bearing Faults" Sensors 2020, 20, 5112. DOI: https://doi.org/10.3390/s20185112

Edge impulse, edgeimpulse.com, URL: https://www.edgeimpulse.com/ (access data 05.06.2022).

Arduino Nano 33 BLE, store.arduino.cc, URL: https://store.arduino.cc/products/arduino-nano-33-ble (access data 05.06.2022).