Шукати за:
Порівняльний аналіз моделей для розпізнавання українського мовлення Whsiper та Vosk
Повний текст (PDF)
УДК: 004.8
Мова публікації: Українська
Stuc. intelekt. 2025; 30; (3):94-102
Анотація: У цій статті представлено порівняльний аналіз двох підходів до автоматичного розпізнавання мовлення (ASR) — трансформерної фокусної архітектури Whisper та Kaldi‑орієнтованого рішення Vosk – із фокусом на розпізнавання української мови. Дослідження побудовано на експериментах, виконаних за допомогою двох бенчмарків: faster‑whisper на GPU та локальних моделей Vosk на CPU. Оцінка проводилася з використанням стандартних метрик: Word Error Rate (WER) для вимірювання точності та Real-Time Factor (RTF) і середнього часу обробки для оцінки швидкості. Перед порівнянням тексти нормалізовані (усунення пунктуації, приведення до нижнього регістру, усунення зайвих пробілів) для забезпечення коректності підрахунку WER. Результати свідчень, які при наявності апаратного прискорення Whisper демонструють нижчі значення WER і значно кращу пропускну здатність порівнянно з Vosk на CPU, особливо для моделей medium та large-v3. Натомість Vosk підтверджує свою конкурентоспроможність у сценаріях з обмеженими ресурсами: він споживає менше пам’яті, є стабільним і детермінованим у повторних прогонках, що робить його придатним для вбудованих та офлайн‑рішень. У статті також обговорено обмеження дослідження, зокрема невеликий тестовий набір даних і залежність результатів від параметрів апаратного забезпечення та налаштування декодування. На основі отриманих висновків сформульовано практичні рекомендації щодо вибору архітектури: для сервісів, де доступний GPU та критична точність — використання Whisper середнього/великого розміру; для автономних систем з обмеженими ресурсами — Vosk. Подальші дослідження потребують розширених наборів даних, адаптації моделей під локальну лексику та повноцінного аналізу варіантів гібридних розгортань.
Ключові слова: штучний інтелект, інформаційні системи, розпізнавання мовлення, мовні моделі, українська мова, інформаційні технології, Vosk, Whisper, WER, RTF, CUDA
Посилання:
- Radford, A. (2022). Whisper: Robust speech recognition. OpenAI Technical Report. Отримано з https://cdn.openai.com/papers/whisper.pdf
- Povey, D. (2011). The Kaldi speech recognition toolkit. Отримано з https://kaldi-asr.org/
- Alphacephei. Vosk API documentation. Отримано з https://alphacephei.com/vosk/
- Jurafsky, D., & Martin, J.H. (2020). Speech and language processing (3rd ed.). Prentice Hall. Отримано з https://web.stanford.edu/~jurafsky/slp3/
- Han, K. (2020). ContextNet: Improving convolutional neural networks for ASR. Отримано з https://arxiv.org/abs/2005.03191
- Park, D.S. (2019). SpecAugment: A simple data augmentation method for ASR. Отримано з https://arxiv.org/abs/1904.08779
- Pratap, V. (2020). Wav2letter++: The fastest open-source speech recognition system. ICASSP. Отримано з https://arxiv.org/abs/1812.07625
- Kuchayev, O. (2019). Mixed precision training for speech recognition. ICASSP. Отримано з https://doi.org/10.1109/ICASSP.2019.8682590
- Tóth, L. (2015). Combining articulatory and acoustic information in DNN-based ASR. Computer Speech & Language. Отримано з https://doi.org/10.1016/j.csl.2015.06.001
- Besacier, L.,(2014). Automatic speech recognition for under-resourced languages. Speech Communication. Отримано з https://doi.org/10.1016/j.specom.2014.01.002
- Panayotov, V. (2015). Librispeech: An ASR corpus based on public domain audiobooks. ICASSP. Отримано з https://doi.org/10.1109/ICASSP.2015.7178964
- Jiwer. Jiwer Python library documentation. Отримано з https://github.com/jitsi/jiwer
- NVIDIA. (2023). CUDA toolkit documentation. Отримано з https://docs.nvidia.com/cuda/
- Chan, W. (2016). Listen, attend and spell. ICASSP. Отримано з https://doi.org/10.1109/ICASSP.2016.7472621
- Baevski, A. (2020). Wav2vec 2.0: A framework for self-supervised learning of speech representations. NeuroIPS. Отримано з https://arxiv.org/abs/2006.11477
- Stolcke, A. (2017). Effects of language model size on speech recognition performance. ICASSP. Retrieved from https://doi.org/10.1109/ICASSP.2017.7952696
- Williams, W. (2019). Contextual speech recognition in end-to-end neural models. Отримано з https://www.isca-speech.org/archive/Interspeech_2019/ williams19_Interspeech.html