Порівняльний аналіз моделей для розпізнавання українського мовлення Whsiper та Vosk

Шукати за:

Роком видання

Автором

Назвою статті

https://doi.org/10.15407/jai2025.03.094

Порівняльний аналіз моделей для розпізнавання українського мовлення Whsiper та Vosk

Луц В.Є.¹, Безверхий О.І.¹

¹ Національний транспортний університет

tibet.septim@gmail.com; o_bezver@ukr.net

https://orcid.org/0009-0001-2948-6935 https://orcid.org/0000-0002-0834-6335

Повний текст (PDF)

УДК: 004.8
Мова публікації: Українська
Stuc. intelekt. 2025; 30; (3):94-102

Анотація: У цій статті представлено порівняльний аналіз двох підходів до автоматичного розпізнавання мовлення (ASR) — трансформерної фокусної архітектури Whisper та Kaldi‑орієнтованого рішення Vosk – із фокусом на розпізнавання української мови. Дослідження побудовано на експериментах, виконаних за допомогою двох бенчмарків: faster‑whisper на GPU та локальних моделей Vosk на CPU. Оцінка проводилася з використанням стандартних метрик: Word Error Rate (WER) для вимірювання точності та Real-Time Factor (RTF) і середнього часу обробки для оцінки швидкості. Перед порівнянням тексти нормалізовані (усунення пунктуації, приведення до нижнього регістру, усунення зайвих пробілів) для забезпечення коректності підрахунку WER. Результати свідчень, які при наявності апаратного прискорення Whisper демонструють нижчі значення WER і значно кращу пропускну здатність порівнянно з Vosk на CPU, особливо для моделей medium та large-v3. Натомість Vosk підтверджує свою конкурентоспроможність у сценаріях з обмеженими ресурсами: він споживає менше пам’яті, є стабільним і детермінованим у повторних прогонках, що робить його придатним для вбудованих та офлайн‑рішень. У статті також обговорено обмеження дослідження, зокрема невеликий тестовий набір даних і залежність результатів від параметрів апаратного забезпечення та налаштування декодування. На основі отриманих висновків сформульовано практичні рекомендації щодо вибору архітектури: для сервісів, де доступний GPU та критична точність — використання Whisper середнього/великого розміру; для автономних систем з обмеженими ресурсами — Vosk. Подальші дослідження потребують розширених наборів даних, адаптації моделей під локальну лексику та повноцінного аналізу варіантів гібридних розгортань.

Ключові слова: штучний інтелект, інформаційні системи, розпізнавання мовлення, мовні моделі, українська мова, інформаційні технології, Vosk, Whisper, WER, RTF, CUDA

Посилання:

Radford, A. (2022). Whisper: Robust speech recognition. OpenAI Technical Report. Отримано з https://cdn.openai.com/papers/whisper.pdf
Povey, D. (2011). The Kaldi speech recognition toolkit. Отримано з https://kaldi-asr.org/
Alphacephei. Vosk API documentation. Отримано з https://alphacephei.com/vosk/
Jurafsky, D., & Martin, J.H. (2020). Speech and language processing (3rd ed.). Prentice Hall. Отримано з https://web.stanford.edu/~jurafsky/slp3/
Han, K. (2020). ContextNet: Improving convolutional neural networks for ASR. Отримано з https://arxiv.org/abs/2005.03191
Park, D.S. (2019). SpecAugment: A simple data augmentation method for ASR. Отримано з https://arxiv.org/abs/1904.08779
Pratap, V. (2020). Wav2letter++: The fastest open-source speech recognition system. ICASSP. Отримано з https://arxiv.org/abs/1812.07625
Kuchayev, O. (2019). Mixed precision training for speech recognition. ICASSP. Отримано з https://doi.org/10.1109/ICASSP.2019.8682590
Tóth, L. (2015). Combining articulatory and acoustic information in DNN-based ASR. Computer Speech & Language. Отримано з https://doi.org/10.1016/j.csl.2015.06.001
Besacier, L.,(2014). Automatic speech recognition for under-resourced languages. Speech Communication. Отримано з https://doi.org/10.1016/j.specom.2014.01.002
Panayotov, V. (2015). Librispeech: An ASR corpus based on public domain audiobooks. ICASSP. Отримано з https://doi.org/10.1109/ICASSP.2015.7178964
Jiwer. Jiwer Python library documentation. Отримано з https://github.com/jitsi/jiwer
NVIDIA. (2023). CUDA toolkit documentation. Отримано з https://docs.nvidia.com/cuda/
Chan, W. (2016). Listen, attend and spell. ICASSP. Отримано з https://doi.org/10.1109/ICASSP.2016.7472621
Baevski, A. (2020). Wav2vec 2.0: A framework for self-supervised learning of speech representations. NeuroIPS. Отримано з https://arxiv.org/abs/2006.11477
Stolcke, A. (2017). Effects of language model size on speech recognition performance. ICASSP. Retrieved from https://doi.org/10.1109/ICASSP.2017.7952696
Williams, W. (2019). Contextual speech recognition in end-to-end neural models. Отримано з https://www.isca-speech.org/archive/Interspeech_2019/ williams19_Interspeech.html

Переглянути повний текст статті (PDF)

Штучний інтелект

Науковий журнал

Шукати за:

Порівняльний аналіз моделей для розпізнавання українського мовлення Whsiper та Vosk