Штучний інтелект

Науковий журнал

ISSN 2710-1673

ONLINE: ISSN 2710-1681

Виберіть свою мову


Порівняльний аналіз моделей для розпізнавання українського мовлення Whsiper та Vosk

Луц В.Є.1, Безверхий О.І.1
1 Національний транспортний університет
tibet.septim@gmail.com; o_bezver@ukr.net

Повний текст (PDF)

УДК: 004.8
Мова публікації: Українська
Stuc. intelekt. 2025; 30; (3):94-102

Анотація: У цій статті представлено порівняльний аналіз двох підходів до автоматичного розпізнавання мовлення (ASR) — трансформерної фокусної архітектури Whisper та Kaldi‑орієнтованого рішення Vosk – із фокусом на розпізнавання української мови. Дослідження побудовано на експериментах, виконаних за допомогою двох бенчмарків: faster‑whisper на GPU та локальних моделей Vosk на CPU. Оцінка проводилася з використанням стандартних метрик: Word Error Rate (WER) для вимірювання точності та Real-Time Factor (RTF) і середнього часу обробки для оцінки швидкості. Перед порівнянням тексти нормалізовані (усунення пунктуації, приведення до нижнього регістру, усунення зайвих пробілів) для забезпечення коректності підрахунку WER. Результати свідчень, які при наявності апаратного прискорення Whisper демонструють нижчі значення WER і значно кращу пропускну здатність порівнянно з Vosk на CPU, особливо для моделей medium та large-v3. Натомість Vosk підтверджує свою конкурентоспроможність у сценаріях з обмеженими ресурсами: він споживає менше пам’яті, є стабільним і детермінованим у повторних прогонках, що робить його придатним для вбудованих та офлайн‑рішень. У статті також обговорено обмеження дослідження, зокрема невеликий тестовий набір даних і залежність результатів від параметрів апаратного забезпечення та налаштування декодування. На основі отриманих висновків сформульовано практичні рекомендації щодо вибору архітектури: для сервісів, де доступний GPU та критична точність — використання Whisper середнього/великого розміру; для автономних систем з обмеженими ресурсами — Vosk. Подальші дослідження потребують розширених наборів даних, адаптації моделей під локальну лексику та повноцінного аналізу варіантів гібридних розгортань.

Ключові слова: штучний інтелект, інформаційні системи, розпізнавання мовлення, мовні моделі, українська мова, інформаційні технології, Vosk, Whisper, WER, RTF, CUDA

Посилання:

  1. Radford, A. (2022). Whisper: Robust speech recognition. OpenAI Technical Report. Отримано з https://cdn.openai.com/papers/whisper.pdf
  2. Povey, D. (2011). The Kaldi speech recognition toolkit. Отримано з https://kaldi-asr.org/
  3. Alphacephei. Vosk API documentation. Отримано з https://alphacephei.com/vosk/
  4. Jurafsky, D., & Martin, J.H. (2020). Speech and language processing (3rd ed.). Prentice Hall. Отримано з https://web.stanford.edu/~jurafsky/slp3/
  5. Han, K. (2020). ContextNet: Improving convolutional neural networks for ASR. Отримано з https://arxiv.org/abs/2005.03191
  6. Park, D.S. (2019). SpecAugment: A simple data augmentation method for ASR. Отримано з https://arxiv.org/abs/1904.08779
  7. Pratap, V. (2020). Wav2letter++: The fastest open-source speech recognition system. ICASSP. Отримано з https://arxiv.org/abs/1812.07625
  8. Kuchayev, O. (2019). Mixed precision training for speech recognition. ICASSP. Отримано з https://doi.org/10.1109/ICASSP.2019.8682590
  9. Tóth, L. (2015). Combining articulatory and acoustic information in DNN-based ASR. Computer Speech & Language. Отримано з https://doi.org/10.1016/j.csl.2015.06.001
  10. Besacier, L.,(2014). Automatic speech recognition for under-resourced languages. Speech Communication. Отримано з https://doi.org/10.1016/j.specom.2014.01.002
  11. Panayotov, V. (2015). Librispeech: An ASR corpus based on public domain audiobooks. ICASSP. Отримано з https://doi.org/10.1109/ICASSP.2015.7178964
  12. Jiwer. Jiwer Python library documentation. Отримано з https://github.com/jitsi/jiwer
  13. NVIDIA. (2023). CUDA toolkit documentation. Отримано з https://docs.nvidia.com/cuda/
  14. Chan, W. (2016). Listen, attend and spell. ICASSP. Отримано з https://doi.org/10.1109/ICASSP.2016.7472621
  15. Baevski, A. (2020). Wav2vec 2.0: A framework for self-supervised learning of speech representations. NeuroIPS. Отримано з https://arxiv.org/abs/2006.11477
  16. Stolcke, A. (2017). Effects of language model size on speech recognition performance. ICASSP. Retrieved from https://doi.org/10.1109/ICASSP.2017.7952696
  17. Williams, W. (2019). Contextual speech recognition in end-to-end neural models. Отримано з https://www.isca-speech.org/archive/Interspeech_2019/ williams19_Interspeech.html

Переглянути повний текст статті (PDF)