Новые модели для распознавания русской речи в библиотеке Vosk

Kate · 19 Ноя 2021

Разработчики библиотеки Vosk опубликовали новые модели для распознавания русской речи: серверная vosk-model-ru-0.22 и мобильная Vosk-model-small-ru-0.22. В моделях используются новые речевые данные, а также новая нейро-сетевая архитектура, что позволило повысить точность распознавания на 10-20%. Код и данные распространяются под лицензией Apache 2.0.
Важные изменения:

Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.
Новая схема извлечения звука позволила значительно улучшить точность распознавания для широкополосных записей. В то же время, точность распознавания телефонии тоже улучшилось.
Пакет для дополнения словаря позволяет настроить распознавание сложных технических записей.

Для наилучшей точности рекомендуется обновить и версию Воска до 0.3.32. Также могут быть интересны новые возможности Воска - интеграции с Unity, Nativescript, Jigasi. Модели для распознавания казахского и украинского языков. Серверной модели для работы нужен современный процессор и 8Гб памяти. Мобильная модель может использоваться в телефонах и RaspberryPi 3+.