Исследователи Сбера повысили точность распознавания русского языка искусственным интеллектом
11:37 21.08.2025
Исследователи Сбера нашли способ повысить качество распознавания русского языка искусственным интеллектом (AI). Новый метод предобучения AI-моделей, получивший название HuBERT-CTC, использует целевые переменные из CTC-модели распознавания (Connectionist Temporal Classification). Это позволяет формировать более семантические представления данных, в то время как существующие модели (wav2vec2.0, HuBERT и BEST-RQ) опираются на низкоуровневые акустические переменные.
Исследование подробно описано в научной статье «GigaAM: Efficient Self-Supervised Learner for Speech Recognition» («GigaAM: эффективный метод предобучения для распознавания речи») и представлено на международной конференции Interspeech 2025 — ключевом событии в области речевых технологий. Метод уже показал отличные результаты для русского языка. Он снижает количество ошибок распознавания (Word Error Rate) на 50% по сравнению с моделью Whisper-large-v3 от OpenAI.
Метод также решает ключевую проблему индустрии — зависимость от дефицитных размеченных аудиоданных. Self-supervised обучение позволяет моделям учиться на огромных массивах неразмеченных данных. Это открывает путь к созданию качественных систем для любых языков и специализированных доменов. Технология масштабируется по размеру модели и объёму данных. Динамическое маскирование self-attention наделяет модель уникальной гибкостью: одна архитектура работает в онлайн- и офлайн-режиме без необходимости инвестирования в переобучение.
Решение, предложенное исследователями Сбера, имеет большое практическое значение для сервисов автоматического распознавания речи и голосовых помощников, контакт-центров и систем аналитики телефонных звонков. Новый метод может быть очень востребован в мультимодальных системах, например, в чат-ботах с аудиопотоком. Исследователи получают новый мощный инструмент предобучения моделей. Открытый код позволяет AI-сообществу дообучать модели искусственного интеллекта и применять его под свои языки и задачи.
«Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления, – отметил технический директор GigaChat Сбербанка Фёдор Минькин. – Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных. Думаю, что метод HuBERT-CTC может стать новым стандартом для индустрии, ускорит прогресс и заложит основу для следующего поколения голосовых интерфейсов».
Новости
- 21:00 21.08.2025
- Трамп сообщил, что лично вместе с гвардией пойдет ночью патрулировать улицы Вашингтона
- 20:45 21.08.2025
- Нетаньяху : Я прибыл в сектор Газа, чтобы утвердить планы армии по захвату города Газа
- 20:30 21.08.2025
- Трамп дал две недели на определение возможности мирного урегулирования на Украине
- 20:30 21.08.2025
- Сборник The Beatles Anthology 4 выйдет в свет в сентябре – Пол Маккартни
- 20:00 21.08.2025
- Задержанный в Италии по подозрению в подрыве «Северных потоков» украинец раньше служил в ВСУ и СБУ - WSJ
- 19:45 21.08.2025
- Падение БПЛА в Воронежской области привело к задержке более 70 поездов дальнего следования
- 18:50 21.08.2025
- Экзамен для кандидатов в председатели Верховного суда РФ, так как не поступило ни одной заявки
- 17:40 21.08.2025
- Минтранс РФ ожидает, что к 2050 г. 50% всех транспортных средств будут беспилотными
- 17:12 21.08.2025
- «Ангара-1.2» вывела на орбиту военные спутники
- 17:00 21.08.2025
- Украина будет «дисфункциональным государством-обрубком», если продолжит конфликт — эксперт
Комментировать
комментарии(0)
Комментировать