0
0
1717

Исследователи Сбера повысили точность распознавания русского языка искусственным интеллектом

11:37 21.08.2025


Исследователи Сбера нашли способ повысить качество распознавания русского языка искусственным интеллектом (AI). Новый метод предобучения AI-моделей, получивший название HuBERT-CTC, использует целевые переменные из CTC-модели распознавания (Connectionist Temporal Classification). Это позволяет формировать более семантические представления данных, в то время как существующие модели (wav2vec2.0, HuBERT и BEST-RQ) опираются на низкоуровневые акустические переменные.

Исследование подробно описано в научной статье «GigaAM: Efficient Self-Supervised Learner for Speech Recognition» («GigaAM: эффективный метод предобучения для распознавания речи») и представлено на международной конференции Interspeech 2025 — ключевом событии в области речевых технологий. Метод уже показал отличные результаты для русского языка. Он снижает количество ошибок распознавания (Word Error Rate) на 50% по сравнению с моделью Whisper-large-v3 от OpenAI.

Метод также решает ключевую проблему индустрии — зависимость от дефицитных размеченных аудиоданных. Self-supervised обучение позволяет моделям учиться на огромных массивах неразмеченных данных. Это открывает путь к созданию качественных систем для любых языков и специализированных доменов. Технология масштабируется по размеру модели и объёму данных. Динамическое маскирование self-attention наделяет модель уникальной гибкостью: одна архитектура работает в онлайн- и офлайн-режиме без необходимости инвестирования в переобучение.

Решение, предложенное исследователями Сбера, имеет большое практическое значение для сервисов автоматического распознавания речи и голосовых помощников, контакт-центров и систем аналитики телефонных звонков. Новый метод может быть очень востребован в мультимодальных системах, например, в чат-ботах с аудиопотоком. Исследователи получают новый мощный инструмент предобучения моделей. Открытый код позволяет AI-сообществу дообучать модели искусственного интеллекта и применять его под свои языки и задачи.

«Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления, – отметил технический директор GigaChat Сбербанка Фёдор Минькин. – Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных. Думаю, что метод HuBERT-CTC может стать новым стандартом для индустрии, ускорит прогресс и заложит основу для следующего поколения голосовых интерфейсов».


Оставлять комментарии могут только авторизованные пользователи.

Вам необходимо Войти или Зарегистрироваться

комментарии(0)


Вы можете оставить комментарии.


Комментарии отключены - материал старше 3 дней

Новости


14:10 05.10.2025
Зеленский: «Одностороннее прекращение огня в небе возможно»
0
281
11:44 05.10.2025
Поставка Киеву ракет Tomahawk разрушит позитивные тенденции в отношениях РФ и США - Путин
0
410
11:05 05.10.2025
Премьер Грузии сказал, что в Молдавии сложилась «трагическая ситуация»
0
480
09:46 05.10.2025
Страны мира «роют окопы и ждут начала» войны - Вучич
0
560
09:00 05.10.2025
В Чехии победа партии ANO евроскептика Бабиша может принести «новую головную боль» ЕС - СМИ
0
494
20:13 04.10.2025
В составе федеральной полиции ФРГ появилось подразделение для борьбы с дронами
0
956
19:50 04.10.2025
Стала известна дата непрямых переговоров Израиля и ХАМАС
0
1021
17:35 04.10.2025
Кобахидзе: «Грузинская мечта» уверенно побеждает на выборах … во всех муниципалитетах
0
1172
17:30 04.10.2025
Оппозиционная «Акция недовольных граждан» лидирует на выборах в нижнюю палату парламента Чехии
0
1115
15:48 04.10.2025
БПЛА, летавшие накануне над аэропортом Мюнхена, были разведывательными - СМИ
0
1292

Возврат к списку