0
1
2262

Уступают только человеку: языковые модели от SberDevices стали лучшими в мире по пониманию текстов на русском языке

12:42 25.08.2021


По оценкам главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE, разработанная SberDevices текстовая модель ruRoberta-large finetune стала лидером по пониманию текста, уступая по точности только человеку. В шестёрку лучших вошли также еще 4 модели от SberDevices: ruT5-large-finetune, ruBert-large finetune, ruT5-base-finetune, ruBert-base finetune.

Продвинутая версия языковой модели Сбера ruBERT - ruRoBERTa, конструкционно тот же BERT, обученный на большом корпусе текста, только на задачу восстановления маскированных токенов, на большом батч-сайзе и с токенизатором BBPE от нейросети ruGPT-3. Обучение модели на суперкомпьютере «Кристофари» заняло три недели, итоговый датасет (250 Гб текста) был похож на тот, что использовался для ruGPT-3, но из него был удалён английский и часть «грязного» Common Crawl. Лидерборд Russian SuperGLUE (General Language Understanding Evaluation) — первый рейтинг нейросетей для русского языка. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными нейросетями.

Оценка общего понимания языка начинается в рейтинге с набора тестов, отражающих различные языковые явления — диагностического датасета. Он призван выявить, насклько модель ruRoberta-large finetune понимает и отражает те или иные особенности и феномены языка.

Также, модель оценивается с помощью различных заданий, среди которых DaNetQA — набор вопросов на здравый смысл и знание, с ответом «да» или «нет», RCB (Russian Commitment Bank) — классификация наличия причинно-следственных связей между текстом и гипотезой из него, PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла и другие.

“Лучшие специалисты Сбера несколько лет занимаются совершенствованием нейросетей для русского языка. Для их объективной оценки мы разработали первый в своём роде лидерборд Russian SuperGLUE, который чётко показывает прогресс в данной работе. Наша конечная цель — создание надёжных интеллектуальных систем для решения разноплановых задач на русском языке, которые могут стать предшественниками сильного искусственного интеллекта отечественной сборки”, - рассказал Давид Рафаловский, исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии».


Оставлять комментарии могут только авторизованные пользователи.

Вам необходимо Войти или Зарегистрироваться

комментарии(0)


Вы можете оставить комментарии.


Комментарии отключены - материал старше 3 дней

Новости


12:32 23.01.2026
Три спецборта МЧС РФ доставят на Камчатку технику для уборки снега
0
13
12:20 23.01.2026
В Германии предложили вернуть из США хранящийся там золотой запас из-за политики Трампа
0
64
12:05 23.01.2026
В Крыму задержаны двое россиян за диверсии по указанию Киева — ФСБ
0
106
12:00 23.01.2026
Вэнс заявил, что США «из любви к Европе» требуют от ЕС ужесточения миграционной политики
0
105
11:32 23.01.2026
Публикация Трампом переписки с Макроном и Рютте подорвала доверие к США — Politico
0
173
11:20 23.01.2026
Мир устал от клоунов, не имеющих независимой армии — глава МИД Ирана о Зеленском
0
185
11:05 23.01.2026
В госбюджете Польши нет $1 млрд для взноса в Совет мира — министр финансов
0
195
11:00 23.01.2026
США изучают возможность полностью вывести войска из Сирии — WSJ
0
193
10:33 23.01.2026
Отель «Манжерок» стал первым на Алтае, сертифицированным по стандарту China Friendly
0
235
10:32 23.01.2026
США вышли из ВОЗ, не выплатив организации $260 млн долга — Bloomberg
0
235

Возврат к списку