Сбер выложил в открытый доступ экспериментальную диффузионную языковую модель и метод ее обучения
11:55 03.07.2026
Сбер разработал и опубликовал первую диффузионную языковую модель GFusion на основе GigaChat. Это экспериментальный проект в одном из самых динамичных направлений генеративного ИИ — он будет полезен исследователям и разработчикам, которые создают собственные диффузионные модели.
Классические LLM генерируют текст последовательно, слово за словом (авторегрессия), поэтому, чтобы исправить одну ошибку, модель вынуждена переписывать весь ответ заново. GFusion работает иначе: сначала создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео. За счёт параллельной генерации GFusion пишет текст быстрее: по тестам Сбера — до 45% быстрее GigaChat 3, на основе которого она обучалась.
Диффузионные модели быстрее: токены генерируются не по одному, а сразу пачками. Их генерация более гибкая: в отличие от авторегрессионных моделей, текст не обязательно пишется строго слева направо — модель сама выбирает, какую часть ответа дополнить на каждом шаге. Диффузионные модели также извлекают больше информации из ограниченного объема данных, обучаясь на одном и том же датасете несколько раз.
Автор проекта — инженер машинного обучения Сбера Даниил Тихонов. Он пришёл в Сбер стажёром — студентом 4-м курса Факультета компьютерных наук НИУ ВШЭ — и создал модель в качестве проектной работы. Даниил успешно защитил диплом и уже работает в штате банка в команде фундаментальных моделей.
Вместе с моделью Сбер опубликовал инструменты, ускоряющие обучение диффузионных моделей — первый такой опенсорс-проект в России. Они позволяют разработчикам обучать свои модели быстрее и с меньшим числом видеокарт. Кроме того, команда внесла изменения в SGLang — один из самых популярных в мире опенсорс-инструментов для запуска языковых моделей. Разработчики добавили в него поддержку GFusion и нового алгоритма генерации, который улучшает качество работы любых диффузионных моделей.
«Диффузионные модели лучше структурируют ответы и могут генерировать текст непоследовательно, самостоятельно выбирая порядок его написания, – отметил Даниил Тихонов. – Они эффективнее используют ограниченный объём данных при обучении по сравнению с классическими LLM. Это пока во многом открытое направление — устоявшихся архитектурных стандартов здесь меньше, а значит, больше пространства для собственных решений. Надеемся, что открытый релиз GFusion даст другим командам рабочую точку отсчёта и поможет быстрее развивать это направление».
«Диффузионные языковые модели — одно из самых перспективных и сложных направлений в генеративном ИИ, и у нас в команде стажёр смог не просто разобраться в архитектуре, а довести модель до открытого релиза, – отметил Фёдор Минькин, технический директор фундаментальных моделей GigaChat. – Для меня показатель уровня задач, которые мы доверяем молодым исследователям. Насколько нам известно, это первая выпущенная в опенсорс диффузионная модель для генерации текста такого масштаба в России. Это хороший сигнал: сильные исследования в ИИ всё чаще двигают именно молодые специалисты, и мы рады, что у них есть для этого все условия в Сбере».
Мировое сообщество разработчиков видит в диффузионных языковых моделях огромный потенциал. Это направление активно развивается с конца 2025 года — сегодня такие модели уже обеспечивают автодополнение кода в реальном времени, агентные сценарии и поддерживают приложения, критичные к задержкам. Приоритетная задача — обеспечить в dLLM высокое качество ответов и способность к рассуждению на уровне LLM.
Новости
- 13:12 03.07.2026
- В Армении ограничили право на голосование граждан, проживающих за границей
- 13:00 03.07.2026
- Уиткофф и Кушнер почти ежедневно поддерживают связь с представителями РФ — NYT
- 12:32 03.07.2026
- США передавали Ирану информацию для предотвращения ликвидации его лидеров Израилем — WP
- 12:20 03.07.2026
- Минфин ожидает дополнительные нефтегазовые доходы бюджета в июле на уровне 147,3 млрд руб.
- 12:05 03.07.2026
- Ситуация с топливом отразится на ВВП II квартала, но отрицательных значений не будет — ЦБ
- 12:00 03.07.2026
- МИД КНР опроверг обвинения США в незаконном рыболовстве
- 11:40 03.07.2026
- ЦБ поддержал публикацию рейтинга компаний ипотечного страхования жизни
- 11:33 03.07.2026
- РФ за год вернула Киеву 20 354 тела военных, в ответ получила 627 — Мирошник
- 11:20 03.07.2026
- Белый дом отклонил план Хегсета по дальнейшему сокращению ВС в Европе — WSJ
- 11:05 03.07.2026
- Премьер Болгарии подтвердил готовность наложить вето на 21-й пакет санкций против РФ


Комментировать
комментарии(0)
Комментировать