Сбер выложил в открытый доступ экспериментальную диффузионную языковую модель и метод ее обучения

11:55 03.07.2026

Сбер разработал и опубликовал первую диффузионную языковую модель GFusion на основе GigaChat. Это экспериментальный проект в одном из самых динамичных направлений генеративного ИИ — он будет полезен исследователям и разработчикам, которые создают собственные диффузионные модели.

Классические LLM генерируют текст последовательно, слово за словом (авторегрессия), поэтому, чтобы исправить одну ошибку, модель вынуждена переписывать весь ответ заново. GFusion работает иначе: сначала создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео. За счёт параллельной генерации GFusion пишет текст быстрее: по тестам Сбера — до 45% быстрее GigaChat 3, на основе которого она обучалась.

Диффузионные модели быстрее: токены генерируются не по одному, а сразу пачками. Их генерация более гибкая: в отличие от авторегрессионных моделей, текст не обязательно пишется строго слева направо — модель сама выбирает, какую часть ответа дополнить на каждом шаге. Диффузионные модели также извлекают больше информации из ограниченного объема данных, обучаясь на одном и том же датасете несколько раз.

Автор проекта — инженер машинного обучения Сбера Даниил Тихонов. Он пришёл в Сбер стажёром — студентом 4-м курса Факультета компьютерных наук НИУ ВШЭ — и создал модель в качестве проектной работы. Даниил успешно защитил диплом и уже работает в штате банка в команде фундаментальных моделей.

Вместе с моделью Сбер опубликовал инструменты, ускоряющие обучение диффузионных моделей — первый такой опенсорс-проект в России. Они позволяют разработчикам обучать свои модели быстрее и с меньшим числом видеокарт. Кроме того, команда внесла изменения в SGLang — один из самых популярных в мире опенсорс-инструментов для запуска языковых моделей. Разработчики добавили в него поддержку GFusion и нового алгоритма генерации, который улучшает качество работы любых диффузионных моделей.

«Диффузионные модели лучше структурируют ответы и могут генерировать текст непоследовательно, самостоятельно выбирая порядок его написания, – отметил Даниил Тихонов. – Они эффективнее используют ограниченный объём данных при обучении по сравнению с классическими LLM. Это пока во многом открытое направление — устоявшихся архитектурных стандартов здесь меньше, а значит, больше пространства для собственных решений. Надеемся, что открытый релиз GFusion даст другим командам рабочую точку отсчёта и поможет быстрее развивать это направление».

«Диффузионные языковые модели — одно из самых перспективных и сложных направлений в генеративном ИИ, и у нас в команде стажёр смог не просто разобраться в архитектуре, а довести модель до открытого релиза, – отметил Фёдор Минькин, технический директор фундаментальных моделей GigaChat. – Для меня показатель уровня задач, которые мы доверяем молодым исследователям. Насколько нам известно, это первая выпущенная в опенсорс диффузионная модель для генерации текста такого масштаба в России. Это хороший сигнал: сильные исследования в ИИ всё чаще двигают именно молодые специалисты, и мы рады, что у них есть для этого все условия в Сбере».

Мировое сообщество разработчиков видит в диффузионных языковых моделях огромный потенциал. Это направление активно развивается с конца 2025 года — сегодня такие модели уже обеспечивают автодополнение кода в реальном времени, агентные сценарии и поддерживают приложения, критичные к задержкам. Приоритетная задача — обеспечить в dLLM высокое качество ответов и способность к рассуждению на уровне LLM.