Ученые Сбера выяснили, что большие языковые модели можно оптимизировать до 15% без потери качества

10:28 31.05.2024

Ученые Сбера, лаборатории Fusion Brain Института AIRI и Сколтеха обнаружили принципиально новое свойство больших языковых моделей и научились контролировать его. Это позволит оптимизировать модели-трансформеры на 10–15% без потери в качестве, экономя вычислительные мощности.

Модели с трансформерной архитектурой лежат в основе диалоговых ботов. В таких моделях множество слоев: от входа (например, запроса «Нарисуй кота») информация доходит до выхода и преобразуется в картинку. Принято считать, что линейность слоев –– свойство самых слабых моделей, а нелинейность – сильных, то есть тех же самых трансформеров. Линейность обеспечивает простоту и эффективность в вычислениях, но при этом модель не может решать сложные задачи, такие как выучивать необычные закономерности в данных.

Исследователи изучили устройство 20 известных open source языковых моделей по типу декодера и выяснили, что между эмбеддингами (числовые представления данных) есть высокая линейная зависимость. Соответственно, при переходе от слоя к слою информация не претерпевает нелинейных преобразований, и сложную архитектуру трансформера можно заменить намного более легкими слоями нейросети.

Чтобы избежать проявления негативных свойств линейности во время предобучения и улучшить метрики качества модели, специалисты разработали специальный регуляризатор. Это позволило заменить сложные блоки слоев модели на более простые. В ходе экспериментов выяснилось, что облегчать без потери качества можно от 10 до 15% слоев.

«Одним из вызовов развития AI-технологий, в особенности больших языковых моделей (представителей ветки GenAI), остается потребность в вычислительных ресурсах для обучения следующего поколения SOTA-моделей, – отметил Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка. – В основе большинства архитектур GenAI лежат блоки трансформеров, и в опубликованной работе выявлена линейность в некоторых представлениях данных внутри этих блоков. Как следствие, это позволяет существенно оптимизировать архитектуры с точки зрения вычислительных мощностей, снизить нагрузку, получить результат за меньшее время за счет адаптивной регуляризации. Потенциал сокращения вычислительных ресурсов на обучении оценивается в порядке до 10%. Мы в Сбере планируем провести тестирование рассмотренной идеи и в случае успеха – тиражировать ее на флагманские модели GenAI. Поиск таких смекалок в AI-архитектурах позволяет частично компенсировать вычислительный голод, поэтому продолжим поддержку таких исследований в направлении обучения больших моделей».

«Нам удалось изучить модели под микроскопом, простыми средствами описать сложные процессы внутри трансформеров и сразу предложить эффективный регуляризатор, – рассказал Иван Оселедец, доктор физико-математических наук, СЕО Института AIRI, профессор Сколтеха. – Мы уже все проверили на маленьких моделях, проверки на больших моделях и обучении – впереди. Обнаруженный эффект кажется очень контринтуитивным, он противоречит многим представлениям о глубоком обучении. В то же время именно он позволяет тратить меньше вычислительных ресурсов на развертку и инференс больших языковых моделей. На днях мы выложили препринт статьи, а она уже обогнала публикации от Google, Microsoft, MIT и Adobe в списке статей дня на HuggingFace. Понимая важность работы для научного сообщества, мы поделились регуляризатором с коллегами и опубликовали его в открытом доступе».

Статья с результатами исследования принята к публикации на одну из наиболее престижных конференций в сфере искусственного интеллекта в мире – ACL 2024 (Main Track, Core A*).

комментарии(0)

Вы можете оставить комментарии.

Комментарии отключены - материал старше 3 дней

Новости

10:05 24.01.2024

КНДР запустила несколько крылатых ракет в сторону Желтого моря — Рёнхап

11367

09:32 24.01.2024

Жители Николаева отмечают большие колонны техники ВСУ, идущие в сторону Херсонской области

11736

09:05 24.01.2024

Силы ПВО РФ перехватили 4 украинских дрона над Орловской областью

11053

20:00 23.01.2024

ВМФ РФ получит первый боевой ледокол «Иван Папанин» в этом году — главком

11387

17:00 23.01.2024

В подконтрольном Киеву городе Херсоне вновь слышны взрывы

11356

14:32 23.01.2024

ВС РФ нанесли удар высокоточным оружием по объектам ВПК Украины

11348

13:00 23.01.2024

Удар ВС РФ по Киеву и Харькову нельзя считать ответом на удар ВСУ по Донецку — Песков

11222

12:32 23.01.2024

НАТО подписала контракт на $1,2 млрд на закупку боеприпасов калибра 155 мм

11388

12:05 23.01.2024

Белгородскую область атаковали более десяти украинских беспилотников за сутки

11248

10:20 23.01.2024

В Белоруссии началась штабная тренировка Вооруженных сил — Минобороны

11108

Возврат к списку

Поделиться

Ученые Сбера выяснили, что большие языковые модели можно оптимизировать до 15% без потери качества

комментарии(0)

Новости

Поделиться

Поделиться

Поделиться

Поделиться

Поделиться

Поделиться

Поделиться

Поделиться

Поделиться

Поделиться