Альянс в сфере искусственного интеллекта представил новый стандарт оценки больших языковых моделей
16:10 05.06.2025
Альянс в сфере искусственного интеллекта (ИИ) на конференции ЦИПР объявил о запуске нового раздела MERA «MERA Industrial» – бенчмарка для оценки больших языковых моделей (LLM) в различных отраслях. На платформе уже доступны бенчмарки по медицине и сельскому хозяйству, которые помогут компаниям и экспертам выбрать и внедрить LLM, максимально соответствующие их бизнес-задачам.
В настоящий момент на сайте размещены три задачи, две из которых по сельскому хозяйству и одна по медицине:
– ruTXTAgroBench: датасет, предназначенный для измерения профессиональных знаний модели, приобретенных в процессе предобучения в области агрономии. Состоит из 2935 оригинальных вопросов по агрономии, охватывающих ботанику, кормопроизводство и луговодство, мелиоративное земледелие, общую генетику, общее земледелие, основы селекции, растениеводство, семеноводство и семеноведение, системы земледелия на различных агроландшафтах, технологии возделывания сельскохозяйственных культур;
– ruTXTAquaBench: датасет, предназначенный для измерения профессиональных знаний модели, приобретенных в процессе предобучения в области аквакультуры. Состоит из 1102 задания по аквакультуре, включая индустриальную аквакультуру, кормление рыбы и гидробионтов, марикультуру (например, разведение раков, креветок, выращивание жемчуга), а также ихтиопатологию (ветеринария, профилактика и оптимизация технологий выращивания рыбы);
– ruTXTMedQFundamental: датасет, в котором охвачены 17 фундаментальных медицинских дисциплин от клеточной биологии до клинических практик (хирургия, терапия, лабораторная диагностика, фармакология). Тест включает 270 вопросов и 30 тренировочных задач по каждой дисциплине, что позволяет сопоставлять уровень знаний моделей с уровнем выпускника медицинского вуза.
Датасеты являются полностью оригинальными и составлены на русском языке.
Бенчмарк MERA Industrial создан при поддержке академического сообщества, в частности в проекте приняли участие Сколковский институт науки и технологий, Кубанский государственный аграрный университет, Национальный медицинский исследовательский центр имени В.А. Алмазова, РАНХиГС, Нижегородский государственный архитектурно-строительный университет и другие. Ведущими экспертами тщательно формулируются задания, чтобы обеспечить:
– достоверность информации на основе подтвержденных источников;
– полное покрытие отраслевой таксономии;
– разнообразие сложности и типов задач (от академических до практических кейсов);
– оригинальность формулировок и отсутствие интернет-заимствований.
MERA Industrial – это не только инструмент для оценки больших языковых моделей, но и площадка для формулирования новых задач и кейсов, валидации заданий, использования готовых бенчмарков для выбора и внедрения LLM в бизнес-процессы.
«Сегодня искусственный интеллект становится неотъемлемой частью бизнес-процессов в самых разных отраслях. И бизнесу как никогда нужны надежные инструменты для оценки больших языковых моделей, способных решать реальные отраслевые задачи с высокой точностью и достоверностью, – отметил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев. – Запуск нового бенчмарка MERA Industrial на площадке Альянса в сфере ИИ – это значимый шаг в сторону прозрачности и качества LLM моделей в различных отраслях, где важен каждый аспект: от проверки знаний модели до ее способности работать с уникальными бизнес-кейсами. В Сбере мы активно используем подобные инструменты оценки, чтобы внедрять только проверенные и эффективные решения для наших клиентов».
Бенчмарк MERA, созданный при участии команд Сбербанка, MTS AI, Skoltech AI и НИУ ВШЭ, был представлен на международной конференции AI Journey в 2023 году. Впоследствии методологию теста также презентовали на ACL, ведущей научной конференции по компьютерной лингвистике, которая проводится с 1963 года и пользуется поддержкой крупнейших IT-компаний со всего мира, в числе которых Apple, Google Deep Mind, Baidu, IBM и другие. В прошлом году в бенчмарк для русскоязычных LLM добавили новые датасеты, поддержку API и особенностей SFT-моделей, а также обновленный лидерборд с удобной системой фильтрации результатов.
Новости
- 17:40 06.06.2025
- Росгвардия пресекла теракт с применением БПЛА на военном объекте в Рязанской области
- 17:12 06.06.2025
- Люди с небольшими доходами сильнее всего страдают от высокой инфляции — Набиуллина
- 17:00 06.06.2025
- РФ добилась серьезного прогресса по беспилотникам в последние годы — Путин
- 16:32 06.06.2025
- Доля покупок жилья за собственные средства в РФ растет — Набиуллина
- 16:12 06.06.2025
- Солдаты ВСУ стараются попасть в плен из-за успехов российской армии — харьковская ВГА
- 16:00 06.06.2025
- Более 90% населения РФ находятся в зоне покрытия связью 4G — Григоренко
- 15:32 06.06.2025
- Портал «Госуслуги» насчитывает более 1,6 тыс. услуг — Григоренко
- 15:12 06.06.2025
- Песков указал, что ночной удар РФ по военным целям на Украине — это ответ Киеву
- 15:00 06.06.2025
- В Кремле негативно оценили слова Мерца, что США освободили Германию от нацизма
- 14:32 06.06.2025
- Кремль не согласен со словами Трампа о конфликте на Украине как о детской драке
Комментировать
комментарии(0)
Комментировать