Российские исследователи нашли способ проверять качество моделей ИИ без размеченных данных
18:54 14.04.2026
Исследователи Центра практического искусственного интеллекта Сбербанка и НИУ ВШЭ предложили способ оценивать качество векторных представлений (эмбеддингов) без участия человека и размеченных данных. Специализированная метрика Persistence помогает выбрать лучшую архитектуру модели и вовремя остановить её обучение, экономя GPU-часы и ускоряя выход ИИ-решений в реальный бизнес. Результаты исследования изложены в научной статье, которая принята на конференцию высшего уровня ECIR 2026 (48-я Европейская конференция по информационному поиску) в Делфте, Нидерланды.
В современном машинном обучении модели, которые учатся без ручной разметки, становятся основой для рекомендаций, финансовой аналитики и поведенческого моделирования. Но у разработчиков долго не было инструмента, чтобы без ручной разметки данных понять, хорошие ли эмбеддинги получились. Существующие метрики предполагают линейную разделимость данных или работают только в узких сценариях. Предложенная метрика решает ключевые задачи автоматически: подбирает оптимальный размер эмбеддинга, количество слоёв и функцию потерь, а также указывает, на какой эпохе обучения нужно остановиться, чтобы модель не переобучилась и не осталась сырой.
Метрика основана на методе топологического анализа данных. Над множеством точек в пространстве эмбеддингов строится фильтрация Вьеториса–Рипса, а суммарная персистентность топологических признаков отражает геометрическое богатство этого пространства. Метрика российских ученых устойчиво превосходит зарубежных конкурентов (RankMe, α-ReQ, NESum, SelfCluster) по корреляции с качеством на прикладных задачах — в финансовой аналитике, поведенческом моделировании и коллаборативной фильтрации.
Для бизнеса это прямая экономия. Раньше выбор лучшей модели эмбеддингов требовал тестирования каждой конфигурации на размеченных данных — требует ресурсов и времени. Persistence оценивает качество модели без лишних задач и находит оптимальную эпоху обучения, когда эмбеддинги максимально структурированы (без пере- или недообучения). Компании тратят меньше ресурсов на эксперименты и быстрее запускают лучшую модель в прод. Даже при малом количестве разметки или её отсутствии (например, новая категория товаров) Persistence работает. Метрика универсальна: подходит для любых бизнес-задач, а эмбеддинги не заточены под один классификатор. Persistence устойчива там, где валидация падает (временной сдвиг, сложные пайплайны), — она оценивает внутреннюю геометрию эмбеддингов, а не конкретную выборку.
Решение позволит получать более точные рекомендации в онлайн-кинотеатрах и маркетплейсах. Он улучшит работу голосовых помощников и ускорит внедрение ИИ в медицину. Снизится барьер применения моделей без учителя в областях с дефицитом разметки: здравоохранение, социальные науки, гуманитарные дисциплины.
«До появления специализированной метрики аналитики данных выбирали архитектуру и момент остановки обучения модели вслепую или через ресурсозатратные эксперименты с разметкой. Это требовало сотен GPU-часов и замедляло вывод моделей в прод. Наша метрика автоматически оценивает качество эмбеддингов по их внутренней геометрии, - рассказал Сергей Рябов, директор департамента развития ИИ-решений Сбербанка. - Обучают несколько конфигураций — Persistence указывает лучшую. Или обучают одну модель — метрика определяет эпоху остановки, избегая переобучения. В результате происходит экономия ресурсов, развиваются универсальные модели, устойчивые к сдвигам распределения данных. Для бизнеса — скорость и предсказуемость, для пользователей — более точные ИИ-сервисы, быстрее адаптирующиеся к новым сценариям без длительной настройки».
Комментарии отключены - материал старше 3 дней
Новости
- 19:40 31.05.2026
- Иранцы раскопали хранилища ракет, заваленные в ходе американских ударов - СМИ
- 18:00 31.05.2026
- Спецпредставителем США по Ираку стал посол в Турции Том Баррак
- 17:10 31.05.2026
- Эксперты МАГАТЭ замерили уровень радиации после удара украинского дрона по ЗАЭС
- 14:10 31.05.2026
- Армия Израиля получила приказ расширить зону сухопутной операции в Ливане
- 13:45 31.05.2026
- Вице-премьер Армении: У нас не стоит вопрос разрыва связей с Евразийским экономическим союзом
- 12:45 31.05.2026
- Россия и США обсуждают все основные вопросы, связанные с Украиной - Ушаков
- 12:20 31.05.2026
- Президент России на будущей неделе проведет встречу с главами мировых информагентств
- 11:50 31.05.2026
- Глава Минобороны Италии предрек ряду стран ЕС сельскохозяйственный кризис, если Украина вступит в союз
- 11:17 31.05.2026
- ВСУ нанесли удар сразу по нескольким объектам в Энергодаре
- 10:21 31.05.2026
- В Японию прибыл очередной танкер с нефтью из России - СМИ


комментарии(0)