Российские исследователи нашли способ проверять качество моделей ИИ без размеченных данных
18:54 14.04.2026
Исследователи Центра практического искусственного интеллекта Сбербанка и НИУ ВШЭ предложили способ оценивать качество векторных представлений (эмбеддингов) без участия человека и размеченных данных. Специализированная метрика Persistence помогает выбрать лучшую архитектуру модели и вовремя остановить её обучение, экономя GPU-часы и ускоряя выход ИИ-решений в реальный бизнес. Результаты исследования изложены в научной статье, которая принята на конференцию высшего уровня ECIR 2026 (48-я Европейская конференция по информационному поиску) в Делфте, Нидерланды.
В современном машинном обучении модели, которые учатся без ручной разметки, становятся основой для рекомендаций, финансовой аналитики и поведенческого моделирования. Но у разработчиков долго не было инструмента, чтобы без ручной разметки данных понять, хорошие ли эмбеддинги получились. Существующие метрики предполагают линейную разделимость данных или работают только в узких сценариях. Предложенная метрика решает ключевые задачи автоматически: подбирает оптимальный размер эмбеддинга, количество слоёв и функцию потерь, а также указывает, на какой эпохе обучения нужно остановиться, чтобы модель не переобучилась и не осталась сырой.
Метрика основана на методе топологического анализа данных. Над множеством точек в пространстве эмбеддингов строится фильтрация Вьеториса–Рипса, а суммарная персистентность топологических признаков отражает геометрическое богатство этого пространства. Метрика российских ученых устойчиво превосходит зарубежных конкурентов (RankMe, α-ReQ, NESum, SelfCluster) по корреляции с качеством на прикладных задачах — в финансовой аналитике, поведенческом моделировании и коллаборативной фильтрации.
Для бизнеса это прямая экономия. Раньше выбор лучшей модели эмбеддингов требовал тестирования каждой конфигурации на размеченных данных — требует ресурсов и времени. Persistence оценивает качество модели без лишних задач и находит оптимальную эпоху обучения, когда эмбеддинги максимально структурированы (без пере- или недообучения). Компании тратят меньше ресурсов на эксперименты и быстрее запускают лучшую модель в прод. Даже при малом количестве разметки или её отсутствии (например, новая категория товаров) Persistence работает. Метрика универсальна: подходит для любых бизнес-задач, а эмбеддинги не заточены под один классификатор. Persistence устойчива там, где валидация падает (временной сдвиг, сложные пайплайны), — она оценивает внутреннюю геометрию эмбеддингов, а не конкретную выборку.
Решение позволит получать более точные рекомендации в онлайн-кинотеатрах и маркетплейсах. Он улучшит работу голосовых помощников и ускорит внедрение ИИ в медицину. Снизится барьер применения моделей без учителя в областях с дефицитом разметки: здравоохранение, социальные науки, гуманитарные дисциплины.
«До появления специализированной метрики аналитики данных выбирали архитектуру и момент остановки обучения модели вслепую или через ресурсозатратные эксперименты с разметкой. Это требовало сотен GPU-часов и замедляло вывод моделей в прод. Наша метрика автоматически оценивает качество эмбеддингов по их внутренней геометрии, - рассказал Сергей Рябов, директор департамента развития ИИ-решений Сбербанка. - Обучают несколько конфигураций — Persistence указывает лучшую. Или обучают одну модель — метрика определяет эпоху остановки, избегая переобучения. В результате происходит экономия ресурсов, развиваются универсальные модели, устойчивые к сдвигам распределения данных. Для бизнеса — скорость и предсказуемость, для пользователей — более точные ИИ-сервисы, быстрее адаптирующиеся к новым сценариям без длительной настройки».
НОВОСТИ
- 21:30 14.04.2026
- Уолц рассказал, чем займутся США после решения проблемы на Ближнем Востоке
- 20:50 14.04.2026
- В Совбезе РФ отметили, что у Ирана еще есть значительное количество оружия
- 18:58 14.04.2026
- Сбер запустил программу поддержки бизнеса в Дагестане и Чечне для пострадавших от ЧС
- 18:26 14.04.2026
- После мартовского рейда в регионах РФ было принято порядка 6 тыс решений о выдворении – МВД России
- 17:40 14.04.2026
- В Минпросвещения РФ уверены в пользе обязательных школьных дежурств
- 17:12 14.04.2026
- МВФ улучшил прогноз темпов роста ВВП РФ в 2026 году до 1,1%
- 17:00 14.04.2026
- Зеленский заявил, что ВСУ ждут возвращения уехавших украинцев
- 16:32 14.04.2026
- Вучич ожидает тяжелейшего со времен Великой депрессии мирового экономического кризиса
- 16:12 14.04.2026
- ЕК отложила выделение Киеву первых траншей из 90 млрд евро на второе полугодие 2026 года
- 16:00 14.04.2026
- США увеличат группировку кораблей в Аравийском море до 20


Комментировать
комментарии(0)
Комментировать