|
| Фото Сбера |
До настоящего времени экипаж, пребывающий на МКС, не располагал ИИ-инструментами для автоматизации своей работы. Специалисты Сбера и группы компаний ЦРТ совместно с экспертами Центра подготовки космонавтов и членами экипажа МКС-74 создали решение, объединившее передовые разработки в области искусственного интеллекта.
С технической точки зрения продукт состоит из нескольких компонентов. Один из них – мобильное приложение, обеспечивающее обмен информацией между серверами нейросетевой модели Сбера ГигаЧат, которая отвечает за обработку запроса. Второй – система распознавания речи «Нестор.BRIEF», разработанная группой компаний ЦРТ. Взаимодействие между ними осуществляется по развернутой на борту МКС сети Wi-Fi.
В процессе разработки специалистам предстояло решить ряд технических задач, с которыми нейросети обычно не сталкиваются в земных условиях. Одну из основных трудностей представлял постоянный фоновый шум уровнем 60-80 дБ и многочисленные помехи.
Специально для проекта команда ЦРТ задействовала продукт «Нестор.BRIEF». Это решение на основе искусственного интеллекта, изначально созданное для протоколирования совещаний и онлайн-встреч. Принцип его работы основан на преобразовании голоса в текст, что позволяет ускорить подготовку отчетов и стенограмм. Среди особенностей продукта – передовые речевые технологии и технология диаризации речи (разделения спикеров), позволяющая формировать отчет с указанием принадлежности реплик конкретным говорящим.
Для проекта МКС эксперты ЦРТ применили модель распознавания речи, адаптированную к сложным акустическим условиям. А мобильное приложение обеспечивает обмен данными между «Нестор.BRIEF» и ГигаЧат и структурирование информации.
Команда рассматривала различные подходы для решения проблемы шума: от использования микрофонов-гарнитур, что оказалось неудобным, до применения алгоритмов шумоочистки. Программная шумоочистка вызвала определенные сложности: речевой сигнал обычно находится в той же частотной области, что и паразитный шум, поэтому при его подавлении может теряться важная акустическая информация.
Но в результате экспериментов удалось подобрать оптимальный алгоритм и допустимую глубину подавления. А нормализация сигнала на этапе предобработки позволила сделать его амплитудно-частотную характеристику более ровной и единообразной.
Вторая сложность была связана с особенностями речи космонавтов. Основную трудность представляли аббревиатуры, используемые в экспериментах. Их число превысило 1000.
Для решения этой задачи в «Нестор.BRIEF» был применен компонент динамического пополнения словаря распознавания – Avocado (Automatic VOCabulary AdditiOn). Он помогает движку ASR (Automatic Speech Recognition) распознавать слова и словосочетания, отсутствующие в базовой языковой модели.
В систему загружался единый список аббревиатур, для которого устанавливался вес бустинга – это метод увеличения или уменьшения вероятности распознавания слов и словосочетаний. Задача команды заключалась в повышении веса специализированных терминов в используемой языковой модели для улучшения качества их распознавания.
После настройки ASR разбивал входные фразы на слова, объединял базовую языковую модель со словами из списка и формировал новый граф распознавания. В результате при обработке медиафайла – голосовой записи эксперимента – ASR распознавал звук по обновленному графу и отправлял результат в «Нестор.BRIEF», откуда веб-приложение Сбера через API получало доступ к записям экспериментов и их расшифровкам.
Помимо настройки распознавания специфической лексики, на уровне продукта «Нестор.BRIEF» требовалось настроить грамматики свертки. Это процесс постобработки распознанного текста, при котором определенные слова и символы, соответствующие грамматическим правилам, заменялись на последовательность тегов, которая затем специальным образом интерпретировалась и преобразовывала исходный текст. Необходимо было преобразовать все аббревиатуры в полные слова и словосочетания.
Выяснилось, что в списке присутствует множество аббревиатур, идентичных по написанию, но различных по расшифровке. Например, ПК – это одновременно планшетный компьютер и пульт космонавта. Кроме того, применение правил автозамен и бустинга привело к непреднамеренному «разворачиванию» простых предлогов (таких как «по» и «на»).
Проблема была решена с помощью нейросетевой модели ГигаЧат и агентов – набора промптов, позволяющих нейрости определять по контексту, является ли «по» предлогом или обозначает «программное обеспечение».
Для работы с ГигаЧат в составе решения был реализован модуль когнитивной обработки (МКО). Он выполняет функции ИИ-провайдера – инструмента подключения к LLM, а также средства настройки и отладки промптов, формирования агентов и конфигурирования последовательности их работы. По сути, этот модуль представляет собой унифицированный шлюз для взаимодействия с различными сервисами больших языковых моделей, обеспечивающий оркестрацию сложных рабочих процессов, управление многоразовыми конфигурациями (агенты, модели, схемы ответов) и асинхронную обработку задач.
С помощью МКО были созданы типовые сценарии обработки записей космонавтов – от извлечения смыслов из текста и суммаризации до подготовки пресс-релизов и формирования отчетов.
Результатом партнерства и слаженной работы команд стало создание уникального комплекса технологий – решения, которое в условиях невесомости выполняет нетривиальные задачи и помогает космонавтам автоматизировать исследовательскую работу прямо на борту станции.

