"Цифровые врачи" ошибаются в 80% случаев / Экономика / Независимая газета

Ограниченные данные о пациентах делают ИИ опасным для использования в медицине

цифровые врачи, медицина, использование ии, ложные диагнозы, недостаток информации о пациентах Лечиться, следуя советам чат-ботов, а не докторов, — не лучшая идея. Фото агентства «Москва»

Универсальные чат-боты с искусственным интеллектом (ИИ) пока скорее зло для пациентов, чем благо. В 80% случаев они могут выдавать ложные диагнозы или, что еще хуже, диагностировать у пользователя выдуманную болезнь. Эксперты прямо называют такую диагностику от чат-ботов галлюцинациями. Свои проблемы есть и в использовании специализированного ИИ в медицине. Так, при снижении качества снимков точность диагностики нейросетей кратно снижается.

Универсальность популярных чат-ботов с точки зрения поиска необходимой информации не делает их пригодными для постановки точных медицинских диагнозов при ограниченном наборе данных, говорится в исследовании, опубликованном в Jama Network Open.

В нем, в частности, указывается, что для проверки постановки диагнозов было использовано 29 описаний клинических случаев из справочной медицинской литературы для проверки качества определения диагноза популярными чат-ботами. Однако при передаче чат-боту ограниченной информации о симптомах большие языковые модели затрудняются с выбором возможных диагнозов и чаще всего сводят все к единственному варианту, на который в действительности нельзя полагаться в дальнейшем лечении.

Подчеркивается, что медицинские данные передавались чат-ботам поэтапно, включая историю болезни, результаты осмотров и лабораторных анализов. В выборку проверяемых ИИ-моделей попали два десятка популярных чат-ботов, включая разработанные OpenAI, Anthropic, Google, xAI и DeepSeek. При отсутствии полной информации о состоянии пациента более чем в 80% все они были склонны ставить ошибочный диагноз. Однако чем точнее была информация о пациенте, тем точнее были и результаты. В лучших случаях точность превышала 90%, в среднем варианте ошибочные диагнозы ставились менее чем в 40% случаев.

Даже специализированные медицинские ИИ вроде разработанной Google AMIE хотя и показывают в целом неплохие результаты, но полагаться на них в полной мере нельзя, считают медики.

Популярные чат-боты на основе ИИ в 50% случаев выдают медицинские советы сомнительного качества, говорится в совместной статье группы ученых, опубликованной в медицинском журнале BMJ Open. Исследователи изучили работу пяти популярных чат-ботов, среди которых ChatGPT, Grok, Gemini, DeepSeek. Каждому чат-боту было задано по 10 открытых вопросов по пяти темам из области медицины и здоровья.

В результате почти половина ответов были «проблематичными»: 30% – сомнительными, а свыше 19% – крайне проблематичными. Кроме того, пишут авторы, чат-боты выдавали ответы «уверенно и без сомнений». В общей сложности было задано 250 вопросов, и лишь на 2 из них ученые не получили ответа.

Качество получаемой от ИИ справочной информации было низким. «Галлюцинации чат-бота и сфабрикованные цитаты не позволили ни одному чат-боту составить точный список литературы», – продолжают авторы, отмечая, что ответы ИИ соответствуют «уровню студентов второго-четвертого курсов».

Проверенные чат-боты показали низкую эффективность при ответе на вопросы в областях здравоохранения и медицины, где часто встречается дезинформация, а дальнейшее их использование без просвещения населения только усилит дезинформацию, резюмируют исследователи.

Опасения ученых более чем оправданны. В журнале Nature приводится расследование о том, как ученые из Гетеборгского университета выдумали заболевание глаз и опубликовали по нему две убедительные статьи. Уже через несколько недель популярные ИИ-модели начали ставить по выдуманному заболеванию диагнозы. Несмотря на то что в самих публикациях было множество маркеров фиктивности, чат-боты восприняли их как достоверные. Уже после на «новое интригующее заболевание» стали ссылаться и медицинские институты.

Расследователи сделали такой вывод: чем профессиональнее выглядит текст – тем выше вероятность, что ИИ-модель не только воспроизведет его содержание, но и дополнит собственными галлюцинациями. Академическая статья воспринимается ИИ как сигнал достоверности, вне зависимости от того, что именно в этой статье сказано.

Необходимо разделять два принципиально разных сценария использования ИИ в медицине: диагностические системы поддержки принятия решений и публичные чат-боты общего назначения, подчеркивают эксперты.

«Когда речь идет о специализированных медицинских системах (анализ рентгеновских снимков, КТ, МРТ, выявление патологий на основе медицинских изображений), здесь ИИ показывает высокую эффективность и в России, и за рубежом. Такие модели обучены на размеченных датасетах конкретных заболеваний, валидированы на клинических данных и работают как вспомогательный инструмент для врача, а не как замена. В российской практике подобные решения внедрены в ряде регионов для скрининга онкологии, анализа флюорографии, оценки кардиологических рисков – и там результаты вполне сопоставимы с экспертной оценкой», – говорит ведущий инженер-аналитик лаборатории технологий ИИ аналитического центра кибербезопасности компании «Газинформсервис» Ирина Меженева.

Проблема, по ее словам, возникает, когда пользователи обращаются к универсальным чат-ботам с медицинскими вопросами. «Эти системы не предназначены для постановки диагнозов: они обучены на общедоступных текстах, а не на клинических протоколах и генерируют ответ на основе вероятностных паттернов, а не медицинской логики. Когда такая модель «додумывает» симптомы или рекомендует лечение – это и есть галлюцинация в чистом виде: правдоподобный текст без фактической основы», – сообщает эксперт.

«ИИ чат-боты — это не инструмент медицинской диагностики, это пользовательский сервис основанный на языковой модели. У него нет цели диагностирования, его цель ответить на запрос на основе предоставленных данных - когда человек вводит набор симптомов, языковая модель находит по всем публично доступным ресурсам с описанием таких симптомов наиболее часто встречающиеся описания болезней. Поэтому естественно, 80% ответов ИИ будут ошибаться с диагнозом, без того набора данных, которые бы запросил квалифицированный врач при работе с тем же пациентом», - поясняет научный сотрудник лаборатории анализа лучших международных практик Института Гайдара Ольга Магомедова.

Мировой рынок классических чат-ботов оценивается в 8–11 млрд долл., а к 2035 году может превысить 70 млрд долл. Российский рынок голосовых и чат-ботов в разы меньше и, по оценкам, не превышает 11 млрд руб.

Глобальный рынок ИИ в медицине оценивается в 39 млрд долл. В Fortune Business Insights ожидают, что к 2033–2034 годам он составит 500–600 млрд долл. А значительная доля этого рынка будет принадлежать США. По другим оценкам, рынок глобального ИИ в медицине может приблизиться к 2 трлн долл.

Российский рынок ИИ в медицине скромнее. По одним оценкам, он уже достигает 12 млрд руб., а к 2030 году может вырасти до 78 млрд руб. Компания «Цифровая медицина», фонд «Сколково» и ассоциация «Национальная база медицинских знаний» совокупный оборот российского рынка ИИ для здравоохранения по итогам 2025 года оценивали в 1,5 млрд руб., с прогнозом, что к 2030 году он увеличится до 85 млрд руб.

При этом и специализированный ИИ допускает ошибки. В опубликованном в Digital Medicine исследовании говорилось, что при ухудшении качества медицинских снимков резко снижается качество ответов ИИ. Так, на изображениях без нарушений точность ведущих ИИ-моделей составляла от 60 до 65%. При добавлении слабых дефектов показатели падают. А на изображениях с выраженными дефектами точность могла падать почти на 30%. Кроме того, в большинстве случае модели отказывались давать ответ при плохом качестве снимков.

ИИ в медицине активно используется и в России. «Появление ИИ сегодня в медицине нашей страны распространяется с неимоверной скоростью», – рассказывал в 2025 году глава Минздрава Михаил Мурашко. По его словам, практически каждый регион использует как минимум 3–4 таких программных продукта, а количество зарегистрированных медицинских изделий «растет ежемесячно с огромной скоростью». В ноябре он сообщал, что Росздравнадзором зарегистрировано уже 48 программ с технологией ИИ. При этом такие программы уже не являются узкоспециализированными. Сейчас создаются более широкие модели, которые направлены на анализ больших данных и использование ИИ в поддержке принятия врачебных решений.

ИИ хорошо умеет анализировать изображения и видеопоток, поэтому самое массовое применение в российской медицине получили технологии интерпретации радиологических изображений: рентгеновских снимков, компьютерных томографий, фотографий родинок, цифровых ЭКГ, колоноскопий и эндоУЗИ, рассказывал замминистра здравоохранения Вадим Ваньков. ИИ применяют почти во всех российских регионах, а с его помощью ежемесячно обрабатывают больше миллиона изображений.

Как считают эксперты, основная проблема в России – отсутствие четкого разграничения между сертифицированными медицинскими ИИ-системами и развлекательными чат-ботами в восприятии самих пользователей. «Зарубежный опыт показывает те же риски, но там активнее идет регулирование: Управление по контролю качества пищевых продуктов и лекарственных средств в США вводит обязательную сертификацию для ИИ, используемого в диагностике, а в ЕС принят AI Act с отдельными требованиями для медицинских систем», – рассказывает Ирина Меженева.

В России регуляторная база только формируется. «Пока нет единых стандартов для валидации медицинских ИИ-решений, нет обязательной маркировки систем по уровню доверия, нет ответственности разработчиков за медицинские рекомендации чат-ботов общего назначения. И пока этого нет, статистика про 80% неверных диагнозов будет актуальна и у нас», – продолжает она.

«В РФ основным ограничением внедрения ИИ является недостаточная интеграция ИИ-решений в существующую медицинскую информационную инфраструктуру. Кроме того, существует проблема качества и доступности медданных для обучения алгоритмов», – подчеркивает гендиректор «КосмосСтар» Павел Пушкарев.

Массивы медицинских данных и методики, на которых обучаются большие языковые модели (LLM), могут отличаться от региона к региону, говорит исполнительный директор «1С ПРО Консалтинг» Николай Мокрецов. «К примеру, зарубежные генеративные нейросети обучались на данных и методиках своих стран, тогда как в России используется своя методическая база диагностики и лечения. В связи с этим необходимо четко понимать, какая именно используется и на каких данных ее обучали», - поясняет он.

По словам ректора Высшей школы организации и управления здравоохранением Гузель Улумбековой, модели, которые внедрены в медицинских организациях, занимаются распознаванием визуальных снимков, отличая норму от патологии, и они действительно повышают эффективность оказания медпомощи. Основная сложность, по ее словам, – это потребность в значительных инвестициях в закупку оборудования, обучение персонала, контроль за развитием и использованием ИИ-моделей.

Замдиректора ВШГУ Президентской академии Давид Мелик-Гусейнов напоминает, что значительная часть существующих ИИ-моделей создавалась в так называемых «лабораторных», относительно контролируемых условиях. «Реальная клиническая практика значительно сложнее. Каждый пациент уникален – с точки зрения физиологических, психологических и других особенностей. Особенно это проявляется, когда у человека одновременно присутствует несколько заболеваний. Даже для врача такие ситуации представляют серьезную профессиональную задачу. А для ИИ это зачастую «серая зона» – область, где недостаточно данных или опыта применения. Редкие заболевания, нестандартные сочетания диагнозов, индивидуальные реакции организма – все это может не быть полноценно отражено в обучающих выборках», – поясняет он.

В России медицинские устройства с ИИ признаются высокорисковыми (3 класс), если имеют высокий индивидуальный риск и/или высокий риск для общественного здоровья. Росздравнадзор проводит пострегистрационный мониторинг безопасности и клинической эффективности медицинских изделий с ИИ. Кроме того, в России проводится экспериментальный правовой режим для медицинской деятельности с применением технологий сбора и обработки сведений о состоянии здоровья и диагнозов граждан», - напоминает научный сотрудник лаборатории анализа лучших международных практик Института Гайдара Мария Гирич.

"Цифровые врачи" ошибаются в 80% случаев

Читайте также

Москва ориентирует горожан на новые рекорды продолжительности жизни

От московского эксперимента к национальной платформе

Почему бывает выгодно лечить бомжей

США втягивают Россию в гонку вооружений на основе нейросетей

Другие новости

Поделиться

"Цифровые врачи" ошибаются в 80% случаев

Читайте также

Москва ориентирует горожан на новые рекорды продолжительности жизни

Поделиться

От московского эксперимента к национальной платформе

Поделиться

Почему бывает выгодно лечить бомжей

Поделиться

США втягивают Россию в гонку вооружений на основе нейросетей

Поделиться

Другие новости