0
203
Газета Экономика Печатная версия

15.04.2026 20:12:00

"Цифровые врачи" ошибаются в 80% случаев

Ограниченные данные о пациентах делают ИИ опасным для использования в медицине

Тэги: цифровые врачи, медицина, использование ии, ложные диагнозы, недостаток информации о пациентах

Online версия

цифровые врачи, медицина, использование ии, ложные диагнозы, недостаток информации о пациентах Лечиться, следуя советам чат-ботов, а не докторов, — не лучшая идея. Фото агентства «Москва»

Универсальные чат-боты с искусственным интеллектом (ИИ) пока скорее зло для пациентов, чем благо. В 80% случаев они могут выдавать ложные диагнозы или, что еще хуже, диагностировать у пользователя выдуманную болезнь. Эксперты прямо называют такую диагностику от чат-ботов галлюцинациями. Свои проблемы есть и в использовании специализированного ИИ в медицине. Так, при снижении качества снимков точность диагностики нейросетей кратно снижается.

Универсальность популярных чат-ботов с точки зрения поиска необходимой информации не делает их пригодными для постановки точных медицинских диагнозов при ограниченном наборе данных, говорится в исследовании, опубликованном в Jama Network Open.

В нем, в частности, указывается, что для проверки постановки диагнозов было использовано 29 описаний клинических случаев из справочной медицинской литературы для проверки качества определения диагноза популярными чат-ботами. Однако при передаче чат-боту ограниченной информации о симптомах большие языковые модели затрудняются с выбором возможных диагнозов и чаще всего сводят все к единственному варианту, на который в действительности нельзя полагаться в дальнейшем лечении.

Подчеркивается, что медицинские данные передавались чат-ботам поэтапно, включая историю болезни, результаты осмотров и лабораторных анализов. В выборку проверяемых ИИ-моделей попали два десятка популярных чат-ботов, включая разработанные OpenAI, Anthropic, Google, xAI и DeepSeek. При отсутствии полной информации о состоянии пациента более чем в 80% все они были склонны ставить ошибочный диагноз. Однако чем точнее была информация о пациенте, тем точнее были и результаты. В лучших случаях точность превышала 90%, в среднем варианте ошибочные диагнозы ставились менее чем в 40% случаев.

Даже специализированные медицинские ИИ вроде разработанной Google AMIE хотя и показывают в целом неплохие результаты, но полагаться на них в полной мере нельзя, считают медики.

Популярные чат-боты на основе ИИ в 50% случаев выдают медицинские советы сомнительного качества, говорится в совместной статье группы ученых, опубликованной в медицинском журнале BMJ Open. Исследователи изучили работу пяти популярных чат-ботов, среди которых ChatGPT, Grok, Gemini, DeepSeek. Каждому чат-боту было задано по 10 открытых вопросов по пяти темам из области медицины и здоровья.

В результате почти половина ответов были «проблематичными»: 30% – сомнительными, а свыше 19% – крайне проблематичными. Кроме того, пишут авторы, чат-боты выдавали ответы «уверенно и без сомнений». В общей сложности было задано 250 вопросов, и лишь на 2 из них ученые не получили ответа.

Качество получаемой от ИИ справочной информации было низким. «Галлюцинации чат-бота и сфабрикованные цитаты не позволили ни одному чат-боту составить точный список литературы», – продолжают авторы, отмечая, что ответы ИИ соответствуют «уровню студентов второго-четвертого курсов».

Проверенные чат-боты показали низкую эффективность при ответе на вопросы в областях здравоохранения и медицины, где часто встречается дезинформация, а дальнейшее их использование без просвещения населения только усилит дезинформацию, резюмируют исследователи.

Опасения ученых более чем оправданны. В журнале Nature приводится расследование о том, как ученые из Гетеборгского университета выдумали заболевание глаз и опубликовали по нему две убедительные статьи. Уже через несколько недель популярные ИИ-модели начали ставить по выдуманному заболеванию диагнозы. Несмотря на то что в самих публикациях было множество маркеров фиктивности, чат-боты восприняли их как достоверные. Уже после на «новое интригующее заболевание» стали ссылаться и медицинские институты.

Расследователи сделали такой вывод: чем профессиональнее выглядит текст – тем выше вероятность, что ИИ-модель не только воспроизведет его содержание, но и дополнит собственными галлюцинациями. Академическая статья воспринимается ИИ как сигнал достоверности, вне зависимости от того, что именно в этой статье сказано.

Необходимо разделять два принципиально разных сценария использования ИИ в медицине: диагностические системы поддержки принятия решений и публичные чат-боты общего назначения, подчеркивают эксперты.

«Когда речь идет о специализированных медицинских системах (анализ рентгеновских снимков, КТ, МРТ, выявление патологий на основе медицинских изображений), здесь ИИ показывает высокую эффективность и в России, и за рубежом. Такие модели обучены на размеченных датасетах конкретных заболеваний, валидированы на клинических данных и работают как вспомогательный инструмент для врача, а не как замена. В российской практике подобные решения внедрены в ряде регионов для скрининга онкологии, анализа флюорографии, оценки кардиологических рисков – и там результаты вполне сопоставимы с экспертной оценкой», – говорит ведущий инженер-аналитик лаборатории технологий ИИ аналитического центра кибербезопасности компании «Газинформсервис» Ирина Меженева.

Проблема, по ее словам, возникает, когда пользователи обращаются к универсальным чат-ботам с медицинскими вопросами. «Эти системы не предназначены для постановки диагнозов: они обучены на общедоступных текстах, а не на клинических протоколах и генерируют ответ на основе вероятностных паттернов, а не медицинской логики. Когда такая модель «додумывает» симптомы или рекомендует лечение – это и есть галлюцинация в чистом виде: правдоподобный текст без фактической основы», – сообщает эксперт.

«ИИ чат-боты — это не инструмент медицинской диагностики, это пользовательский сервис основанный на языковой модели. У него нет цели диагностирования, его цель ответить на запрос на основе предоставленных данных - когда человек вводит набор симптомов, языковая модель находит по всем публично доступным ресурсам с описанием таких симптомов наиболее часто встречающиеся описания болезней. Поэтому естественно, 80% ответов ИИ будут ошибаться с диагнозом, без того набора данных, которые бы запросил квалифицированный врач при работе с тем же пациентом», - поясняет научный сотрудник лаборатории анализа лучших международных практик Института Гайдара Ольга Магомедова.

Мировой рынок классических чат-ботов оценивается в 8–11 млрд долл., а к 2035 году может превысить 70 млрд долл. Российский рынок голосовых и чат-ботов в разы меньше и, по оценкам, не превышает 11 млрд руб.

Глобальный рынок ИИ в медицине оценивается в 39 млрд долл. В Fortune Business Insights ожидают, что к 2033–2034 годам он составит 500–600 млрд долл. А значительная доля этого рынка будет принадлежать США. По другим оценкам, рынок глобального ИИ в медицине может приблизиться к 2 трлн долл.

Российский рынок ИИ в медицине скромнее. По одним оценкам, он уже достигает 12 млрд руб., а к 2030 году может вырасти до 78 млрд руб. Компания «Цифровая медицина», фонд «Сколково» и ассоциация «Национальная база медицинских знаний» совокупный оборот российского рынка ИИ для здравоохранения по итогам 2025 года оценивали в 1,5 млрд руб., с прогнозом, что к 2030 году он увеличится до 85 млрд руб.

При этом и специализированный ИИ допускает ошибки. В опубликованном в Digital Medicine исследовании говорилось, что при ухудшении качества медицинских снимков резко снижается качество ответов ИИ. Так, на изображениях без нарушений точность ведущих ИИ-моделей составляла от 60 до 65%. При добавлении слабых дефектов показатели падают. А на изображениях с выраженными дефектами точность могла падать почти на 30%. Кроме того, в большинстве случае модели отказывались давать ответ при плохом качестве снимков.

ИИ в медицине активно используется и в России. «Появление ИИ сегодня в медицине нашей страны распространяется с неимоверной скоростью», – рассказывал в 2025 году глава Минздрава Михаил Мурашко. По его словам, практически каждый регион использует как минимум 3–4 таких программных продукта, а количество зарегистрированных медицинских изделий «растет ежемесячно с огромной скоростью». В ноябре он сообщал, что Росздравнадзором зарегистрировано уже 48 программ с технологией ИИ. При этом такие программы уже не являются узкоспециализированными. Сейчас создаются более широкие модели, которые направлены на анализ больших данных и использование ИИ в поддержке принятия врачебных решений.

ИИ хорошо умеет анализировать изображения и видеопоток, поэтому самое массовое применение в российской медицине получили технологии интерпретации радиологических изображений: рентгеновских снимков, компьютерных томографий, фотографий родинок, цифровых ЭКГ, колоноскопий и эндоУЗИ, рассказывал замминистра здравоохранения Вадим Ваньков. ИИ применяют почти во всех российских регионах, а с его помощью ежемесячно обрабатывают больше миллиона изображений.

Как считают эксперты, основная проблема в России – отсутствие четкого разграничения между сертифицированными медицинскими ИИ-системами и развлекательными чат-ботами в восприятии самих пользователей. «Зарубежный опыт показывает те же риски, но там активнее идет регулирование: Управление по контролю качества пищевых продуктов и лекарственных средств в США вводит обязательную сертификацию для ИИ, используемого в диагностике, а в ЕС принят AI Act с отдельными требованиями для медицинских систем», – рассказывает Ирина Меженева.

В России регуляторная база только формируется. «Пока нет единых стандартов для валидации медицинских ИИ-решений, нет обязательной маркировки систем по уровню доверия, нет ответственности разработчиков за медицинские рекомендации чат-ботов общего назначения. И пока этого нет, статистика про 80% неверных диагнозов будет актуальна и у нас», – продолжает она.

«В РФ основным ограничением внедрения ИИ является недостаточная интеграция ИИ-решений в существующую медицинскую информационную инфраструктуру. Кроме того, существует проблема качества и доступности медданных для обучения алгоритмов», – подчеркивает гендиректор «КосмосСтар» Павел Пушкарев. 

Массивы медицинских данных и методики, на которых обучаются большие языковые модели (LLM), могут отличаться от региона к региону, говорит исполнительный директор «1С ПРО Консалтинг» Николай Мокрецов. «К примеру, зарубежные генеративные нейросети обучались на данных и методиках своих стран, тогда как в России используется своя методическая база диагностики и лечения. В связи с этим необходимо четко понимать, какая именно используется и на каких данных ее обучали», - поясняет он.

По словам ректора Высшей школы организации и управления здравоохранением Гузель Улумбековой, модели, которые внедрены в медицинских организациях, занимаются распознаванием визуальных снимков, отличая норму от патологии, и они действительно повышают эффективность оказания медпомощи. Основная сложность, по ее словам, – это потребность в значительных инвестициях в закупку оборудования, обучение персонала, контроль за развитием и использованием ИИ-моделей.

Замдиректора ВШГУ Президентской академии Давид Мелик-Гусейнов напоминает, что значительная часть существующих ИИ-моделей создавалась в так называемых «лабораторных», относительно контролируемых условиях. «Реальная клиническая практика значительно сложнее. Каждый пациент уникален – с точки зрения физиологических, психологических и других особенностей. Особенно это проявляется, когда у человека одновременно присутствует несколько заболеваний. Даже для врача такие ситуации представляют серьезную профессиональную задачу. А для ИИ это зачастую «серая зона» – область, где недостаточно данных или опыта применения. Редкие заболевания, нестандартные сочетания диагнозов, индивидуальные реакции организма – все это может не быть полноценно отражено в обучающих выборках», – поясняет он.

В России медицинские устройства с ИИ признаются высокорисковыми (3 класс), если имеют высокий индивидуальный риск и/или высокий риск для общественного здоровья. Росздравнадзор проводит пострегистрационный мониторинг безопасности и клинической эффективности медицинских изделий с ИИ. Кроме того, в России проводится экспериментальный правовой режим для медицинской деятельности с применением технологий сбора и обработки сведений о состоянии здоровья и диагнозов граждан», - напоминает научный сотрудник лаборатории анализа лучших международных практик Института Гайдара Мария Гирич.


Читайте также


Соседи по вакууму

Соседи по вакууму

Ярослав Соколов 

Психология замкнутых коллективов перестает быть экзотической дисциплиной на задворках космической медицины

0
1462
Искусственный интеллект примеряет белый халат

Искусственный интеллект примеряет белый халат

Андрей Гусейнов

Эксперты обозначили возможные границы применения нейросетей в диагностике и лечении

0
4091
Константин Ремчуков: Премьер Госсовета КНР Ли Цян обещает, что ВВП Китая к 2030 году достигнет 25,4 трлн долл

Константин Ремчуков: Премьер Госсовета КНР Ли Цян обещает, что ВВП Китая к 2030 году достигнет 25,4 трлн долл

Константин Ремчуков

Мониторинг ситуации в КНР по состоянию на 23.03.26

0
6952
Писатели безнадежно протестуют против ИИ

Писатели безнадежно протестуют против ИИ

О книге, в которой нет текста, а есть только несколько тысяч авторов

0
4263