Чат-боты с искусственным интеллектом могут диагностировать заболевания на дому. Насколько они хороши? (С. Рирдон)

Svetlana 08.11.2023

Чат-боты с искусственным интеллектом могут диагностировать заболевания на дому. Насколько они хороши? (С. Рирдон)

По мере того, как все больше людей обращаются за медицинскими консультациями к искусственному интеллекту, работающему на основе чата, еще предстоит выяснить, как эти инструменты будут конкурировать с врачами-людьми или дополнять их.

Бенджамин Толчин (Benjamin Tolchin), невролог и специалист по этике из Йельского университета, привык к тому, что пациенты, прежде чем прийти к нему на прием, ищут свои симптомы в Интернете, а врачи уже давно стараются этого не поощрять. "Доктор Гугл", как известно, не знает контекста и склонен к поиску ненадежных источников.

Однако в последние месяцы Толчин начал наблюдать пациентов, использующих для самодиагностики новый, гораздо более мощный инструмент: чат-боты с искусственным интеллектом (ИИ), такие как ChatGPT компании OpenAI, последняя версия поисковой системы Bing компании Microsoft (основанная на программном обеспечении OpenAI) и Med-PaLM компании Google. Обученные на текстах в Интернете, эти большие языковые модели (large language models, LLM) предсказывают следующее слово в последовательности, чтобы отвечать на вопросы в человеческом стиле. Исследователи и медики надеются, что в условиях острой нехватки медицинских работников боты смогут отвечать на вопросы людей. Первые испытания, проведенные исследователями, показывают, что эти программы искусственного интеллекта гораздо точнее, чем поиск в Google. Некоторые исследователи прогнозируют, что в течение года один из крупных медицинских центров объявит о сотрудничестве с использованием чат-ботов LLM для взаимодействия с пациентами и диагностики заболеваний.

ChatGPT был выпущен только в ноябре прошлого года, но, по словам Толчина, по крайней мере два пациента уже рассказали ему, что использовали его для самодиагностики симптомов или для поиска информации о побочных эффектах лекарств. По его словам, ответы были разумными. "Это очень впечатляет, очень обнадеживает с точки зрения будущего потенциала", – добавляет он.

Тем не менее, Толчин и другие специалисты опасаются, что чат-боты имеют ряд проблем, включая неуверенность в точности информации, которую они предоставляют людям, угрозу конфиденциальности и расовую и гендерную предвзятость, укоренившуюся в текстах, из которых черпают информацию алгоритмы. Кроме того, возникает вопрос о том, как люди будут интерпретировать эту информацию. По словам Толчина, возникает новый потенциальный риск причинения вреда, которого не было при простом поиске в Google или проверке симптомов.

Диагностика с помощью ИИ

В последние годы медицинская практика все больше перемещается в Интернет. Во время пандемии COVID количество сообщений от пациентов к врачам через цифровые порталы увеличилось более чем на 50%. Многие медицинские системы уже используют простейшие чат-боты для выполнения таких задач, как запись на прием к врачу и предоставление людям общей медицинской информации. "Это сложная область, поскольку она развивается очень быстро", – говорит Нина Сингх (Nina Singh), студентка медицинского факультета Нью-Йоркского университета, изучающая ИИ в медицине.

Но начитанные чат-боты LLM могут вывести сотрудничество врача и ИИ – и даже диагностику – на новый уровень. В исследовании, опубликованном в феврале на сервере препринтов medRxiv и пока не прошедшем рецензирование, эпидемиолог Эндрю Бим (Andrew Beam) из Гарвардского университета и его коллеги написали 48 подсказок, сформулированных как описание симптомов пациента. Когда они передали их в Open AI GPT-3 – версию алгоритма, на котором в то время работал ChatGPT, – то в 88% случаев в тройке потенциальных диагнозов, предложенных LLM для каждого случая, оказался правильный. Для сравнения, врачи, получив те же подсказки, справлялись с этой задачей в 96% случаев, а люди без медицинского образования – в 54%.

"Меня очень удивляет, что эти автозаполнители могут так хорошо справляться с проверкой симптомов", – говорит Бим. Предыдущие исследования показали, что онлайновые программы проверки симптомов – компьютерные алгоритмы, призванные помочь пациентам в самодиагностике, – ставят правильный диагноз только в 51% случаев из трех наиболее вероятных.

Кроме того, чат-боты проще в использовании, чем онлайновые системы проверки симптомов, поскольку люди могут просто описать свои ощущения, а не вставлять их в программы, которые вычисляют статистическую вероятность того или иного заболевания. "Люди сосредоточены на искусственном интеллекте, но прорыв заключается в интерфейсе – на английском языке, – говорит Бим. – Кроме того, боты могут задавать пациенту последующие вопросы, как это делает врач". Тем не менее, он признает, что описания симптомов в исследовании были тщательно составлены и имели один правильный диагноз, поэтому точность могла быть ниже, если описание пациента было плохо составлено или в нем отсутствовала важная информация.

Решение проблем, связанных с ИИ

Компания Beam обеспокоена тем, что чат-боты LLM могут быть подвержены дезинформации. Их алгоритмы предсказывают следующее слово в серии, основываясь на вероятности его появления в интернет-тексте, на котором они были обучены, что потенциально придает одинаковый вес, скажем, информации из Центра по контролю и профилактике заболеваний США (U.S. Centers for Disease Control and Prevention) и случайной теме в Facebook. Представитель OpenAI сообщила изданию Scientific American, что компания "предварительно обучает" свою модель, чтобы она отвечала так, как хочет пользователь, но не уточнила, придает ли она больший вес определенным источникам. Она добавила, что специалисты в различных областях с высоким уровнем риска помогли GPT-4 избежать "галлюцинаций" – ответов, в которых модель угадывает ответ, создавая новую несуществующую информацию. В связи с этим риском компания включила в программу отказ от ответственности, заявив, что ChatGPT не следует использовать для диагностики серьезных заболеваний, предоставления инструкций по их лечению или решению опасных для жизни проблем.

Хотя ChatGPT обучается только на информации, доступной до сентября 2021 г., человек, стремящийся распространить ложную информацию, например, о вакцинах, может наполнить Интернет контентом, который будет воспринят LLM в будущем. Чат-боты Google продолжают обучаться на новом контенте в Интернете. "Мы ожидаем, что это будет еще один фронт попыток направить общение в правильное русло", – говорит Одед Нов (Oded Nov), инженер компьютерных технологий из Нью-Йоркского университета.

Одним из решений может стать принудительное размещение чат-ботами ссылок на свои источники, как это сделано в системе Bing компании Microsoft. Однако многочисленные исследования и опыт пользователей показывают, что LLM могут галлюцинировать несуществующие источники и оформлять их как достоверные цитаты. Определение того, являются ли эти источники легитимными, ложится тяжелым бременем на пользователя. Другие решения могут заключаться в том, что разработчики LLM будут контролировать источники, из которых боты черпают информацию, или армии специалистов по проверке фактов будут вручную устранять неправду по мере ее обнаружения, что не позволит ботам давать такие ответы в будущем. Однако такой подход будет сложно масштабировать с учетом объема контента, создаваемого ИИ.

Компания Google использует другой подход, создавая чат-бота Med-PaLM, который использует массив данных, содержащих реальные вопросы и ответы пациентов и врачей, а также результаты экзаменов на получение медицинской лицензии, хранящиеся в различных базах данных. Когда исследователи Google проверили работу Med-PaLM по различным "осям", включая соответствие медицинскому консенсусу, полноту и возможность нанесения вреда, в исследовании, опубликованном в препринте, его ответы соответствовали медицинскому и научному консенсусу в 92,6% случаев. У обычных врачей этот показатель составил 92,9%. Ответы чатбота чаще, чем ответы человека, содержали недостающее содержание, но при этом они несколько реже наносили вред физическому или психическому здоровью пользователей.

Способность чат-ботов отвечать на медицинские вопросы не вызвала удивления у исследователей. Более ранняя версия MedPaLM и ChatGPT успешно сдали экзамен на получение медицинской лицензии в США. Однако Алан Картикесалингам (Alan Karthikesalingam), специалист по клиническим исследованиям в Google и один из авторов исследования MedPaLM, говорит, что изучение того, как на самом деле выглядят вопросы и ответы пациента и врача, позволяет ИИ взглянуть на здоровье человека в целом. "Реальность – это не экзамен с несколькими вариантами ответов", – говорит он. – Это тонкий баланс между пациентом, врачом и социальным контекстом".

Скорость, с которой чат-боты LLM могут войти в медицину, беспокоит некоторых исследователей – даже тех, кто в остальном рад потенциалу новой технологии. "Они внедряют [технологию] раньше, чем это успевают сделать регулирующие органы, – говорит Марзиех Гассеми (Marzyeh Ghassemi), специалист по информатике из Массачусетского технологического института.

Укоренение предвзятости и расизма

Гассеми особенно обеспокоена тем, что чат-боты увековечат расизм, сексизм и другие виды предрассудков, которые сохраняются в медицине и во всем Интернете. "Они обучаются на данных, полученных людьми, поэтому у них есть все предубеждения, которые только можно себе представить, – говорит она. Например, женщинам реже, чем мужчинам, выписывают обезболивающие препараты, а чернокожим людям чаще, чем белым, ставят диагноз шизофрения и реже – депрессия, что является следствием предвзятости медицинского образования и общественных стереотипов, которые ИИ может перенять в процессе обучения. В неопубликованном исследовании Бим обнаружил, что, когда он спрашивает ChatGPT, доверяет ли он описанию человеком своих симптомов, тот с меньшей вероятностью доверяет определенным расовым и гендерным группам. Компания OpenAI не ответила на вопрос о том, как она решает проблему подобной предвзятости в медицине.

Очистить Интернет от расизма невозможно, но, по словам Гассеми, разработчики могут проводить превентивный аудит, чтобы увидеть, где чатбот дает предвзятые ответы, и попросить его остановиться, или выявить общие предубеждения, которые проявляются в его разговорах с пользователями.

Возможно, ответ кроется в психологии человека. Когда команда Гассеми создала "злой" чатбот LLM, который давал предвзятые ответы на вопросы о неотложной медицине, они обнаружили, что как врачи, так и неспециалисты с большей вероятностью последуют его дискриминационным советам, если он сформулирует свои ответы в виде инструкций. Когда же ИИ просто излагал информацию, пользователи практически не проявляли подобной дискриминации.

По словам Картикесалингама, разработчики, обучающие и оценивающие MedPaLM в Google, самые разные, что может помочь компании выявить и устранить предубеждения в чат-боте. Однако он добавляет, что устранение предубеждений – это непрерывный процесс, который будет зависеть от того, как используется система.

Обеспечение справедливого отношения LLM к пациентам необходимо для того, чтобы заставить людей доверять чатботу, что само по себе является сложной задачей. Неизвестно, например, насколько более требовательными становятся люди, просматривающие ответы в поисковой системе Google, по сравнению с чат-ботом.

Толчин опасается, что дружелюбное поведение чатбота может привести к тому, что люди начнут слишком доверять ему и предоставлять персональную информацию, что может подвергнуть их риску. "Существует определенный уровень доверия и эмоциональной связи", – говорит он. Согласно заявлениям об отказе от ответственности, размещенным на сайте OpenAI, ChatGPT собирает информацию о пользователях, например, их местоположение и IP-адрес. По словам Толчина, добавление, казалось бы, безобидных высказываний о членах семьи или увлечениях может представлять потенциальную угрозу для личной жизни человека.

Неясно также, будут ли люди терпимо относиться к получению медицинской информации от чатбота вместо врача. В январе приложение Koko, позволяющее добровольцам давать бесплатные и конфиденциальные консультации по вопросам психического здоровья, провело эксперимент с использованием GPT-3 для написания ободряющих сообщений примерно 4 тыс. пользователей. По словам соучредителя Koko Роба Морриса (Rob Morris), бот помогал добровольцам писать сообщения гораздо быстрее, чем если бы им пришлось сочинять их самостоятельно. Однако сообщения оказались менее эффективными, как только люди поняли, что разговаривают с ботом, и компания быстро свернула эксперимент. "Симулированная эмпатия кажется странной, пустой", – написал Моррис в своем твиттере. Эксперимент также вызвал обратную реакцию и опасения, что компания ставит эксперименты на людях без их согласия.

Недавний опрос, проведенный Pew Research Center, показал, что около 60% американцев "чувствовали бы себя некомфортно, если бы их собственный медицинский работник полагался на искусственный интеллект в диагностике заболеваний и рекомендациях по лечению". Однако люди не всегда могут отличить бота от человека, и эта неоднозначность будет только расти по мере развития технологий. В недавнем исследовании, опубликованном в препринте, Нов, Сингх и их коллеги разработали медицинский тест Тьюринга (Turing test), чтобы проверить, смогут ли 430 добровольцев отличить ChatGPT от врача. Исследователи не требовали от ChatGPT проявлять особое сочувствие или говорить как врач. Они просто попросили его ответить на 10 заранее заданных вопросов пациентов определенным количеством слов. Добровольцы правильно определяли и врача, и бота в среднем лишь в 65% случаев.

Девин Манн (Devin Mann), врач и исследователь в области информатики из NYU Langone Health и один из авторов исследования, предполагает, что добровольцы улавливали не только особенности человеческой фразы, но и детали ответа. Системы искусственного интеллекта, обладающие бесконечным временем и терпением, могут объяснять ситуацию более медленно и полно, в то время как занятой врач может дать более лаконичный ответ. По его словам, дополнительная информация может оказаться идеальной для некоторых пациентов.

Исследователи также обнаружили, что пользователи доверяли чатботу в ответах на простые вопросы. Но чем сложнее становился вопрос и чем выше был риск или сложность, тем меньше они были готовы доверять диагнозу чатбота.

По мнению Манна, вероятно, неизбежно, что системы искусственного интеллекта в конечном итоге будут управлять некоторой частью диагностики и лечения. Главное, по его словам, чтобы люди знали, что в случае недовольства чатботом можно обратиться к врачу. "Они хотят иметь номер телефона, по которому можно позвонить, чтобы получить следующий уровень обслуживания", – говорит он.

Манн прогнозирует, что в скором времени один из крупных медицинских центров объявит о создании чат-бота с искусственным интеллектом, помогающего диагностировать заболевания. Такое партнерство поставит множество новых вопросов: будет ли взиматься плата с пациентов и страховщиков за эту услугу, как обеспечить защиту персональных данных пациентов и кто будет нести ответственность, если советы чатбота нанесут кому-либо вред. "Мы также думаем о дальнейших шагах и о том, как обучить медицинских работников выполнять свою роль" в трехстороннем взаимодействии между ИИ, врачом и пациентом, говорит Нов.

В то же время исследователи надеются, что внедрение будет проходить медленно – возможно, пока все ограничится клиническими исследованиями, а разработчики и медицинские эксперты займутся устранением недостатков. Однако Толчин считает, что одно обстоятельство обнадеживает: "Когда я тестировал эту систему, меня порадовало то, что она довольно часто рекомендует оценку врача", – говорит он.

Сара Рирдон