Здравеопазването се превръща в най-трудния изпит за изкуствения интелект

И OpenAI, и Anthropic обявиха големи планове за навлизане в областта на здравеопазването със съответно инструмент, насочен към потребителите, наречен ChatGPT Health и версия на чатбота Claude, който може да помога на лекарите да поставят диагноза и да пишат медицински бележки. Google забележимо отсъства от тази вълна от новини. Чатботът му Gemini е един от най-популярните и способни, така че защо да не се включи и в печелившия пазар на здравеопазването? Може би защото Google знае от опит, че подобно начинание може да има драматични последствия, пише редакторът на Bloomberg Парми Олсън.

Здравните съвети са област, в която генеративният изкуствен интелект (AI) има някои от най-вълнуващите потенциали. Но по-новите AI компании, може би заслепени от храброст и еуфория, са изправени пред съдба, подобна на тази на Google, ако не са по-прозрачни относно печално известните халюцинации на технологията си.

OpenAI бавно въвежда нова функция, която позволява на потребителите да задават въпроси за здравето си, с отделна памет и връзки към данни от медицинските досиета на дадено лице или от приложенията му за физическото му състояние, ако те позволяват да ги включи. Компанията твърди, че инструментът ChatGPT Health е по-сигурен и „не е предназначен за диагностика“, но много хора вече го използват, за да определят заболявания. Според компанията над 230 млн. души всяка седмица търсят съвети, свързани със здравето, в приложението. Тя обяви и ChatGPT for Healthcare – версия на бота за медицински лица, която се тества в няколко болници, включително Бостънската детска болница и Мемориалния център за рак Слоун Кетъринг.

Anthropic, която има по-голям успех от OpenAI в продажбите към бизнеса, пусна чатбот, предназначен за лекари. Той изглежда по същия начин като потребителската версия на Claude, но е обучен на база данни с медицинска информация като диагностични кодове и доставчици на здравни услуги – за да помага при генерирането на документи за оторизация – и академични статии от PubMed, за да помага на лекарите при поставянето на потенциална диагноза.

Компанията даде интригуващ поглед върху това как това обучение може да направи Claude по-точен. Когато потребителската версия на Claude бъде попитана за кодовете, които лекарите използват за класифициране на диагноза или процедура, отговорът е правилен в 75% от случаите, заяви главният продуктов директор на Anthropic Майк Кригер по време на събитие по представянето на продукта по-рано този месец. Но версията на Claude за лекари, обучена на тези кодове, е точна в 99,8% от случаите.

Каква е обаче степента на точност, когато става въпрос за поставяне на диагноза? Този конкретен показател изглежда по-важен. Когато попитах Anthropic, компанията не можа да даде изчерпателен отговор, пише Олсън. Тя заяви, че най-мощният ѝ модел за разсъждение – Claude Opus 4.5, е постигнал 92,3% точност на MedCalc, който тества точността на медицинските изчисления, и 61,3% на MedAgentBench, който измерва дали изкуственият интелект може да изпълнява клинични задачи в симулирана електронна система на здравни записи. Но нито едното, нито другото показва колко надежден е изкуственият интелект при клиничните препоръки. Първият се отнася до тест за дозиране на лекарства и лабораторни стойности, а статистиката от 61,3% е, нека си го признаем, тревожно ниска оценка.

В защита на Anthropic може да се каже, че моделите им са по-честни – по-склонни са да признаят несигурност, отколкото да измислят отговори – от тези, създадени от OpenAI или Google, показват данни, събрани от Scale, компанията за изкуствен интелект, която наскоро беше закупена от Meta Platforms. Anthropic изтъкна тези цифри по време на представянето си на конференцията JPMorgan Chase Healthcare Conference в Сан Франциско, но подобни похвали ще звучат празно за лекарите, ако те не могат количествено да определят колко точен е всъщност един диагностичен инструмент.

Когато попитах OpenAI за надеждността на ChatGPT по отношение на здравните факти, добавя Олсън, говорителката заяви, че моделите са станали по-надеждни и точни в здравните сценарии в сравнение с предишните версии, но тя също не предостави конкретни цифри, показващи честотата на халюцинациите при даването на медицински съвети.

AI компаниите отдавна мълчат за това колко често чатботовете им правят грешки, отчасти защото това би подчертало колко труден е този проблем за решаване. Вместо това те предоставят сравнителни данни, например показващи колко добре се представят техните AI модели на изпит за медицински лиценз. Но по-голямата прозрачност по отношение на надеждността ще бъде от решаващо значение за изграждането на доверие както сред клиничните специалисти, така и сред обществеността.

Google, част от Alphabet, научи това по трудния начин. Между 2008 и 2011 г. компанията се опита да създаде личен здравен картон под името Google Health, който да събира медицинските данни на дадено лице от различни лекари и болници на едно място. Усилието се провали отчасти защото Google се сблъска с огромно техническо предизвикателство при събирането на здравни данни от несъвместими системи. По-големият проблем беше, че хората се плашеха от идеята да качват здравните си досиета в компания, която редовно събира лична информация за реклами.

Недоверието на обществеността беше толкова силно, че смелата инициатива на лабораторията DeepMind на Google да предупреждава лекарите в болниците за признаци на остра бъбречна недостатъчност беше прекратена през 2018 г., след като се разкри, че в рамките на проекта е имала достъп до повече от 1 млн. досиета на пациенти във Великобритания. Година по-късно Wall Street Journal разкри друга инициатива на Google, известна като Project Nightingale, за достъп до медицинските досиета на милиони пациенти в САЩ.

И двата инцидента бяха сметнати за скандали, а поуката беше ясна: хората възприемаха Google като ненадеждна компания. Това прави съдбата на AI компаниите в здравеопазването още по-несигурна. Проблемите на Google се свеждаха до това как компанията беше възприемана от обществеността, а не до грешки, допуснати от системите ѝ при обработката на медицински досиета. Цената ще бъде по-висока, ако ChatGPT или Claude допуснат грешка, когато помагат на лекарите да вземат решения за живота и смъртта.

Може би наивност или ограничено мислене са накарали Дарио Амодей, главен изпълнителен директор на Anthropic, да засегне точно този въпрос по време на представянето на компанията в областта на здравеопазването миналата седмица, въпреки че компанията му не показа данни, които да го подкрепят. Дефиницията за „безопасност“ се разширява, докато компанията му навлиза на нови пазари като здравеопазването, каза той. „Здравеопазването е една от областите, в които не искате моделът да измисля неща“, добави той. „Това е лошо.“

Но да откажеш да кажеш колко често се случва? Това също е лошо.

Всяка новина е актив, следете Investor.bg и в Google News Showcase.