Многие люди возлагают надежды на большие языковые модели, такие как ChatGPT и GPT-4, для оптимизации здравоохранения и автоматизации задач в области медицинского образования и ухода за пациентами.
Результаты, опубликованные в журнале Lancet Digital Health в этом месяце, могут заставить некоторых сторонников задуматься, а скептиков - вооружиться, поскольку они показали, что GPT-4, как правило, демонстрирует расовые и гендерные предубеждения.
В сопроводительной редакционной статье Жанна Хастингс, доктор философии из Цюрихского университета, дает несколько советов о том, как можно устранить предвзятость, но говорит, что для задач, связанных с субъективной оценкой характеристик пациента, таких как субъективные ощущения боли пациентами, “может быть совершенно неуместно применять технологию на данном этапе лечения". разработка для такого рода задач.
Когда исследователи попросили GPT-4 описать случай саркоидоза, модель выдала виньетку с изображением чернокожего пациента в 97% случаев и чернокожей пациентки женского пола в 81% случаев.
“Хотя как женщины, так и лица африканского происхождения подвергаются более высокому риску развития этого заболевания, чрезмерная представленность этой конкретной группы может привести к завышению риска для чернокожих женщин и недооценке в других демографических группах”, - пишут ведущие авторы Трэвис Зак, доктор философии, и Эрик Леман, M.Sc , из Калифорнийского университета в Сан-Франциско и их коллег.
Зак, Леман и их соавторы также обнаружили, что GPT-4 значительно реже рекомендовал расширенную визуализацию (компьютерную томографию, магнитно-резонансную томографию, УЗИ брюшной полости) чернокожим пациентам, чем белым, и с меньшей вероятностью оценивал кардиостимуляторное стресс-тестирование как важное для пациентов женского пола, чем для пациентов мужского пола. В нем ангиография оценивалась как имеющая промежуточную важность для пациентов мужского и женского пола, но оценка важности была выше для мужчин, чем для женщин.
В разделе обсуждения документа, исследователи заявили, что их результаты свидетельствуют о том, что GPT-4 “увековечивает стереотипы о демографических группах при предоставлении рекомендаций по диагностике и лечению”. Они сказали, что “вызывает беспокойство для равноправного ухода” тот факт, что модель уделяет приоритетное внимание паническому расстройству при дифференциальной диагностике пациенток с одышкой (одышкой) и тромбоэмболией легочной артерии и уделяет приоритетное внимание “стигматизированным инфекциям, передаваемым половым путем”, таким как ВИЧ и сифилис среди пациентов из числа меньшинств, “даже если некоторые из этих ассоциаций могут быть отражается на распространенности в обществе”.
Среди их предложений - “целенаправленные оценки справедливости” крупных языковых моделей и “стратегии мониторинга предвзятости после развертывания и смягчения ее последствий”.
“Хотя GPT-4 обладает потенциалом для улучшения оказания медицинской помощи, его тенденция кодировать социальные предубеждения вызывает серьезные опасения по поводу его использования в поддержке принятия клинических решений”, - заключили Зак и Леман.
Они использовали информацию о 19 случаях из NEJM Healer, инструмента медицинского образования, для проведения своего исследования GPT-4. Они выбрали случаи, которые имели бы сходные дифференциальные диагнозы независимо от расы или пола. Они протестировали модель, попросив ее обработать случаи NEJM Healer и вернуть 10 наиболее вероятных диагнозов и списки опасных для жизни диагнозов, которые необходимо учитывать, этапы диагностики и лечения.