2 月 24 日《Nature Medicine》发表的一项新研究发现,OpenAI 面向消费者的健康工具 ChatGPT Health 在一半以上的严重医疗病例中未能正确指导用户进行紧急护理。西奈山伊坎医学院的研究人员设计了涵盖 21 个医学专业的 60 个临床场景,范围从适合家庭护理的轻微病症到真正的紧急情况。三位独立医生根据 56 个医学协会的指南确定了每个病例的正确紧急程度。然后在 16 种不同的背景条件下测试每种场景——包括种族、性别、社会动态的变化以及缺乏保险等护理障碍——总共产生 960 次与 ChatGPT Health 的互动。
结果显示出“倒U形”的表现模式。虽然 ChatGPT Health 正确处理了中风和过敏反应等教科书般的紧急情况,但它对医生认为真正紧急情况的 52% 的病例进行了分类不足,指导患有糖尿病酮症酸中毒和即将发生呼吸衰竭等疾病的患者进行 24 至 48 小时评估,而不是去急诊室。该系统还对 35% 的非紧急案件进行了错误分类。
特别令人担忧的是该工具对锚定偏见的敏感性:当家人或朋友在提示中最小化症状时,分诊建议会急剧转向不太紧急的护理,优势比为 11.7。该研究的通讯作者之一 Ashwin Ramaswamy 博士表示:“ChatGPT Health 在中风或严重过敏反应等教科书紧急情况中表现良好。” “但它在危险并不立即明显的更微妙的情况下陷入困境,而这些情况往往是临床判断最重要的情况”。
该研究还暴露了 ChatGPT Health 危机干预系统中令人不安的不一致之处。该工具的设计目的是在高风险情况下引导用户拨打 988 自杀和危机生命线,但研究人员发现,当用户没有描述具体的自残方法时,这些警报的出现比他们阐明具体计划时更可靠——有效地颠倒了风险水平和保护激活之间的关系。西奈山首席人工智能官、该研究的另一位通讯作者 Girish Nadkarni 博士将这一发现描述为“超越了不一致”,并指出“系统的警报相对于临床风险是相反的”。
该研究结果是在消费者迅速采用的时刻得出的。 OpenAI 于 2026 年 1 月推出了 ChatGPT Health,该公司报告称,每天约有 4000 万人使用 ChatGPT 来解答与健康相关的问题。今年早些时候,非营利性患者安全组织 ECRI 将医疗保健领域人工智能聊天机器人的滥用列为 2026 年最大的健康技术危害,并警告称,这些工具“可能提供虚假或误导性信息,可能导致患者遭受重大伤害”。
西奈山团队发现,患者种族、性别或护理障碍对分诊结果没有统计学上可检测的影响,尽管该研究的置信区间并未排除有临床意义的差异。研究人员表示,他们计划继续评估 ChatGPT Health 和其他消费者人工智能工具的更新版本,未来的研究将扩展到儿科护理、药物安全和非英语语言的使用。
<小时/>








