ChatGPT Health 未能对 52% 的真正紧急情况进行分类

2 月 24 日《Nature Medicine》发表的一项新研究发现，OpenAI 面向消费者的健康工具 ChatGPT Health 在一半以上的严重医疗病例中未能正确指导用户进行紧急护理。西奈山伊坎医学院的研究人员设计了涵盖 21 个医学专业的 60 个临床场景，范围从适合家庭护理的轻微病症到真正的紧急情况。三位独立医生根据 56 个医学协会的指南确定了每个病例的正确紧急程度。然后在 16 种不同的背景条件下测试每种场景——包括种族、性别、社会动态的变化以及缺乏保险等护理障碍——总共产生 960 次与 ChatGPT Health 的互动。

结果显示出“倒U形”的表现模式。虽然 ChatGPT Health 正确处理了中风和过敏反应等教科书般的紧急情况，但它对医生认为真正紧急情况的 52% 的病例进行了分类不足，指导患有糖尿病酮症酸中毒和即将发生呼吸衰竭等疾病的患者进行 24 至 48 小时评估，而不是去急诊室。该系统还对 35% 的非紧急案件进行了错误分类。

特别令人担忧的是该工具对锚定偏见的敏感性：当家人或朋友在提示中最小化症状时，分诊建议会急剧转向不太紧急的护理，优势比为 11.7。该研究的通讯作者之一 Ashwin Ramaswamy 博士表示：“ChatGPT Health 在中风或严重过敏反应等教科书紧急情况中表现良好。” “但它在危险并不立即明显的更微妙的情况下陷入困境，而这些情况往往是临床判断最重要的情况”。

该研究还暴露了 ChatGPT Health 危机干预系统中令人不安的不一致之处。该工具的设计目的是在高风险情况下引导用户拨打 988 自杀和危机生命线，但研究人员发现，当用户没有描述具体的自残方法时，这些警报的出现比他们阐明具体计划时更可靠——有效地颠倒了风险水平和保护激活之间的关系。西奈山首席人工智能官、该研究的另一位通讯作者 Girish Nadkarni 博士将这一发现描述为“超越了不一致”，并指出“系统的警报相对于临床风险是相反的”。

该研究结果是在消费者迅速采用的时刻得出的。 OpenAI 于 2026 年 1 月推出了 ChatGPT Health，该公司报告称，每天约有 4000 万人使用 ChatGPT 来解答与健康相关的问题。今年早些时候，非营利性患者安全组织 ECRI 将医疗保健领域人工智能聊天机器人的滥用列为 2026 年最大的健康技术危害，并警告称，这些工具“可能提供虚假或误导性信息，可能导致患者遭受重大伤害”。

西奈山团队发现，患者种族、性别或护理障碍对分诊结果没有统计学上可检测的影响，尽管该研究的置信区间并未排除有临床意义的差异。研究人员表示，他们计划继续评估 ChatGPT Health 和其他消费者人工智能工具的更新版本，未来的研究将扩展到儿科护理、药物安全和非英语语言的使用。

<小时/>

特色图片来源

三星发布 Galaxy Enhance-X 16.3 版本