OpenAI 推出了 GPT-5.5 Instant 作为免费 ChatGPT 用户的默认模型,声称它现在可以与基于内部评估的健康查询前沿思维模型的性能相匹配。健康信息受到了严格的审查,特别是在《卫报》的一项调查指出谷歌人工智能概述中的不准确之处之后,促使谷歌针对某些与健康相关的问题撤回了这些功能。

OpenAI 表示,其更新代表了健康信息准确性的提高。这一转变允许大量受众从 ChatGPT 获取医疗响应,而无需重定向到外部来源,这可能会影响卫生领域的出版商和 SEO。

该公司强调了其 HealthBench 和 HealthBench Professional 基准测试的进步,并指出 GPT-5.5 Instant 的性能优于其前身 GPT-5.3 Instant。 OpenAI 还报告称,两个月内,被标记为潜在事实问题的健康反应减少了 71%,参考他们的实时交通监控系统。

另一项评估涉及将 GPT-5.5 Instant 生成的回复与医生在 3,500 次代表性健康对话中撰写的回复进行比较。在评估中,一组医生认为人工智能模型的反应在准确性、沟通性和完整性方面高于人类医生编写的反应。

OpenAI 声称,GPT-5.5 Instant 比旧版本和人类响应表现出更少的故障模式,指出更少的错过的危险信号,并降低了未能向用户寻求更多上下文的可能性。 HealthBench 是根据公司医生网络的输入开发的,并采用医生创建的评估准则。

OpenAI 与 60 个国家/地区的 260 多名医生合作,他们共同审查了超过 700,000 个示例回复。尽管自 1 月份 ChatGPT Health 推出以来,这一数字一直被引用,但尚未发布独立审查结果。

据 OpenAI 称,健康和保健查询占 ChatGPT 互动的很大一部分,每周有超过 2.3 亿用户提出与健康相关的问题。此外,健康讨论受到严格的政策限制,禁止在有关健康、心理健康或政治的对话中播放广告。

通过 ChatGPT 免费层对健康信息的市场需求可能会增加出版商的零点击压力,因为人工智能生成的响应会提高参与度,据报道这是谷歌人工智能概述中分析的类别中最高的。 OpenAI 关于健康反应准确性的说法目前缺乏第三方验证,引发了对其评估可靠性的担忧。

该公告没有澄清这些更新可能如何影响引文协议,这表明验证答案和解决流量损失的责任可能会转移到医疗保健从业者身上。

<小时/>

精选图片来源

  百度搜索新增OpenClaw AI,帮助7亿用户编写代码