OpenAI 于周四发布了 GPT-5.4,推出了标准版本以及 GPT-5.4 Thinking 和 GPT-5.4 Pro 变体。该公司将该模型描述为专业工作中最有能力、最高效的前沿模型。

API 版本支持最多 100 万个令牌的上下文窗口,这是 OpenAI 提供的最大数量。该模型还展示了令牌效率的提高,用比其前身少得多的令牌来解决问题。

GPT-5.4 在计算机使用基准 OSWorld-Verified 和 WebArena Verified 上取得了创纪录的分数。它还在 OpenAI 针对知识工作任务的 GDPval 测试中得分为 83%。

Mercor 首席执行官 Brendan Foody 表示,该模型引领了 Mercor 的 APEX-Agents 基准测试,该基准测试了法律和金融方面的专业技能。 Foody 表示,GPT-5.4 擅长创建幻灯片和财务模型等长期交付成果,比竞争对手更快、成本更低,能够提供最佳性能。

OpenAI 表示,与 GPT 5.2 相比,该模型在个人声明中出错的可能性降低了 33%。总体回答中包含错误的可能性降低了 18%。

该公司引入了 Tool Search 来管理 API 中的工具调用。该系统根据需要查找工具定义,从而减少具有许多工具的系统中的令牌使用和成本。

OpenAI 添加了新的安全评估来测试思维链监控。评估显示,GPT-5.4 Thinking 版本中欺骗的可能性较小,这表明该模型缺乏隐藏其推理的能力。

<小时/>

特色图片来源

  Figma 和 Anthropic 合作开发代码到画布 AI 功能