Anthropic 发布了最新的 AI 模型 Claude Opus 4.7,其特点是比 Opus 4.6 有“显着改进”,但与未发布的 Opus Mythos Preview 相比“能力较差”。新模型增强了现有优势,重点关注编码、工程和多步骤任务。
Claude Opus 4.7 在专业知识工作中表现出卓越的表现,声称在具有挑战性的环境中“更加彻底和一致”。该模型的基准测试证明了其能力,在 SWE-bench Pro 和 SWE-bench Verified 上的代理编码得分为 64.3%,重新夺回公开模型中的第一名。
与 Opus 4.6 相比,Opus 4.7 在代理计算机使用和研究生水平推理方面也表现出了改进。然而,它显示网络安全漏洞得分略有下降,达到 73.1%,而之前版本为 73.8%。 Anthropic 指出,这一变化可能是由于旨在检测和阻止高风险网络安全请求的新保障措施所致。
Claude Opus 4.7 的推出似乎是为了推广 Claude Mythos Preview,该预览版在主要基准测试中表现出了卓越的性能,但目前仅适用于选定的组织。 Anthropic 强调 Opus 4.7 的网络功能与 Mythos Preview 不匹配。
该公司表示:“我们表示,我们将限制 Claude Mythos Preview 的发布,并首先在能力较差的型号上测试新的网络防护措施。” “Opus 4.7 是第一个此类模型:它的网络功能不如 Mythos Preview 先进。”
Claude Opus 4.7 可立即在所有 Claude 产品中通过该公司的 API 提供,并保持与之前型号相同的定价。
<小时/>








