Anthropic 发布了 Claude Haiku 4.5,这是一种延迟优化的“小型”模型,其编码性能与 Claude Sonnet 4 类似。该公司报告称,Haiku 4.5 的运行速度是 Sonnet 4 的两倍多,而成本却只有 Sonnet 4 的三分之一。它可以通过 Anthropic 的 API 以及 Amazon Bedrock 和 Google Cloud Vertex AI 上的合作伙伴目录立即获得。
Haiku 4.5 的定价为每百万输入代币 1 美元,每百万输出代币 5 美元。对于提示缓存,列出的费率为每百万个写入令牌 1.25 美元,每百万个读取令牌 0.10 美元。
Anthropic 将 Haiku 4.5 定位于具有严格延迟预算和高吞吐量的工作负载,包括实时助手、客户支持自动化和结对编程。该公司建议在成本敏感的交互式工作负载中将其作为 Haiku 3.5 和 Sonnet 4 的直接替代品。据报道,它在涉及 GUI 和浏览器操作的“计算机使用”任务上超越了 Sonnet 4,正如 Claude for Chrome 等产品中所见。它还提高了 Claude Code 对多代理项目和快速原型设计的响应能力。
在 Anthropic 的模型阵容中,Sonnet 4.5 仍然是该公司的前沿模型,并将其描述为“世界上最好的编码模型”。 Haiku 4.5 的定位是提供接近前沿的性能和更高的成本效益。 Anthropic 建议采用一种编排模式,其中 Sonnet 4.5 处理多步骤规划,并由 Haiku 4.5 工作人员池管理并行执行。
开发人员可以使用标识符 claude-haiku-4-5 在 Anthropic 的 API 上访问模型。虽然 Anthropic 在发布时确认了其在 Amazon Bedrock 和 Google Cloud Vertex AI 上的可用性,但该公司指出,特定模型目录 ID 和区域覆盖范围可能会随着时间的推移而发生变化。
Anthropic 提供了基准测试结果来展示该模型的功能。在 SWE-bench Verified 上,Haiku 4.5 使用带有 bash 和文件编辑工具的简单支架获得了 73.3% 的分数。此结果是在 128K 思维预算且没有测试时计算的情况下进行 50 次试验的平均值。该公司还分享了 Terminal-Bench 的结果(使用 Terminus-2 代理进行了 11 次运行测试)和 OSWorld-Verified(在 4 次运行中以最大 100 步进行了测试)。 AIME 和 MMMLU 的性能也是使用默认采样和 128K 思维预算来衡量的。
该公司表示,这些结果显示了与 Sonnet 4 的编码同等性,并且在特定测试框架下计算机使用任务的性能提升。它建议用户在概括性能之前使用自己的编排和工具堆栈复制测试。该模型是根据 ASL-2 许可证发布的。在内部测试中,Anthropic 报告 Haiku 4.5 的测量错位率低于 Sonnet 4.5 和 Opus 4.1。








