Anthropic 发布 Claude Haiku 4.5 模型

Anthropic 发布了 Claude Haiku 4.5，这是一种延迟优化的“小型”模型，其编码性能与 Claude Sonnet 4 类似。该公司报告称，Haiku 4.5 的运行速度是 Sonnet 4 的两倍多，而成本却只有 Sonnet 4 的三分之一。它可以通过 Anthropic 的 API 以及 Amazon Bedrock 和 Google Cloud Vertex AI 上的合作伙伴目录立即获得。

Haiku 4.5 的定价为每百万输入代币 1 美元，每百万输出代币 5 美元。对于提示缓存，列出的费率为每百万个写入令牌 1.25 美元，每百万个读取令牌 0.10 美元。

Anthropic 将 Haiku 4.5 定位于具有严格延迟预算和高吞吐量的工作负载，包括实时助手、客户支持自动化和结对编程。该公司建议在成本敏感的交互式工作负载中将其作为 Haiku 3.5 和 Sonnet 4 的直接替代品。据报道，它在涉及 GUI 和浏览器操作的“计算机使用”任务上超越了 Sonnet 4，正如 Claude for Chrome 等产品中所见。它还提高了 Claude Code 对多代理项目和快速原型设计的响应能力。

在 Anthropic 的模型阵容中，Sonnet 4.5 仍然是该公司的前沿模型，并将其描述为“世界上最好的编码模型”。 Haiku 4.5 的定位是提供接近前沿的性能和更高的成本效益。 Anthropic 建议采用一种编排模式，其中 Sonnet 4.5 处理多步骤规划，并由 Haiku 4.5 工作人员池管理并行执行。

开发人员可以使用标识符 claude-haiku-4-5 在 Anthropic 的 API 上访问模型。虽然 Anthropic 在发布时确认了其在 Amazon Bedrock 和 Google Cloud Vertex AI 上的可用性，但该公司指出，特定模型目录 ID 和区域覆盖范围可能会随着时间的推移而发生变化。

Anthropic 提供了基准测试结果来展示该模型的功能。在 SWE-bench Verified 上，Haiku 4.5 使用带有 bash 和文件编辑工具的简单支架获得了 73.3% 的分数。此结果是在 128K 思维预算且没有测试时计算的情况下进行 50 次试验的平均值。该公司还分享了 Terminal-Bench 的结果（使用 Terminus-2 代理进行了 11 次运行测试）和 OSWorld-Verified（在 4 次运行中以最大 100 步进行了测试）。 AIME 和 MMMLU 的性能也是使用默认采样和 128K 思维预算来衡量的。

Microsoft 在 Microsoft 365 订阅中默认集成 Copilot

该公司表示，这些结果显示了与 Sonnet 4 的编码同等性，并且在特定测试框架下计算机使用任务的性能提升。它建议用户在概括性能之前使用自己的编排和工具堆栈复制测试。该模型是根据 ASL-2 许可证发布的。在内部测试中，Anthropic 报告 Haiku 4.5 的测量错位率低于 Sonnet 4.5 和 Opus 4.1。

Anthropic 发布 Claude Haiku 4.5 模型

Related Stories

埃隆·马斯克表示 X 将向用户发送有关更正帖子的信息

谷歌推出 Video Remix，供人工智能用户在几秒钟内转换剪辑

亚马逊计划推出更强大的 Alexa 助手与 AI 代理竞争

Galaxy Z Flip 8 泄露显示三种颜色选择