Z.ai推出GLM-5.1模型，在基准测试中超越竞争对手

Z.ai（原名Zhipu AI）周二发布了GLM-5.1模型。这款开源旗舰模型专为代理工程而设计，可以自主处理单个编码任务长达八小时，在连续循环中执行规划、执行、测试和优化。

GLM-5.1 模型在 SWE-Bench Pro 基准测试中得分为 58.4，优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro。此版本是对 GLM-5 的训练后改进之后的版本，GLM-5 于 2 月份作为一个包含 7440 亿个参数的专家混合模型推出，每个代币利用约 400 亿个活动参数，并且完全在华为 Ascend 芯片上进行训练，无需 Nvidia 硬件。

根据Z.ai的文档，GLM-5.1通过多任务监督微调和强化学习阶段等技术增强了编码和代理能力。该模型能够维持八小时的自主执行，完成完整的“实验-分析-优化”循环。在演示中，它在八小时内成功从头开始构建了完整的Linux桌面系统，执行了655次迭代，并将矢量数据库查询吞吐量提高了6.9倍。

GLM-5.1 具有 200,000 个令牌的上下文窗口，并支持多达 128,000 个输出令牌。它已针对代理编码工作流程进行了优化，并且与 Claude Code 和 OpenClaw 等工具兼容。该模型在 KernelBench Level 3 优化基准中的真实机器学习工作负载实现了 3.6 倍的几何平均加速。

GLM-5.1 可供所有 GLM 编码计划订阅者使用，其权重根据 MIT 许可证发布。 Z.ai 于 1 月份在香港证券交易所上市，估值为 313 亿美元，以每百万个输入代币 1.00 美元和每百万个输出代币 3.20 美元的成本提供 GLM-5.1 的 API 访问。

此次发布加剧了开源编码模型领域的竞争，使 GLM-5.1 在 SWE-Bench Pro 上领先于其闭源同行而处于领先地位。虽然 Z.ai 声称该模型的功能与 Claude Opus 4.6 一致，但独立评估显示，它达到了 Opus 4.6 更广泛编码分数的约 94.6%，这表明在推理和创造性任务方面存在一些差距。

<小时/>

精选图片来源

Lovable 发布适用于 Android 和 iOS 的移动应用

Z.ai推出GLM-5.1模型，在基准测试中超越竞争对手

Related Stories

OpenAI 推出由 GPT-5.6 提供支持的 ChatGPT Work 生产力应用程序

OpenAI 与 Sol、Terra 和 Luna 一起推出 GPT-5.6

谷歌在搜索、YouTube 和 Discover 的广告中添加人工智能披露标签

Anthropic 推出 Reflect 仪表板帮助用户管理 Claude 使用情况