Z.ai(原名Zhipu AI)周二发布了GLM-5.1模型。这款开源旗舰模型专为代理工程而设计,可以自主处理单个编码任务长达八小时,在连续循环中执行规划、执行、测试和优化。

GLM-5.1 模型在 SWE-Bench Pro 基准测试中得分为 58.4,优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro。此版本是对 GLM-5 的训练后改进之后的版本,GLM-5 于 2 月份作为一个包含 7440 亿个参数的专家混合模型推出,每个代币利用约 400 亿个活动参数,并且完全在华为 Ascend 芯片上进行训练,无需 Nvidia 硬件。

根据Z.ai的文档,GLM-5.1通过多任务监督微调和强化学习阶段等技术增强了编码和代理能力。该模型能够维持八小时的自主执行,完成完整的“实验-分析-优化”循环。在演示中,它在八小时内成功从头开始构建了完整的Linux桌面系统,执行了655次迭代,并将矢量数据库查询吞吐量提高了6.9倍。

GLM-5.1 具有 200,000 个令牌的上下文窗口,并支持多达 128,000 个输出令牌。它已针对代理编码工作流程进行了优化,并且与 Claude Code 和 OpenClaw 等工具兼容。该模型在 KernelBench Level 3 优化基准中的真实机器学习工作负载实现了 3.6 倍的几何平均加速。

GLM-5.1 可供所有 GLM 编码计划订阅者使用,其权重根据 MIT 许可证发布。 Z.ai 于 1 月份在香港证券交易所上市,估值为 313 亿美元,以每百万个输入代币 1.00 美元和每百万个输出代币 3.20 美元的成本提供 GLM-5.1 的 API 访问。

此次发布加剧了开源编码模型领域的竞争,使 GLM-5.1 在 SWE-Bench Pro 上领先于其闭源同行而处于领先地位。虽然 Z.ai 声称该模型的功能与 Claude Opus 4.6 一致,但独立评估显示,它达到了 Opus 4.6 更广泛编码分数的约 94.6%,这表明在推理和创造性任务方面存在一些差距。

<小时/>

精选图片来源

  OpenAI 推出 GPT-5 思维努力水平切换