Nvidia 报告称 Blackwell Ultra 在代理 AI 推送中吞吐量提高了 50 倍

Nvidia 发布的基准数据显示，与之前的低延迟 AI 工作负载 Hopper 平台相比，其配备 Blackwell Ultra GPU 的 GB300 NVL72 系统每兆瓦吞吐量提高了 50 倍，每个令牌成本降低了 35 倍。性能提升针对的是不断增长的代理人工智能应用程序和编码助手市场。

Blackwell Ultra Tensor Core 的计算性能比标准 Blackwell GPU 高 1.5 倍。通过加速 softmax 执行，注意力层处理量增加了一倍，解决了具有大上下文窗口的推理模型所使用的转换器注意力层的瓶颈。 Nvidia 的 TensorRT-LLM 推理库也得到了改进，SemiAnalysis 基准测试显示，自 2025 年 10 月以来，每个 GPU 的吞吐量在某些交互水平上翻了一番。结合这些硬件和软件的进步，与 Hopper 相比，每个用户每秒的令牌数提高了 10 倍，每兆瓦每秒的令牌数提高了 5 倍，据报道，AI 工厂产量增加了 50 倍。

CoreWeave 工程高级副总裁 Chen Goldberg 表示：“随着推理逐渐成为人工智能生产的中心，长上下文性能和代币效率变得至关重要。” “Grace Blackwell NVL72 直接解决了这一挑战。”

主要云提供商正在部署 GB300 NVL72 基础设施。 CoreWeave 于 2025 年宣布，它是第一家在生产中部署这些系统的 AI 云提供商，并将其与其基于 Kubernetes 的云堆栈集成。微软部署了世界上第一个大规模 GB300 NVL72 超级计算集群，在 Signal65 验证的测试中，单个机架上每秒处理超过 110 万个令牌。 Oracle 的 OCI 平台正在部署 GB300 NVL72 系统，并计划将其超级集群扩展到超过 100,000 个 Blackwell GPU，以满足推理工作负载需求。

成本降低正在重塑人工智能部署的经济性。 Baseten、DeepInfra、Fireworks AI 和 Together AI 等领先推理提供商报告称，使用标准 Blackwell 平台可将成本降低多达 10 倍。 Blackwell Ultra 平台将这些优势扩展到低延迟工作负载，每百万代币的成本降低了 35 倍，从而能够更经济地大规模部署人工智能代理和编码助手。

Nvidia 预览了其下一代 Rubin 平台，声称其性能将比 Blackwell 再提高 10 倍。

<小时/>

特色图片来源

OpenAI 透露每周有超过 100 万用户与 ChatGPT 讨论自杀问题

Nvidia 报告称 Blackwell Ultra 在代理 AI 推送中吞吐量提高了 50 倍

Related Stories

蓝色起源和美国宇航局在新格伦发射台维修时间表上发生冲突

华硕在 Computex 上推出新款 Zenbook 和 ExpertBook 笔记本电脑

据报道，潜水员在加勒比海发现了未发布的 Pixel Watch 5

Spotify 可能允许用户编辑用户名并添加个人资料