NVIDIA 在 AI 基础设施峰会上宣布推出“Rubin CPX”GPU,这是即将推出的“Rubin”系列的一款专用加速器,专为海量上下文 AI 模型而设计。预计到 2026 年底,该芯片将在具有 128 GB GDDR7 内存的单片芯片上提供 30 PetaFLOPS 的 NVFP4 计算能力。这种单片配置与 NVIDIA 目前的 Blackwell 和 Blackwell Ultra 架构以及 Rubin 系列其他产品将遵循的双 GPU 封装不同。 Rubin CPX 解决了扩展上下文场景中的计算瓶颈,可同时处理数百万个令牌,适用于综合软件代码库分析和长达一小时的视频处理等应用,这些应用可能需要多达 100 万个令牌。
该处理器在片上集成了四个 NVENC 和四个 NVDEC 视频编码器,可实现简化的多媒体工作流程。 NVIDIA 表示,Rubin CPX 的注意力处理速度是其当前 GB300 Blackwell Ultra 加速器系统的三倍。该架构采用成本优化的单芯片方法,可以降低制造复杂性,同时保持计算密度。尽管内存带宽规格尚未公开,但 512 位接口可通过 30 Gbps GDDR7 内存芯片产生约 1.8 TB/s 的吞吐量。
NVIDIA 计划将 Rubin CPX 处理器集成到 Vera Rubin NVL144 CPX 平台中,将传统 Rubin GPU 与专用 CPX 变体相结合。这种混合设置的目标是在整个机架部署中实现 8 ExaFLOPS 聚合计算和 1.7 PB/s 内存带宽。 “Kyber”机架将包括具有 1600G 网络的 ConnectX-9 网络适配器、具有 102.4T 交换的 Spectrum6 以及共同封装的光学器件。
NVIDIA 将 Rubin CPX 作为 Rubin 系列中的一款产品进行营销,以处理测试时扩展 AI 系统的复杂性。随着模型演变成复杂的推理代理,推理在计算密集型上下文处理和依赖于内存带宽的令牌生成之间分裂。 CPX 设计针对这些双重要求进行了优化,可处理具有 256,000 个令牌的企业聊天机器人的上下文预填充操作或超过 100,000 行的代码分析。这种专业化对于需要跨扩展交互的持久内存的 AI 系统至关重要,NVIDIA 的目标是通过该硬件实现无缝实现。
NVIDIA 的快速开发周期提升了其财务业绩,该公司最近一个季度的数据中心销售额达到 411 亿美元。







