ARM 推出了下一代移动处理器技术,预计将于今年年底推出消费设备。该公司正在彻底改革其品牌、架构更新,并更加重视人工智能和光线追踪功能。

ARM 正在重塑其 CPU 系列,用新的 C1 系列(Ultra、Performance、Pro 和 Nano 内核)取代 Cortex-X 和 A 内核。 Mali GPU 也被重新命名,Immortalis 系列被 G1-Ultra、Premium 和 Pro 品牌取代。

所有新的 C1 内核均基于 ARMv9.3 架构,消除了多层 Cortex-X 系列。 C1-Ultra 和 Performance 内核继承了 Cortex-X925,C1-Pro 取代了 Cortex-A725,C1-Nano 是 Cortex-A520 的改进版。 C1-Performance 是 C1-Ultra 的缩小版 35%,面向中高端芯片组,但性能略有妥协。

与 Cortex-X925 相比,C1-Ultra 的 IPC 增益提高了 12%,考虑到 3nm 工艺和更高的 4.1GHz 时钟速度(与 Cortex-X925 的 3.6GHz 相比),整体性能提高了约 25%。它还提供与其前身相同的性能,同时功耗降低 28%。这是通过更大的乱序窗口(处理大约 2,000 条运行中的指令,而 X925 大约为 1,500 条)和增加 33% 的 L1 指令缓存带宽来实现的。

C1-Pro 专注于前端改进,具有更大的分支预测器和分支目标缓冲区 (BTB)、更高的 L1 数据带宽和更低的 L2 TLB 延迟,有助于节省功耗。 ARM 声称 C1-Pro 提供与 Cortex-A725 相同的性能,但功耗降低了 26%,或者在相同功耗的情况下性能提高了 11%。与 Cortex-A520 相比,C1-Nano 的能效提高了 26%,性能略有提升 5-8%,因为它适用于后台任务。

新 CPU 的一个重要补充是 SME2,这是 ARM 旨在加速机器学习工作负载的最新扩展。 SME2 基于原始 SME 构建,具有多向量指令、权重压缩和二进制网络,作为共享执行单元位于核心外部。每个C1系列核心都可以解码SME2指令,并且单元可以在不使用时关闭。 ARM 声称,与没有 SME2 的相同 C1-Pro CPU 内核相比,语音识别延迟降低了 4.7 倍,令牌编码速度提高了 4.7 倍,在一系列其他工作负载中平均性能提升了 3.7 倍。

  MBZUAI 的 K2 Think AI 模型公开发布后已越狱

与去年的 Immortalis G925 相比,全新 Mali G1-Ultra GPU 的游戏和机器学习推理性能提高了 20%,每帧能耗降低了 9%,光线追踪速度提高了 2 倍。通过对 BVH 遍历和单光线算法的硬件支持,光线追踪速度提高了 2 倍。 RTU(光线追踪单元)在不使用时可以进行电源门控。根据核心数量,G1 GPU 有不同的品牌风格:具有光线追踪功能的 10 个以上核心是 G1-Ultra,6-9 核心是 G1-Premium,1-5 核心是 G1-Pro。

ARM 的 Lumex 平台旨在通过完整的平台解决方案加快上市时间,包括为芯片集成做好准备的设计以及与台积电等代工厂的更密切合作。该公司的内部 Lumex 参考 FPGA 平台暗示了高端移动配置:两个 4.1GHz C1-Ultra 内核搭配六个 3.5GHz C1-Pro 内核、两个 SME2 单元、一个 16MB L3 缓存、一个 14 核 Mali-G1 Ultra 和 16MB 系统级缓存,全部采用 3nm 工艺。对于接近旗舰级的芯片组,ARM 建议将 C1-Ultra 替换为 C1-Premium。中端芯片组可以采用单个 Ultra 或 Premium 核心,搭配三个 Pro 核心和四个 Nano 核心。

该公司预计联发科天玑 9500 将成为首款搭载 ARM 全新 C1 CPU 内核和 G1-Ultra GPU 的旗舰 SoC,明年的 Google Tensor G6 也有可能采用新的 C1 系列。