埃隆·马斯克的 xAI 公司推出了一款强大的 AI 训练系统 Colossus。马斯克在 X(原名 Twitter)上的最新帖子中宣布了这一消息。新系统使用了 10 万块 Nvidia 显卡,这对 xAI 和 AI 社区来说是一大进步。
Colossus 系统使用 Nvidia 的 H100 显卡,自 2022 年以来,该显卡一直是 AI 处理的标准。该系统是有史以来最先进的 AI 训练系统之一。马斯克表示,新系统是“世界上最强大的 AI 训练系统”。它甚至可以超越最快的超级计算机,例如美国能源部的 Aurora。
本周末, @xAI 团队将我们的 Colossus 100k H100 训练集群上线。从开始到结束,一共花了 122 天。
Colossus 是世界上最强大的 AI 训练系统。此外,它的规模将在几个月内翻倍至 20 万台(5 万台 H200)。
出色的…
— 伊隆·马斯克(@elonmusk) 2024 年 9 月 2 日
巨人力量背后的驱动力
Colossus 系统的处理能力来自 Nvidia 的 H100芯片这些芯片是AI行业最强大的芯片之一,旨在训练大型语言模型。H100的Transformer Engine模块是一组针对运行基于Transformer神经网络架构的AI模型而优化的电路。该架构用于许多顶级AI模型,包括Meta的Llama 3.1 405B和OpenAI的GPT-4。
马斯克的 xAI 公司已获得 60亿美元投资,将其估值提升至 240亿美元。这笔资金是马斯克与 OpenAI 竞争的努力的一部分,他正在起诉 OpenAI 违反合同。Colossus 系统比美国能源部的 Aurora 超级计算机更快。它使用 Nvidia 先进的 H100 显卡。较新的 H200芯片 提供改进,包括从 HBM3 至 HBM3e 内存 并增加板载内存容量 141千兆字节. 为 Colossus 提供动力的部分芯片最初是为特斯拉设计的。
Cortex 内部视频,这是特斯拉奥斯汀总部正在建造的巨型新型 AI 训练超级集群,旨在解决现实世界的 AI 问题 pic.twitter.com/DwJVUWUrb5
— 伊隆·马斯克(@elonmusk) 2024 年 8 月 26 日
该系统拥有超过 10 万个芯片。马斯克计划将系统的芯片数量增加一倍,达到 20 万个,其中 5 万个是更新、更快的 H200 处理器。H200 是 H100 的改进版。它有两个新功能,使其速度更快、功能更强大。这些升级使 Colossus 更容易处理复杂的 AI 模型。
随着 xAI 推进 AI 技术的发展,新系统将成为开发下一代语言模型的关键。该公司的主要模型 Grok-2 使用了 15,000 个 GPU 进行训练。借助 Colossus 的 100,000 个芯片的强大功能,可以创建更先进的模型。xAI 计划在今年年底前发布一款新模型。
除了开创性的 AI 开发之外,xAI 对 Nvidia 硬件的使用也凸显了各行各业对强大 AI 处理能力的需求日益增长。Colossus 中使用的部分芯片最初是为特斯拉设计的,这一事实进一步凸显了这项技术在马斯克更广阔的愿景中的重要性。
特色图片来源:Furkan Demirkaya / Dall-E
Source: Colossus 与 Elon Musk 的 xAI 和 Nvidia 联手