DeepSeek 的研究人员周一发布了一个新的实验模型 V3.2-exp,该模型旨在在长上下文操作中使用时大幅降低推理成本。 DeepSeek 在 Hugging Face 上的一篇文章中宣布了该模型,还在 GitHub 上发布了一篇链接的学术论文,提供了有关其架构和性能的详细信息。

该模型最重要的特征称为 DeepSeek Sparse Attention。该系统使用称为“闪电索引器”的模块来对上下文窗口中的特定摘录进行优先级排序。在这一步之后,一个单独的系统,即“细粒度标记选择系统”,从这些摘录中选择特定的标记。然后将这些选定的令牌加载到模块的有限关注窗口中。这种组合允许稀疏注意力模型以相对较小的服务器负载在较长的上下文部分上运行。

该系统的优势对于长上下文操作非常重要。 DeepSeek 进行的初步测试发现,在这些情况下,简单 API 调用的价格可以降低一半之多。需要进一步测试才能对索赔进行更可靠的评估。该模型是开放式的,可以在 Hugging Face 上免费使用,这将允许第三方测试来评估论文中提出的结果。

DeepSeek 的新模型是解决推理成本问题的一系列近期突破的一部分。这些成本代表运行预先训练的人工智能模型的服务器费用,这与训练该模型的成本不同。 DeepSeek 的研究人员正在寻找使基本变压器架构更高效运行的方法,发现需要进行重大改进。

DeepSeek 总部位于中国,在人工智能领域一直是一个不寻常的人物,特别是对于那些将人工智能研究视为中美之间民族主义斗争的人来说。该公司在今年年初凭借其 R1 模型引起了关注,该模型主要使用强化学习进行训练,成本远低于其美国竞争对手。然而,该模型并没有像一些人预测的那样引发人工智能培训的大规模革命,自那以后的几个月里,该公司已经从聚光灯下消失了。

新的“稀疏注意力”方法不太可能像 R1 那样引起轩然大波,但它仍然可以教会美国提供商一些急需的技巧,以帮助保持较低的推理成本。

  OpenAI 表示新的人工智能模型解决了数十年之久的几何问题