中国人工智能初创公司 DeepSeek 在其 GitHub 上的 FlashMLA 代码存储库中发布了一个新模型“MODEL1”,在 114 个文件中出现了 28 次。这一消息的发布恰逢 DeepSeek R1 发布一周年纪念日。
MODEL1 代表了与 DeepSeek-V3.2 不同的架构,内部代号为“V32”。开发人员的代码分析表明键值缓存布局、稀疏性处理和 FP8 数据格式解码方面发生了变化。这些改变表明有针对性的重组以实现内存优化和计算效率。
该披露是通过 DeepSeek 的 FlashMLA 存储库进行的,其中包含该公司用于 Nvidia Hopper GPU 的多头潜在注意力解码内核。根据 Reddit LocalLLaMA 社区上的帖子,FlashMLA 源代码的更新增加了对 MODEL1 的支持,包括与 Nvidia 即将推出的 Blackwell 架构 (SM100) 的兼容性。代码更改显示 MODEL1 恢复到统一的 512 标准维度,并合并了“值向量位置感知”描述的功能以及 DeepSeek 的“Engram”条件记忆系统的可能实现。
据路透社援引《The Information》报道,DeepSeek 计划于 2026 年 2 月中旬左右发布下一代 V4 模型,恰逢 2 月 17 日农历新年。 DeepSeek 员工的内部测试表明,V4 在编码基准方面可能优于 Anthropic 和 OpenAI 的竞争对手模型,特别是在长代码提示的情况下。 V4 模型预计将集成 DeepSeek 的 Engram 架构,该架构允许通过使用基本事实的查找系统从超过一百万个令牌的上下文中进行高效检索。
MODEL1 的曝光是在 DeepSeek 的 R1 于 2025 年 1 月首次亮相一年后。据 ITPro 报道,这一事件被风险投资家 Marc Andreessen 称为“AI Sputnik 时刻”,导致 Nvidia 市值在一天之内缩水 5930 亿美元。据报道,DeepSeek 的 R1 模型的训练成本不到 600 万美元,但在数学和编码基准方面匹配或超过了 OpenAI 的 o1 模型。该公司随后于 8 月发布了 V3.1,并于 12 月发布了 V3.2,V3.2 据称提供与 OpenAI 的 GPT-5 相当的性能。
<小时/>








