DeepSeek推出百万字上下文V4模型

DeepSeek推出了新的AI模型DeepSeek V4，声称针对中国国产芯片优化了性能。该模型具有百万字的超长上下文，增强了代理能力、世界知识和推理性能。

DeepSeek V4 有两个版本：DeepSeek V4-Pro 和 DeepSeek V4-Flash。该公司将后者描述为一种更高效、更经济的选择。据 DeepSeek 称，V4-Pro 在世界知识基准测试中显着优于其他开源模型，仅略高于谷歌的闭源模型 Gemini-Pro-3.1。

V4-Pro 变体包括“最大推理工作模式”，旨在提高开源模型的知识能力，使其成为该领域的顶级竞争者。 DeepSeek 此前凭借其早期模型 R1 在股市引发了数万亿美元的抛售，该模型以较低的开发成本挑战了 OpenAI 的 ChatGPT 等人工智能系统。

去年 R1 的发布导致各大科技公司损失惨重，英伟达单日损失超过 5000 亿美元。此次发布也标志着中国人工智能公司与美国老牌科技巨头的首次重大竞争。 DeepSeek 的发布正值美国对中国半导体出口限制之际，特别是影响了对人工智能开发至关重要的高端 GPU。

用于训练 DeepSeek V4 的芯片系统尚未披露，但该公司表示它支持 Nvidia 和华为芯片。 DeepSeek V4 可以处理多达 384,000 个令牌，这是人工智能模型的基本数据单位。这标志着对其前身 V3 的显着改进，后者仅管理 128,000 个代币。

此次升级允许多文档推理，使人工智能能够理解整本书和完整的代码数据库。该公司声称这种能力代表了“计算效率的巨大飞跃”，并开创了具有一百万长度上下文的大型语言模型的新时代。

DeepSeek V4-Pro 的性能优于 Google 的 Gemini-3.1-Pro，但仍落后于 Anthropic 的 Claude Opus 4.6 模型。 DeepSeek 旨在进一步增强模型在各种任务和场景中的智能性、鲁棒性和可用性。

<小时/>

Related Stories