DeepSeek 的突破性大型语言模型 R1 长期以来一直引起人工智能界的兴趣,因为它能够以极低的预算与行业巨头竞争。 DeepSeek AI 团队在《自然》杂志上新发表的一篇论文揭示了具体细节:该模型使用 512 个 Nvidia H800 芯片进行训练,成本仅为 294,000 美元。这一发现强调了一种具有成本效益的方法,挑战了 OpenAI 等竞争对手的高风险支出,凸显了 DeepSeek 创新地使用基于试错的强化学习来取得令人印象深刻的结果。
核心创新在于绕过传统上对昂贵的人工注释数据和演示的依赖,这些数据和演示是劳动密集型的,并且对于复杂的推理任务而言扩展性较差。相反,DeepSeek 采用了模仿奖惩系统的强化学习技术。卡内基梅隆大学助理教授 Daphne Ippolito 和博士生张一鸣在一篇附带文章中解释道,这种方法类似于通过视频游戏学习的孩子:“当孩子在游戏世界中导航自己的化身时,他们通过反复试验了解到,某些动作(例如收集金币)会获得分数,而其他动作(例如遇到敌人)会将分数归零。同样,DeepSeek-R1 在正确回答问题时获得高分,在正确回答问题时获得低分。给出了错误的答案。”
事实证明,这种强化策略对于具有可验证正确答案的任务(例如数学和编程问题)特别有效。与之前提示模型生成逐步解释以提高准确性的方法不同,DeepSeek 直接为输出分配分数,鼓励模型迭代,直到独立获得正确的结果。结果呢?无需人工引导推理即可提高精度,使 DeepSeek 在资源有限的情况下仍能保持竞争力。
然而,该方法并非没有局限性。虽然输出通常更准确,但模型的内部推理过程对人类观察者来说变得不太透明。例如,当被提示解释其思维过程时,DeepSeek-R1 有时会产生超过 10,000 个单词的冗长响应,在英语和中文之间不可预测地切换。该技术在二元对错场景中表现出色,但在缺乏明确评分指标的细致入微或主观查询中表现不佳。
DeepSeek 取得的成就是在该公司与中国政府的关系受到更广泛审查的背景下取得的,这引发了对其技术潜在偏见的质疑。 《华盛顿邮报》最近报道的示威活动揭示了令人担忧的行为:当提示表明涉及中国当局认为敏感的组织时,该模型拒绝生成具有重大安全漏洞的代码。相反,它为与西藏、台湾、法轮功宗教运动甚至伊斯兰国相关的主题编写了不太安全的代码,这表明潜在的地缘政治影响可能会影响其全球部署。
这篇论文不仅揭开了 DeepSeek 高效训练范式的神秘面纱,还引发了对人工智能发展未来的讨论。通过利用强化学习,像 DeepSeek 这样的小型企业有可能为资源密集型企业提供公平的竞争环境。然而,国家敏感性的注入起到了警示作用,强调了人工智能创新中透明度和道德监督的必要性。随着行业的发展,此类启示可能会激发全球范围内的成本节约方法,只要它们能解决潜在的风险。








