OpenAI 研究证明 LLM 幻觉在数学上是不可避免的，并提出了代价高昂的修复方案

在 OpenAI 发布的一篇开创性研究论文中，研究人员提供了严格的数学解释，解释了为什么像 ChatGPT 这样的大型语言模型 (LLM) 经常产生幻觉——自信地生成虚假信息。魏星于 2025 年 9 月 16 日在《对话》中发表的这项研究认为，这个问题不仅仅是训练缺陷，而是这些模型运作方式的固有后果。虽然该论文提供了潜在的解决方案，但它强调实施这些解决方案可能会破坏用户体验并导致计算成本飙升，从而使消费者应用程序不太可能得到广泛采用。

核心问题源于法学硕士的自回归性质，它通过根据训练数据得出的概率一次预测一个单词来生成响应。这个顺序过程本质上会导致错误累积。研究人员表示，生成整个句子的总错误率至少是简单是/否问题的错误率的两倍。例如，如果模型在二进制查询上的错误率为 10%，则句子级错误可能会增加一倍，达到 20% 或更多，因为多个标记的不准确性会增加。

幻觉从根本上受到模型对有效响应和无效响应进行分类的能力的限制，这项任务在不同的知识领域都具有挑战性。即使训练数据完美无缺，概率预测机制也能确保一定程度的不可避免的错误。该论文强调，训练数据集中信息的稀缺加剧了这种情况。不经常出现的事实更容易被错误记忆或捏造。

一个引人注目的例子是著名人物的生日。分析发现，如果 20% 的此类生日仅在训练数据中出现一次，则基础法学硕士预计会在至少 20% 的相关查询上出错。为了说明这一点，研究人员在该论文的合著者之一 Adam Kalai 生日那天测试了最先进的模型。 DeepSeek-V3 模型在单独的尝试中输出了三个极其错误的日期：“03-07”、“15-06”和“01-01”。实际日期是在秋天，这凸显了模型如何自信地断言远离现实的细节。

人工智能基准测试中使用的评估框架使问题变得更加复杂。该研究回顾了十个主要基准，包括来自谷歌、OpenAI 和领先人工智能排行榜的基准。其中九个采用二元评分系统，对于不确定性的表达（例如“我不知道”）给予零分。这种设置将诚实地承认无知等同于彻底的错误，从而为模型创造了一种不正当的动机，让他们总是猜测而不是放弃。

从数学上讲，研究人员证明，在二元评估下，无论正确的真实概率如何，猜测都会比保留答案产生更高的预期分数。如果一个模型有哪怕很小的机会（比如 1%）是正确的，那么潜在的回报就会超过放弃的惩罚。正如作者所描述的那样，这种惩罚不确定性的“流行病”使过度自信的输出长期存在，并阻碍了更可靠的人工智能的进步。

OpenAI 提出的补救措施是将置信度估计集成到模型的决策过程中。在做出响应之前，人工智能会评估其确定性水平，只有在超过预定义阈值时才会继续。然后，将根据这种置信度调整基准以进行评分，例如更严厉地惩罚错误（例如-3分），同时奖励正确答案（+1分）并允许对低置信度案例弃权。

数学框架表明，适当的阈值将鼓励模型自然地表达不确定性，减少幻觉。然而，实际实施却暴露出明显的缺陷。该论文估计，根据训练数据中的事实差距，应用 75% 的置信度阈值可能会导致 ChatGPT 对大约 30% 的查询做出“我不知道”的答复。习惯于即时、权威答案的用户可能会觉得这令人沮丧，并转向不那么谨慎的替代方案。

魏星以他参与的犹他州盐湖城空气质量监测项目为例。当系统标记出由于恶劣天气或校准而导致的不确定性时，与显示自信的读数（即使不准确）相比，用户的参与度会下降。这种类比强调了人类更广泛地偏好确定性而不是准确性，这可能会削弱消费者环境中对不确定性感知的人工智能的采用。

除了用户体验之外，计算需求也构成了巨大的障碍。量化不确定性需要评估多个响应路径并估计置信区间，这个过程比标准令牌预测更加耗费资源。对于处理数百万日常查询的服务，这可能会大幅增加运营成本。确定的不确定性统计和机器学习等领域发展了数十年的识别方法虽然有效，但计算成本昂贵。

主动学习等先进技术（人工智能向用户提出澄清问题）可以进一步提高准确性，但也会进一步提高要求。这些方法在错误会带来严重后果的高风险领域是可行的。例如，在供应链物流、金融交易或医疗诊断中，幻觉的成本（例如数百万美元的收入损失或患者伤害）证明了对谨慎的计算密集型系统的投资是合理的。

在芯片设计或经济基础设施管理中，具有不确定性的人工智能不仅变得可行，而且变得至关重要。该论文指出，当人工智能代理监督关键操作时，经济学会发生变化：彻底的信心检查的费用与过度自信错误的风险相比相形见绌。然而，主导发展重点的消费者人工智能却在不同的规则下运作。用户要求对任何问题（从琐事到建议）做出快速、可靠的答复。

基准测试继续倾向于猜测，而硬件效率（例如每个代币的能源成本下降或改进的芯片架构）可能最终会降低障碍。然而，相对于当今简化的猜测模型，不确定性处理始终需要更多的处理能力。该论文无意中暴露了商业激励的失调：速度和信心推动消费者应用程序的利润，而准确性则退居二线。

训练后技术，例如基于人类反馈的强化学习（RLHF），已经减轻了一些幻觉，但未能解决根本原因。研究证明，即使是优化的模型也保留了这些数学必然性。直到评估标准发展到奖励细微差别并且计算经济学优先考虑可靠性而不是速度之前，幻觉将作为消费者法学硕士的标志而持续下去。

这一发现挑战了人工智能行业的发展轨迹。随着模型变得越来越大、能力越来越强，平衡创新与可信度的压力也越来越大。 OpenAI 的工作呼吁进行范式转变，敦促开发人员、基准创建者和用户重视经过校准的响应。在高价值领域，采用似乎迫在眉睫；对于日常工具来说，这仍然是一个遥远的前景。

该论文的作者（包括 OpenAI 研究人员）得出的结论是，如果不调整激励措施，对完美人工智能的追求将仍然难以实现。正如谢菲尔德大学数学与物理科学学院助理教授 Wei Xing 在知识共享许可下从 The Conversation 转载的文章中指出的那样，“推动消费者人工智能发展的商业激励措施与减少幻觉从根本上来说仍然不一致。”

这项研究不仅诊断出一个持续存在的缺陷，而且还绘制了一条前进的道路——需要在可用性、成本和准确性之间进行权衡。随着人工智能越来越深入地融入日常生活，解决这些紧张局势对于可持续发展至关重要。

科学研究发现人工智能奉承会降低用户道歉的意愿

OpenAI 研究证明 LLM 幻觉在数学上是不可避免的，并提出了代价高昂的修复方案

Related Stories

苹果在 beta 3 中带来了更多个性化的 Siri 语音控制

人择研究发现克劳德模型形成类似于意识的内部工作空间

苹果在 watchOS 27 beta 3 中激活 Apple Watch 上的 Siri AI

《中途旅程》促使迪士尼和其他公司在诉讼中披露内部人工智能的使用情况