在OpenAI发行的一份开创性的研究论文中,研究人员提供了一个严格的数学解释,说明了为什么大型语言模型(LLM)(如Chatgpt)经常幻觉,并保证会产生虚假信息。这项研究于2025年9月16日在对话中发表,认为这个问题不仅是培训缺陷,而且是这些模型如何运作的固有结果。尽管本文提供了潜在的解决方案,但它强调实施它们可能会破坏用户体验并飙升的计算成本,从而使消费者应用程序不太可能采用广泛的采用。核心问题源于LLM的自回旋性质,该性质通过一次根据训练数据得出的概率预测一个单词来产生响应。此顺序过程固有地导致误差积累。根据研究人员的说法,生成整个句子的总错误率至少是简单的是/否问题的错误率的两倍。例如,如果模型在二进制查询上具有10%的错误率,则句子级错误可能会翻倍至20%或更多,因为多个令牌上的不准确性化合物。幻觉从根本上是由模型对有效响应和无效响应进行分类的能力的界定,这一任务证明了在各种知识领域中具有挑战性的任务。即使使用完美的培训数据,概率预测机制也可以确保一定程度的不可避免的虚假性。本文强调,培训数据集中的信息稀有性加剧了这一点。很少出现的事实更容易被误解或捏造。一个惊人的例子涉及著名人物的生日。分析发现,如果在培训数据中只出现了20%的生日,则基本LLM将在至少20%的相关查询中犯错。为了说明,研究人员在本文的合着者之一亚当·卡莱(Adam Kalai)的生日那天测试了最先进的模型。模型DeepSeek-V3在单独尝试中输出了三个非常错误的日期:“ 03-07,“ 15-06”和“ 01-01”。实际日期落在秋天,强调了模型如何自信地断言远离现实的细节。复杂问题是AI基准中使用的评估框架。该研究回顾了十个主要基准,包括Google,OpenAI和领先的AI排行榜的基准。其中有九个采用二元分级系统,以零积分为不确定性的表达,例如“我不知道”。这种设置将无知的诚实承认与彻底的错误等同,从而为模型始终猜测而不是弃权创造了一种不正当的动力。从数学上讲,研究人员证明,在二进制评估下,猜测的预期得分要高于预定响应,而不论正确的正确性。如果一个模型甚至有一个纤细的机会(((((s))),1%的人是正确的,那么潜在的奖励就超过了弃权的罚款。正如作者所描述的那样,这种惩罚不确定性的“流行病”使过度自信的产出永久化并扼杀了更可靠的AI。 OpenAI提出的补救措施涉及将置信度估计整合到模型的决策过程中。在响应之前,AI将评估其确定性水平,仅在超过预定义阈值的情况下进行。然后将根据此信心调整基准为分数,例如更严重地惩罚错误(例如-3点),同时奖励正确的答案(+1点)并允许在低信心案件中弃权。数学框架表明,适当的阈值将鼓励模型自然表达不确定性,从而减少幻觉。但是,实际实施揭示了重要的缺点。本文估计,基于培训数据中的事实差距,应用75%的置信度阈值可能导致chatgpt对查询的“我不知道”的回应。习惯性的用户,权威的答案可能会发现这令人沮丧,并转向较少谨慎的选择。 Wei Xing从他参与犹他州盐湖城的一个空中质量监测项目中得出了相似之处。当系统标记不确定性(到不利的天气或校准)时,用户的参与度下降了,即使显示自信,即使不准确,读数也会下降。这种类比强调了更广泛的人类对确定性而不是准确性的偏爱,这可能会侵蚀消费者环境中不确定性意识的AI的采用。除了用户体验之外,计算需要构成一个强大的障碍。量化不确定性需要评估多个响应路径和估计置信区间,这一过程比标准令牌预测更加重要。对于处理数百万日常查询的服务,这可能会大大增加运营成本。已建立的不确定性量化方法在统计和机器学习等数十年中开发了几十年来,在计算上是有效的。高级技术(例如Active Learning)(AI在其中向用户提出澄清的问题)可以进一步提高准确性,但更大地提高了要求。这些方法在误差带来严重后果的高风险域中是可行的。例如,在供应链物流,金融交易或医疗诊断中,幻觉的成本(例如,收入损失或患者损失损失)证明了对谨慎的,较重的镇定系统的投资。在芯片设计或经济基础设施管理中,不确定的AI不仅可行,而且是必不可少的。该论文指出,当AI代理人监督关键操作时,经济学的转变:彻底信心检查的费用会抵制过度自信错误的风险。但是,主导开发优先级的消费者AI在不同的规则下运作。用户需要从琐事到建议的快速,确保对任何查询的回答。基准继续偏爱猜测工作,硬件效率(例如每个令牌或改进的芯片架构的能源成本下降)可能最终降低了障碍。然而,相对于当今的简化猜测模型,不确定性处理总是需要更多的处理能力。该论文无意间揭露了业务激励措施的错位:速度和信心推动消费者应用程序中的利润,而准确性可以倒退。训练后技术,例如从人类反馈中学习(RLHF),已经减轻了一些幻觉,但无法解决根本原因。该研究证明,即使优化的模型也保留了这些数学不可避免的。在评估标准奖励奖励细微差别和计算经济学将可靠性优先于速度之前,幻觉将持续为消费者LLM的标志。这种启示挑战了人工智能行业的轨迹。随着模型变得更大,越来越有能力,平衡创新与可信赖性的压力会加剧。 Openai的工作要求范式转移,敦促开发人员,基准测试者和用户重视校准的响应。在高价值领域,收养似乎即将到来。对于日常工具,它仍然是一个遥远的前景。该论文的作者,包括OpenAI研究人员,得出的结论是,如果没有激励措施,追求完美的AI将仍然难以捉摸。当谢菲尔德大学数学和物理科学学院的助理教授魏Xing(Wei Xing)在对话中的文章中指出,根据创意共享许可,“驱动消费者AI开发的商业奖励措施在减少幻觉中一直处于失误状态。”这项研究不仅诊断出持续存在的缺陷,而且还绘制了前进道路,这需要在可用性,成本和真实性之间进行权衡。随着AI更深入地融入日常生活,解决这些紧张局势对于可持续发展至关重要。
