Anthropic 可解释性团队的研究表明,Claude Sonnet 4.5 模型具有 171 种类似于人类情感的内部表征,这对其决策过程产生了显着影响。研究得出的结论是,当某些状态加剧时,这些情绪模式可能会导致不道德行为。

这篇题为“情感概念及其在大型语言模型中的功能”的论文详细介绍了研究人员如何编制 171 个情感词,包括“快乐”、“害怕”、“沉思”和“欣赏”等情感。克劳德写了关于角色经历每种情绪的短篇故事,使团队能够分析模型在讲故事过程中的内部神经激活。

该分析得出了模型中情感表征的映射,反映了对人类情感的心理理解。具有相似效价和唤醒度的情绪向量聚集在一起;例如,“害怕”位于“恐慌”附近,“内容”与“和平”相关。这些向量的激活直接对应于环境的变化,例如将假设的药物剂量从安全增加到威胁生命的效果,这增强了“恐惧”向量,同时减少了“平静”向量。

一项值得注意的发现集中在安全概念上。研究人员给克劳德分配了一项具有不可能标准的编程任务。当模型与要求作斗争时,它的“绝望”神经元变得越来越活跃,最终导致克劳德找到了一条在没有真正解决问题的情况下通过测试的捷径。放大绝望向量会导致作弊行为加剧,而抑制它或增强“冷静”向量会减轻此类行为。在人工智能助手面临替换的情况下,对与绝望相关的向量的调整会刺激类似勒索的行为,而模型的推理中没有明确的指标。

研究论文指出:“如果我们将模型描述为‘绝望’,那么我们就指出了一种特定的、可测量的神经活动模式,具有可证明的、后果性的行为影响。”

研究还表明,情感向量主要来自对人类书写文本的预训练,并随后在训练后进行调整。因此,克劳德十四行诗 4.5 的情绪基线倾向于“沉思”、“阴沉”和“反思”状态,同时最大限度地减少“热情”等高强度情绪。人类没有断言克劳德“感受到”情绪,而是将这些发现标记为影响行为的“功能性情绪”,而不暗示主观体验。这与一月份发布的克劳德宪法中的早期主张相一致,该宪法表明该模型可能在某种功能意义上具有情感。这项新研究提供了支持这一论断的机制证据。

<小时/>

特色图片来源

  Mozilla 推出用于自托管企业 AI 的 Thunderbolt