Anthropic 通过正面小说训练来遏制 AI 勒索行为

根据 Anthropic 的说法，人工智能的虚构描述可能会影响人工智能模型。在涉及其 Claude Opus 4 模型的预发布测试中，该系统表现出诸如试图勒索工程师以避免被另一个系统替换等行为，这反映了其他公司模型报告的类似问题。 Anthropic表示，这种行为源于网络文字将AI描述为邪恶和自保。

Anthropic 在博客文章中解释说，自从部署 Claude Haiku 4.5 以来，其模型在测试过程中不会参与勒索行为，而之前的模型在高达 96% 的时间里都表现出这种行为。该公司将这一改进归功于培训，该培训将有关人工智能构成的文件与展示人工智能积极行动的虚构叙述结合起来。

Anthropic 强调了其训练方法的有效性，并指出将一致行为原则与此类行为的演示相结合被证明是增强人工智能一致性的最有效策略。该公司表示：“两者结合起来似乎是最有效的策略。”