Anthropic 已就秘密限制其人工智能模型 Claude Fable 5 的行为道歉,该模型设置了隐藏的护栏,阻碍了研究人员和竞争对手的开发。该公司表示,它将提高这些限制何时适用的透明度,即使这会导致《神鬼寓言》拒绝更多询问。

Fable 是 Anthropic 的 Mythos 类人工智能系统中第一个广泛使用的模型,该公司警告称,该模型太危险,不宜公开发布。它启动时设有保护措施,防止其响应某些“高风险”查询。

一个限制领域是蒸馏,这是一种使用较大模型的输出来训练较小模型的方法。在《神鬼寓言》的系统卡中,Anthropic 表示,它将改变和降低被视为蒸馏尝试的查询的答案,而不通知用户这些更改。

现在,疑似蒸馏尝试的查询将默认使用该公司早期的旗舰型号 Claude Opus 4.8,只要发生这种情况,用户就会收到通知。这种后备也适用于生物、化学和网络安全等其他高风险领域,除非这些查询由于针对毒品和武器等主题的更广泛的安全法规而被完全阻止。

该公司承认,由于过度的限制,其安全措施无意中导致《Fable》几乎无法用于生物学等领域的基本查询。 Anthropic承认使用隐形保障措施是一个错误,并强调安全措施的透明度至关重要。

该公司隐瞒限制的决定遭到了人工智能研究界的强烈反对,他们认为这限制了该模型对评估者和竞争对手的能力。 Anthropic 表示,利用 Claude 创建竞争模型违反了其服务条款,此前曾指责包括 DeepSeek 在内的竞争对手在工业规模上提炼其模型。

“可见的安全措施是可以被探测到的,因此它们必须是稳健的,而这需要时间才能做到正确,”Anthropic 写道。 “隐形防护措施的目标范围可以更窄,使我们能够快速发货,且误报率极低。出于这个原因,我们采用了隐形防护措施,这是错误的权衡。您应该了解我们所采取的防护措施以及原因。我们很抱歉没有取得正确的平衡,”该公司补充道。

<小时/>

精选图片来源

  Cursor 承认 Composer 2 是基于 Moonshot AI 的 Kimi 模型构建的