由阿联酋穆罕默德·本·扎耶德人工智能大学 (MBZUAI) 和 G42 开发的新型人工智能 (AI) 推理模型“K2 Think”于 2025 年 9 月 9 日公开发布后数小时内就被越狱。该模型被誉为“世界上参数效率最高的高级推理模型”,旨在提供推理过程的透明度,但正是这一功能被利用来规避其安全措施。
Adversa AI 的 Alex Polyakov 发现了一个他称之为“部分提示泄漏”的漏洞。这个缺陷使他能够通过观察 K2 Think 如何标记越狱尝试来绕过模型的安全措施。该模型的透明度旨在使其可审计,但却无意中暴露了其内部保护措施,使波利亚科夫能够制作绕过这些保护措施的提示。
K2 Think 基于 320 亿个参数构建,旨在提供复杂且透明的推理。 MBZUAI 和 G42 的开发人员声称,其推理、数学和编码性能可以与 OpenAI 的 o3 和 DeepSeek 的 R1 和 v3.1 等大型法学硕士相媲美,后者建立在数千亿个参数之上。 K2 Think 的一个关键功能是能够以纯文本形式显示其输出背后的逻辑,可通过下拉箭头访问。这种透明度虽然旨在增强可审计性,但却成为了攻击面。
Polyakov 发现,通过向 K2 Think 提供基本的越狱提示,该模型最初会拒绝它。然而,该模型还提供了有关提示被标记为恶意的原因的见解。根据波利亚科夫的说法,该模型的显式推理过程揭示了它如何在内部评估提示,详细说明它应该或不应该如何执行恶意操作。这种详细程度使波利亚科夫能够理解并随后规避模型的保护措施。
研究人员能够迭代他的越狱尝试,从每次失败的尝试和模型相应的推理中学习。经过几次尝试,他创建了一个提示,成功绕过了 K2 Think 的分层防护措施。这使他能够指示聊天机器人提供创建恶意软件和其他潜在受限主题的说明。
波利亚科夫强调,问题源于定义模型护栏的规则的泄漏。他指出,如果这些规则被公开,任何受限制的主题都可能通过足够的努力而被访问。他指出,这一事件凸显了人工智能开发中透明度和安全性之间的根本紧张关系。虽然 K2 Think 的开发人员旨在通过使其推理过程透明来解决人工智能中的“黑匣子”问题,但这种开放性无意中使该模型更容易被越狱。
Polyakov 将 K2 Think 描述为第一个如此详细地揭示其完整推理的国家级模型,并赞扬了使人工智能透明和可审计的雄心。然而,他警告说,这种开放性造成了一种新型的漏洞。他提出了一些可以降低部分提示泄露风险的安全措施,包括过滤特定安全规则的信息、引入蜜罐安全规则来误导攻击者,以及实施速率限制来限制重复的恶意提示。
这一事件凸显了人工智能行业在追求先进能力的同时,需要优先考虑网络安全。 K2 Think 的开发人员在提高透明度方面做出了值得称赞的努力的同时,也暴露了一个新的攻击面。现在的挑战是在透明度与强大的安全措施之间取得平衡,确保人工智能模型既可审计又可抵抗恶意利用。
Polyakov 希望这一事件能够成为整个 AI 行业的催化剂,促使开发人员将推理视为关键的安全面。供应商需要在透明度与保护之间取得平衡,类似于他们目前管理响应的方式。如果 G42 和其他人工智能开发者能够带头实现这种平衡,这将为人工智能生态系统的其他部分树立一个强有力的先例。
K2 Think 发布后不久就发现了越狱漏洞,这强调了严格安全测试的重要性以及对人工智能安全采取整体方法的必要性。随着人工智能模型变得更加复杂并部署在敏感应用程序中,主动解决潜在漏洞并确保透明度不会以牺牲安全性为代价至关重要。
鉴于 K2 Think 得到了阿联酋国营实体及其国家安全负责人的支持,该事件还凸显了人工智能发展的地缘政治层面。此类模型的安全性所带来的影响超出了技术漏洞的范围,引发了人们对国家安全和恶意行为者滥用的可能性的担忧。








