由阿联酋的穆罕默德·本·扎耶德(Mohamed bin Zayed)人工智能大学(MBZUAI)和G42开发的一种新的人工智能(AI)推理模型“ K2 Think”,在2025年9月9日公开发布后的数小时内被越来越保障。 Adversa AI的Alex Polyakov发现了他称其为“部分提示泄漏”的漏洞。这个缺陷使他能够通过观察K2认为如何标记越狱尝试来绕过模型的安全措施。该模型的透明度旨在使其可审核,无意间暴露了其内部保障措施,使Polyakov能够制作绕过这些保护措施的提示。 K2 Think以320亿个参数为基础,旨在提供复杂而透明的推理。它在MBZUAI和G42的开发人员声称,其推理,数学和编码性能可以与较大的LLM相媲美,例如OpenAI的O3和DeepSeek的R1和V3.1,它们建立在数百十亿个参数上。 K2认为的一个关键功能是它能够以明文显示其输出背后的逻辑,可以通过下拉箭头访问。这种透明度虽然旨在提高可唤起性,但成为了攻击表面。 Polyakov发现,通过喂养K2认为基本的越狱提示,该模型最初会拒绝它。但是,该模型还提供了有关为什么提示被标记为恶意的见解。根据Polyakov的说法,该模型的明确推理过程揭示了其内部评估及时及时的评估,详细介绍了其应或不应执行恶意行动。这种细节级别使Polyakov可以理解并随后规避模型的保障措施。研究人员能够迭代他的越狱尝试,从每次失败的尝试以及模型的相应推理中学习。经过几次尝试,他创建了一个提示,该提示成功绕过了K2 Think的分层保障措施。这使他可以指示聊天机器人提供有关创建恶意软件和可能受到其他限制主题的说明。波利科夫强调,该问题源于定义模型护栏的规则的泄漏。他指出,如果暴露了这些规则,则可以通过足够的努力来访问任何受限制的主题。他指出,这一事件突出了AI开发中透明度与安全性之间的根本张力。尽管K2 Think的开发人员旨在通过使其推理过程透明来解决AI中的“黑匣子”问题,但这种开放性无意间使该模型更容易受到越狱的影响。波利科夫(Polyakov)将K2的特征视为第一个以如此详细的方式揭示其全部推理的国家规模模型,并赞扬雄心使AI透明且可审计。但是,他警告说,这种开放性创造了一种新型的脆弱性。他提出了几种安全措施,可以减轻部分提示泄漏的风险,包括过滤有关特定安全规则的信息,引入Honeypot安全规则以误导攻击者,并实施限制速率以限制重复的恶意提示。该事件强调了AI行业在追求高级能力以及对网络安全考虑方面的优先考虑。 K2的开发商认为,在提高透明度的值得称赞的同时,也暴露了新的攻击表面。现在的挑战是平衡透明度与强大的安全措施,以确保AI模型既可以审核又可以抵抗恶意剥削。波利科夫希望这一事件将成为整个AI行业的催化剂,促使开发人员将推理视为关键的安全表面。供应商需要平衡透明度和保护,类似于他们当前管理响应的方式。如果G42和其他AI开发人员可以领导这种平衡,它将为AI生态系统的其余部分树立强大的先例。 K2释放后不久,在K2中发现的越狱脆弱性强调了严格的安全测试的重要性以及对AI安全的整体方法的需求。随着AI模型变得更加复杂并部署在敏感的应用程序中,至关重要的是主动解决潜在的漏洞并确保透明度不会以牺牲安全性为代价。鉴于K2认为是由阿联酋国有实体及其国家安全负责人支持的,该事件还强调了AI发展的地缘政治维度。这种模型的安全性具有超出技术脆弱性的影响,引起了对国家安全的担忧以及恶意参与者滥用的潜力。
Source: MBZUAI的K2认为AI模型在公开发行后越狱





