Anthropic 尚未发布有关 Claude Mythos 的技术论文,这促使 Kye Gomez 在 GitHub 上启动了 OpenMythos 开源项目。 OpenMythos 旨在使用 PyTorch 中的第一原理重建 Claude Mythos 架构。

该项目提出 Claude Mythos 是一种称为循环深度变压器(RDT)的架构,它与传统变压器有根本的不同。标准 Transformer 通过一系列具有独立权重的独特层处理输入,而 RDT 在单次前向传递过程中迭代应用一组固定的权重。

这种方法允许推理深度取决于推理时执行的迭代次数。 OpenMythos 采用三部分结构:Prelude、Recurrent Block 和 Coda,其中 Prelude 和 Coda 各由运行一次的标准变压器层组成,而 Recurrent Block 最多可以循环 16 次。

在每个循环步骤中,隐藏状态按照以下方程更新:ht+1 = A·ht + B·e + Transformer(ht, e)。这里,e 表示来自 Prelude 的编码输入,该输入在每次迭代中重新注入以保持连续性。矩阵 A 和 B 指示先前隐藏状态和编码输入对下一个状态的影响程度。

循环块包含一个专家混合(MoE)层,该层有选择地激活每个代币的专家子集,从而促进计算多样性。每次迭代都使用不同的专家选择,允许在共享基本权重的同时进行不同的计算。

OpenMythos 还采用了 Multi-Latent Attention,可显着减少 KV 内存使用量。该架构无需发出中间令牌即可进行推理,这与通过中间令牌处理推理的标准思维链提示形成鲜明对比。

OpenMythos 解决了与循环模型相关的常见训练挑战,例如残余爆炸和过度思考等稳定性问题。通过强制矩阵 A 的谱半径保持小于 1 来保持稳定性,如 Parcae 架构中所示。

实现动态自适应计算时间 (ACT) 停止,以根据令牌复杂性确定循环的停止标准。深度明智的 LoRA 适配器还用于在每次迭代中创建独特的行为,从而最大限度地减少参数的增加。

研究表明,具有 7.7 亿个参数的 RDT 可以提供与具有 13 亿个参数的标准变压器相当的性能。这表明推理深度随着推理计算而扩展,挑战了关于参数计数和模型能力之间关系的现有范例。

OpenMythos 提供了探索循环变压器动力学和推理深度的实用实现,有可能指导人工智能开发的未来进步。该项目提供可配置的 PyTorch 实现、LTI 稳定的循环注入、深度 LoRA 适配器和可重复的研究基线。

Gomez 表示:“无论 Mythos 是否实际上是 RDT,OpenMythos 都为研究社区提供了具体的资源,以调查这一尚未充分开发的架构类别及其对 AI 的影响。”

<小时/>

精选图片来源

  谷歌在搜索人工智能模式下向所有美国用户推出 Canvas 功能