Guide Labs开源Steerling-8B解决AI“黑匣子”问题

总部位于旧金山的初创公司 Guide Labs 于周一宣布开源 80 亿参数大型语言模型 Steerling-8B。该公司由首席执行官 Julius Adebayo 和首席科学官 Aya Abdelsalam Ismail 创立，开发了具有独特架构的模型，旨在追踪 LLM 生成的每个代币到其在训练数据中的特定起源。此功能允许用户识别事实主张的参考材料或分析模型输出中的复杂属性，例如幽默和性别编码。

Steerling-8B 的开发源于阿德巴约在麻省理工学院攻读博士学位期间开始的研究。 2018 年，他与人合着了一篇被广泛引用的论文，证明现有的理解深度学习模型的方法并不可靠。这项基础性工作催生了一种构建法学硕士的新方法，将可解释性直接融入到模型的结构中。 Guide Labs 没有应用事后分析（阿德巴约将其描述为“模型上的神经科学”），而是插入了一个概念层，将数据分类为可追踪的类别。虽然这种方法需要在其他人工智能模型的协助下进行更多的前期数据注释，但它从头开始建立了一个透明的框架。

尽管采用结构化架构，Steerling-8B 仍保留紧急行为。该团队跟踪他们所说的“发现的概念”，模型在训练期间独立识别这些概念。阿德巴约引用量子计算作为模型自行发现的概念的一个例子，说明该系统不仅仅依赖于预先标记的数据类别。

阿德巴约解决了控制模型行为的复杂性，特别是关于性别等敏感属性。阿德巴约告诉 TechCrunch：“如果我有一万亿种方法来编码性别，并且我将其编码到我拥有的 1 万亿种事物中的 10 亿种中，那么你必须确保找到我编码的所有这 10 亿种事物，然后你必须能够可靠地打开或关闭它们。”他指出，虽然当前的模型允许一定程度的控制，但它仍然很脆弱，将这些编码的可靠管理描述为该领域的“圣杯问题之一”。

该公司确定了 Steerling-8B 可解释性的几个实际应用。在面向消费者的应用程序中，该架构使开发人员能够阻止受版权保护的材料或控制与暴力或药物滥用等敏感主题相关的输出。在受监管的行业，特别是金融行业，该模型允许贷款评估等领域的合规性，可以指示算法考虑财务记录，同时明确忽略种族。 Guide Labs 还开发了科学研究技术，满足深入了解深度学习模型为何产生特定结果的需求，例如在蛋白质折叠模拟中。

性能基准表明，Steerling-8B 在使用较少训练数据的情况下实现了现有不可解释模型 90% 的功能。阿德巴约认为，这种效率表明了从理论科学到实际工程的转变。阿德巴约说：“这个模型表明，训练可解释模型不再是一门科学；它现在是一个工程问题。” “我们弄清楚了科学原理，我们可以扩展它们，而且这种模型没有理由不能与前沿模型的性能相匹配。”

Guide Labs 起源于 Y Combinator，并于 2024 年 11 月从 Initialized Capital 获得了 900 万美元的种子轮融资。该公司的路线图包括构建更大的模型并向用户提供 API 和代理访问。阿德巴约强调，随着人工智能系统变得越来越强大，可解释性民主化的重要性。阿德巴约说：“我们目前训练模型的方式非常原始，因此固有的可解释性民主化实际上对我们在人类中的角色来说是一件长期的好事。” “当我们追求这些超级智能的模型时，你不希望有一些东西代表你做出对你来说有点神秘的决定。”

<小时/>

特色图片来源

Guide Labs开源Steerling-8B解决AI“黑匣子”问题

Related Stories

OpenAI 推出由 GPT-5.6 提供支持的 ChatGPT Work 生产力应用程序

OpenAI 与 Sol、Terra 和 Luna 一起推出 GPT-5.6

谷歌在搜索、YouTube 和 Discover 的广告中添加人工智能披露标签

Anthropic 推出 Reflect 仪表板帮助用户管理 Claude 使用情况