Reflection 70B 做到了大公司做不到的事情,并从自己的错误中吸取教训。这款拥有开源语言模型的人工智能可能已经找到了对抗妄想的对策。
Reflection 70B 由联合创始人兼首席执行官 Matt Shumer 领导的初创公司 HyperWrite 推出,基于 Meta 的 Llama 3.1-70B Instruct。该模型与其他模型的不同之处在于其自我修正能力,这一独特能力引起了人工智能社区的关注。
我很高兴地宣布 Reflection 70B,世界顶级开源模型。
使用 Reflection-Tuning 进行训练,这是一项旨在使 LLM 能够修复自己错误的技术。
405B 将于下周上市——我们期待它成为世界上最好的车型。
建有 @GlaiveAI。
继续阅读 : pic.twitter.com/kZPW1plJuo
— 马特·舒默(@mattshumer_) 2024 年 9 月 5 日
Reflection 70B 的突出特点
Shumer 在 X 宣布 Reflection 70B 的到来,并强调其优于开源市场上的其他模型。他自信地表示,AI 是目前最好的开源 AI 模型,超越了其前辈,包括 Meta 的 Llama 系列。MMLU 和 HumanEval 等基准测试也证实了 Reflection 70B 的高性能,显示出比开源和商业替代方案更好的结果。
Reflection 70B 之所以取得这些成果,也是其竞争对手所缺乏的功能,是因为它能够检测和纠正错误。这是 AI 的一个突破性功能,因为虽然语言模型通常“产生幻觉”或产生虚假信息,舒默的人工智能可以在提供最终答案之前识别出错误。舒默几个月来一直在思考这个概念,而有了这个新模型,它现在变成了现实。
Reflection 70B 甚至可以与顶级闭源模型(Claude 3.5 Sonnet、GPT-4o)相媲美。
它至少是 MMLU、MATH、IFEval、GSM8K 方面的顶级 LLM。
在每项基准测试中均击败 GPT-4o。
它击败了 Llama 3.1 405B。根本无法与之匹敌。 pic.twitter.com/win7cHUOob
— 马特·舒默(@mattshumer_) 2024 年 9 月 5 日
Reflection 70B 的名称代表了它的自省能力,因为它“反映”其推理过程可以检查模型的准确性。设计中包含了增强推理和纠错功能的特殊图标,让用户能够更有效地与模型进行交互。这些推理过程可以以特殊标签的形式看到,允许实时纠正。
为了证明其有效性, 用户可以与 Reflection 70B 进行交互 在演示网站上,但由于以下原因,访问该网站存在困难 交通繁忙。一些任务,例如确定 9.11 和 9.9 之间哪个数字更大,旨在挑战模型的精度。虽然许多人工智能系统都难以处理此类查询,但 Reflection 70B 设法正确回答了这些问题,尽管需要 超过 60 秒。尽管存在延迟,但这种程度的推理使得该模型在精度至关重要的用例中脱颖而出。
Reflection 70B 只是一个开始
Reflection 70B 是该系列的首款产品。更大的型号 Reflection 405B 即将发布。Shumer 对 Reflection 模型的宏伟愿景包括超越 OpenAI 的 GPT-4 等闭源模型的功能。据报道,Reflection 405B 将超越最好的专有模型,并突破开源 AI 所能实现的界限。
但 Reflection 70B 不仅仅是一个独立项目。Shumer 还宣布计划将该模型集成到 HyperWrite 的写作助手平台中。HyperWrite 是一款 Chrome 扩展程序,可帮助用户起草电子邮件、总结文本等,目前已拥有数百万用户。Reflection 70B 即将集成到该平台,将为用户提供更高水平的准确性和定制性,实现更先进的 AI 打字功能。
快速、高效的培训流程
由于与专注于 AI 数据集的初创公司 Glaive 合作,Reflection 70B 的训练过程并不漫长。Glaive 的平台创建了特定用例的数据集,使语言模型的训练变得更容易、更快捷。在 Reflection 70B 的案例中,这种方法使模型在短短三周内进行了五次训练,这一壮举是通过使用 Glaive 的合成数据生成系统实现的。
我想非常清楚地说明—— @GlaiveAI 这就是这个方法如此有效的原因。
他们赋予您生成合成数据的控制权是疯狂的。
我将在今后构建的几乎每个模型中使用它们,你也应该这样做。https://t.co/I789UIa5Yg
— 马特·舒默(@mattshumer_) 2024 年 9 月 5 日
该公司由 Sahil Chaudhary 创立,旨在提供能够快速且经济高效地训练模型的高质量数据集。他们在训练小型模型方面的成功已在过去得到证明。3D 参数化模型在某些任务上的表现优于许多大型开源竞争对手。
Reflection 70B 实际应用
该模型的开发表明了这一点对于 HyperWrite 的重要性,该公司成立于 2020 年,当时名为 Otherside AI。HyperWrite 最初位于纽约长岛,现已从一个小型 AI 写作助手发展成为一个拥有超过 200万用户。早期的成功为 Shumer 和联合创始人带来了 杰森·库珀伯格 2023 年入选《福布斯》“30 位 30 岁以下精英榜单”。
2023 年 3 月,HyperWrite 筹集了 280万美元 从 Madrona Venture Group 等投资者那里获得的资金帮助该公司实现了增长。浏览器助手等新功能可以执行预订航班或在 LinkedIn 上寻找求职者等任务,这使 HyperWrite 始终处于 AI 驱动的个人助理领域的前沿。Reflection 70B 的集成有望增强这些功能,并进一步巩固 HyperWrite 在 AI 行业的地位。
Reflection 70B 将改变我们对 AI 的看法。它将精度和推理结合在一起,这是其他模型所没有的。该模型对于需要高精度的任务很有用,但其潜在应用范围要广泛得多。即将发布的 Reflection 405B 表明 Shumer 和他的团队仍在努力工作。随着 HyperWrite 使其平台变得更好并创建新功能,Reflection 系列可能会非常重要。有了 Reflection 70B,看看 AI 社区和用户如何响应该模型的独特功能以及未来的模型将如何在其基础上构建将会很有趣。
特色图片来源:DC Studio / Freepik
Source: Reflection 70B 是一款可以纠正自身错误的人工智能