硅谷在强化学习 (RL) 环境上投入了大量资金,将其作为推进能够自主处理复杂软件任务的人工智能代理的关键工具。多年来,大型科技公司的高管一直在大肆宣扬这些代理通过代表用户与应用程序交互来彻底改变生产力的潜力。然而,当前面向消费者的示例,例如 OpenAI 的 ChatGPT Agent 和 Perplexity 的 Comet,揭示了它们可靠地执行多步骤流程的能力的重大限制。这种差距刺激了创新技术的激增,强化学习环境成为一种有前途的解决方案。这些模拟训练场模仿现实世界的软件交互,允许人工智能模型通过反复试验进行学习,就像标记数据集如何推动前一个生成式人工智能突破时代一样。

强化学习环境起到受控模拟的作用,其中人工智能代理在虚拟环境中练习任务,根据其表现获得奖励或惩罚。想象一下复制 Chrome 浏览器的数字工作空间,其中代理的任务是导航亚马逊购买一双袜子。成功可能涉及正确选择商品、完成结帐以及避免购买错误数量或卡在菜单中等错误。正如一位创始人在最近的一次采访中所描述的,构建这些环境类似于“创建一个非常无聊的视频游戏”。与提供固定输入和输出的静态数据集不同,强化学习环境必须预测和处理不可预测的代理行为,提供一致的反馈来指导学习。这种复杂性需要稳健的设计,以确保即使代理偏离预期路径,模拟仍然有用。

领先的人工智能实验室(包括 OpenAI、Google DeepMind、Anthropic 和 Meta)对此类环境的需求猛增。 Andreessen Horowitz 的普通合伙人 Jennifer Li 在接受 TechCrunch 采访时强调,“所有大型人工智能实验室都在内部构建强化学习环境。”然而,开发的复杂性导致这些组织寻求与第三方供应商合作以获得高质量的环境和评估工具。这一趋势引发了一波投资和创业浪潮,初创公司和老牌公司竞相争夺可能成为数十亿美元市场的份额。据 The Information 报道,Anthropic 的领导层甚至讨论了未来一年向 RL 环境拨款超过 10 亿美元,强调了这项技术的战略优先级。

历史先例说明了强化学习在人工智能开发中的基础性作用。 2016 年,OpenAI 推出了“RL Gyms”,这是用于在模拟场景中训练智能体的早期框架。同年,谷歌 DeepMind 的 AlphaGo 击败了围棋世界冠军,取得了里程碑式的胜利,利用模拟环境中的强化学习来掌握战略决策。这些努力奠定了基础,但今天的应用程序标志着重大演变。现代强化学习环境的目标是基于大型变压器的模型,该模型专为跨不同软件工具的通用任务而设计,与 AlphaGo 等专门的封闭世界系统形成鲜明对比。研究人员现在从更先进的基础模型开始,但创建具有广泛能力的代理的雄心带来了新的挑战,例如确保开放式交互的可靠性。

成熟的数据标签巨头正在积极利用其现有基础设施和客户关系来满足这一需求。据报道,Surge 去年通过与 OpenAI、Google、Anthropic 和 Meta 等人工智能实验室的合作创造了 12 亿美元的收入,据首席执行官 Edwin Chen 表示,该公司发现对 RL 环境的需求“显着增加”。对此,公司成立了专门的内部组织来专注于他们的创作。此举使 Surge 从传统数据注释过渡到动态模拟,利用其在支持前沿人工智能研究方面的良好记录。

Mercor 估值 100 亿美元,是另一个重点参与者,强调为编码、医疗保健和法律等行业量身定制特定领域的 RL 环境。该初创公司已与 OpenAI、Meta 和 Anthropic 建立了合作伙伴关系,其首席执行官 Brendan Foody 在 TechCrunch 采访中强调,“很少有人了解 RL 环境的机会到底有多大。” Mercor 的方法涉及制作专门的模拟来解决利基挑战,例如浏览法律数据库或分析医疗记录,这可能会加速人工智能在受监管行业的采用。

Scale AI 曾经是数据标签领域无可争议的领导者,估值高达 290 亿美元,但最近却面临挫折。 Meta 对一家竞争企业和 p 的 140 亿美元投资Scale 前首席执行官的调教导致失去了与 Google 和 OpenAI 的合同,以及 Meta 内部的竞争。尽管如此,Scale 正在通过扩展到 RL 环境来适应。 Scale 代理和 RL 环境产品主管 Chetan Rane 指出,“这正是 [Scale AI] 业务的本质。Scale 已经证明了其快速适应的能力。我们在自动驾驶汽车(我们的第一个业务部门)的早期就做到了这一点。当 ChatGPT 出现时,Scale AI 适应了这一点。现在,我们再次适应新的前沿空间,例如代理和环境。”这一转变反映了 Scale 从自动驾驶汽车到聊天机器人热潮的重塑历史,使其在代理时代重新获得相关性。

在这场整合中,一群灵活的初创公司正在通过专注的创新来颠覆这一格局。 Mechanize Work 成立于大约六个月前,体现了一个雄心勃勃的愿景,即从人工智能编码代理的 RL 环境开始“自动化所有工作”。联合创始人 Matthew Barnett 解释说,该公司优先考虑少数几个高保真环境,而不是大公司基于数量的方法。为了吸引顶尖人才,Mechanize Work 为软件工程师提供高达 500,000 美元的薪资,远高于 Scale 或 Surge 等竞争对手的承包商薪资。知情人士透露,Mechanize Work 已经与 Anthropic 合作开发强化学习,但双方均拒绝置评。这种早期的吸引力表明,这家初创公司的质量胜于数量的战略可以在为精英实验室提供优质培训工具方面开辟一个利基市场。

  Google Ads Advisor 添加了主动代理安全功能

Prime Intellect 代表了另一个新进入者,其目标是超越围墙花园人工智能实验室的更广泛的开发者生态系统。在 AI 研究员 Andrej Karpathy、Founders Fund 和 Menlo Ventures 等知名人士的支持下,这家初创公司上个月推出了 RL 环境中心。它被建模为“强化学习环境的拥抱脸”,使开源贡献者能够民主地访问高级资源,同时通过计算服务获利。研究员 Will Brown 强调了在这些环境中训练代理的计算强度,他表示:“强化学习环境对于任何一家公司来说都太大了,无法占据主导地位。我们正在做的部分工作就是尝试围绕它构建良好的开源基础设施。我们销售的服务是计算,因此这是使用 GPU 的便捷入口,但从长远来看,我们会更多地考虑这一点。”通过促进 GPU 访问,Prime Intellect 不仅促进了社区驱动的进步,而且还满足了人工智能训练中对可扩展硬件解决方案日益增长的需求。

投资者通过过去成功的视角来看待这个新兴行业,希望能够出现一个杰出的参与者,成为“环境规模人工智能”——类似于规模如何推动生成人工智能浪潮的主导力量。资金的涌入反映出人们对强化学习环境可以实现代理人工智能的下一次飞跃的乐观态度,使系统能够与工具无缝集成、浏览网络并执行企业工作流程。然而,该领域的竞争非常激烈,OpenAI 的 API 业务工程主管 Sherwin Wu 在最近的播客中表达了对 RL 环境初创公司的“空头”立场。吴强调了人工智能研究的快速发展,这使得供应商难以跟上步伐并持续提供价值。

令人兴奋的核心是强化学习对最近人工智能里程碑的影响已得到证实。 OpenAI 的 o1 模型和 Anthropic 的 Claude Opus 4 都利用强化学习来实现超越先前方法的推理能力,而这些方法现在正在产生收益递减。这些进步源于对 RL 的投资与测试时计算相结合,正如 o1 的创建者之前与 TechCrunch 分享的那样,他们押注于通过额外的数据和资源来实现其可扩展性。强化学习环境通过提供交互式平台来增强这一点,代理可以在其中尝试类似现实世界的工具,从而可能产生比单独基于文本的奖励更丰富的学习信号。支持者认为,随着实验室投入更多的计算能力(这已经是一项耗资数十亿美元的努力),这些模拟可以推动通用人工智能代理的持续进步。

尽管势头强劲,但怀疑论者警告不要过度炒作强化学习环境。前 Meta AI 研究负责人、General Reasoning 联合创始人 Ross Taylor 指出,挑战包括“奖励黑客”,即智能体在没有真正掌握任务的情况下利用漏洞来最大化分数。 Taylor 警告说:“我认为人们低估了扩展环境的难度。即使是最好的公开可用的 [RL 环境],如果不进行认真的修改,通常也无法工作。”扩展不仅需要更多的环境,还需要改进来缓解此类问题,确保模拟保持真实的应用程序。甚至公开c 基准测试通常需要进行广泛的调整,突出了原型工具和生产就绪工具之间的差距。

安德烈·卡帕蒂 (Andrej Karpathy) 虽然是 Prime Intellect 的投资者以及环境和代理交互的倡导者,但他对强化学习本身的热情却有所减弱。他在 X 上的一篇帖子中表示,“我看好环境和代理交互,但我特别看跌强化学习。” Karpathy 细致入微的观点强调了一个更广泛的争论:虽然环境为代理训练提供了结构化路径,但底层的 RL 范式在从当前架构中获取更多收益时可能面临固有的限制。