麻省理工学院 CSAIL 的研究人员开发了 PDDL-INSTRUCT,这是一种指令调整框架,旨在提高大型语言模型 (LLM) 的多步规划能力。该方法将逻辑思维链推理与外部计划验证器相结合,以增加逻辑有效计划的生成,而不是看似合理但不正确的输出。

该框架训练模型来识别并解释候选计划失败的原因。这些失败可能包括不满足的前提条件、不正确的效果、框架违规或未实现的目标。这个过程与逻辑思维链提示相结合,指导法学硕士对状态和动作转换进行逐步推理。这会产生可追踪的状态→动作→状态序列,写为 ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩。

对于外部验证,PDDL-INSTRUCT 集成了 VAL 计划验证器,该验证器检查生成计划的每个步骤。验证器提供二进制(有效/无效)或详细的反馈,详细的反馈会带来卓越的性能。该系统采用两阶段优化过程。第一阶段惩罚推理链中的错误,第二阶段优化最终规划的准确性。

该系统使用 PlanBench 基准进行评估,其中包括已知挑战法学硕士的规划领域,例如 Blocksworld、Mystery Blocksworld 和 Logistics。在 Blocksworld 领域,经过调整的 Llama-3-8B 模型的有效计划生成率达到了 94%。以前的模型在 Mystery Blocksworld 上的有效性接近于零,该领域的谓词名称被混淆以防止模式匹配。 PDDL-INSTRUCT 在此领域实现了高达 64 倍的改进。

物流领域也取得了显着的绩效提升。在所有测试领域,与未调整的基准模型相比,该框架的绝对改进高达 66%。研究人员还指出,随着反馈预算的延长和验证器输出的更详细,性能得到了提高。

PDDL-INSTRUCT 当前的实现适用于经典的 PDDL 域,并依赖 VAL 验证器作为外部预言机。结果展示了一种将 LLM 推理基于形式语义的方法,用于在规划过程中包含验证者的代理系统。扩展框架以处理长期、时间、数字和成本敏感的规划任务仍然是进一步工作的领域。

  Spotify 和 Canva 引领从代码创建到人工智能监督的转变