麻省理工学院 CSAIL 推出用于 LLM 规划的 PDDL-Instruct

麻省理工学院 CSAIL 的研究人员开发了 PDDL-INSTRUCT，这是一种指令调整框架，旨在提高大型语言模型 (LLM) 的多步规划能力。该方法将逻辑思维链推理与外部计划验证器相结合，以增加逻辑有效计划的生成，而不是看似合理但不正确的输出。

该框架训练模型来识别并解释候选计划失败的原因。这些失败可能包括不满足的前提条件、不正确的效果、框架违规或未实现的目标。这个过程与逻辑思维链提示相结合，指导法学硕士对状态和动作转换进行逐步推理。这会产生可追踪的状态→动作→状态序列，写为 ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩。

对于外部验证，PDDL-INSTRUCT 集成了 VAL 计划验证器，该验证器检查生成计划的每个步骤。验证器提供二进制（有效/无效）或详细的反馈，详细的反馈会带来卓越的性能。该系统采用两阶段优化过程。第一阶段惩罚推理链中的错误，第二阶段优化最终规划的准确性。

该系统使用 PlanBench 基准进行评估，其中包括已知挑战法学硕士的规划领域，例如 Blocksworld、Mystery Blocksworld 和 Logistics。在 Blocksworld 领域，经过调整的 Llama-3-8B 模型的有效计划生成率达到了 94%。以前的模型在 Mystery Blocksworld 上的有效性接近于零，该领域的谓词名称被混淆以防止模式匹配。 PDDL-INSTRUCT 在此领域实现了高达 64 倍的改进。

物流领域也取得了显着的绩效提升。在所有测试领域，与未调整的基准模型相比，该框架的绝对改进高达 66%。研究人员还指出，随着反馈预算的延长和验证器输出的更详细，性能得到了提高。

PDDL-INSTRUCT 当前的实现适用于经典的 PDDL 域，并依赖 VAL 验证器作为外部预言机。结果展示了一种将 LLM 推理基于形式语义的方法，用于在规划过程中包含验证者的代理系统。扩展框架以处理长期、时间、数字和成本敏感的规划任务仍然是进一步工作的领域。

Deezer 报告称，44% 的新上传音乐是人工智能生成的音乐

麻省理工学院 CSAIL 推出用于 LLM 规划的 PDDL-Instruct

Related Stories

苹果在 beta 3 中带来了更多个性化的 Siri 语音控制

人择研究发现克劳德模型形成类似于意识的内部工作空间

苹果在 watchOS 27 beta 3 中激活 Apple Watch 上的 Siri AI

《中途旅程》促使迪士尼和其他公司在诉讼中披露内部人工智能的使用情况