MIT Csail的研究人员开发了PDDL-Instruct,这是一个指导策略,旨在提高大语模型(LLMS)的多步规划能力。该方法将逻辑链的推理与外部计划验证器相结合,以增加对合理但不正确的输出的逻辑有效计划的生成。该框架训练模型,以识别并解释为什么候选计划失败。这些失败可能包括不满足的先决条件,不正确的效果,违规框架或未满足的目标。此过程与逻辑链的提示配对,以指导LLM对状态和动作过渡进行逐步推断。这会产生状态→动作→状态的可追溯序列,写为⟨sᵢ,aᵢ₊₁,sᵢ₊₁⟩。对于外部验证,PDDL-Instruct集成了Val计划验证器,该验证器检查生成计划的每个步骤。验证器提供的反馈是二进制(有效/无效)或详细的反馈,并提供详细的反馈,从而导致了出色的性能。系统使用两个阶段优化过程。第一阶段会惩罚推理链中的错误,第二阶段为最终的计划准确性提供了优化。使用PlanBench基准评估了该系统,该基准包括已知挑战LLM的计划域,例如Blockworld,Mystery Blockworld和Logistics。在Blocksworld域中,一种调整后的Llama-3-8B模型达到了94%的生成有效计划率。以前的型号在神秘区块中的有效性接近零,该域被掩盖以防止模式匹配。 PDDL教学在该域中取得了64倍的改善。在物流领域也记录了显着的性能增长。在所有测试域中,与未调节的基线模型相比,该框架的绝对改进最高为66%。研究人员还指出,效果随较长的反馈预算和验证者的更详细输出而提高。 PDDL-Instruct的当前实现适用于经典的PDDL域,并取决于Val验证器作为外部甲骨文。结果显示了一种在正式语义中接地的LLM推理的方法,用于在计划过程中包含验证者的代理系统中使用。扩展该框架以处理长胜,时间,数字和成本敏感的计划任务仍然是进一步工作的领域。
Source: MIT CSAIL揭幕了LLM计划的PDDL教学





