MIT CSAIL揭幕了LLM计划的PDDL教学

MIT Csail的研究人员开发了PDDL-Instruct，这是一个指导策略，旨在提高大语模型（LLMS）的多步规划能力。该方法将逻辑链的推理与外部计划验证器相结合，以增加对合理但不正确的输出的逻辑有效计划的生成。该框架训练模型，以识别并解释为什么候选计划失败。这些失败可能包括不满足的先决条件，不正确的效果，违规框架或未满足的目标。此过程与逻辑链的提示配对，以指导LLM对状态和动作过渡进行逐步推断。这会产生状态→动作→状态的可追溯序列，写为⟨sᵢ，aᵢ₊₁，sᵢ₊₁⟩。对于外部验证，PDDL-Instruct集成了Val计划验证器，该验证器检查生成计划的每个步骤。验证器提供的反馈是二进制（有效/无效）或详细的反馈，并提供详细的反馈，从而导致了出色的性能。系统使用两个阶段优化过程。第一阶段会惩罚推理链中的错误，第二阶段为最终的计划准确性提供了优化。使用PlanBench基准评估了该系统，该基准包括已知挑战LLM的计划域，例如Blockworld，Mystery Blockworld和Logistics。在Blocksworld域中，一种调整后的Llama-3-8B模型达到了94％的生成有效计划率。以前的型号在神秘区块中的有效性接近零，该域被掩盖以防止模式匹配。 PDDL教学在该域中取得了64倍的改善。在物流领域也记录了显着的性能增长。在所有测试域中，与未调节的基线模型相比，该框架的绝对改进最高为66％。研究人员还指出，效果随较长的反馈预算和验证者的更详细输出而提高。 PDDL-Instruct的当前实现适用于经典的PDDL域，并取决于Val验证器作为外部甲骨文。结果显示了一种在正式语义中接地的LLM推理的方法，用于在计划过程中包含验证者的代理系统中使用。扩展该框架以处理长胜，时间，数字和成本敏感的计划任务仍然是进一步工作的领域。

Source: MIT CSAIL揭幕了LLM计划的PDDL教学

Flipper Zero 固件更新为用户带来重大变化