PlanGPT补充研究：基于定义性能指标的评估及与规划器比较

arXiv cs.AI 2026/06/10 04:00 论文

automated-planning llm plan-gpt evaluation performance-metrics greedy-search

摘要

本文对PlanGPT（一种用于自动规划的大型语言模型）进行了补充评估，使用了规划成本和规划生成时间指标，并发现PlanGPT的表现并不优于贪婪搜索策略。

arXiv:2606.10489v1 公告类型：新摘要：自动规划是人工智能（AI）的一个子领域，其主要目标是生成一系列动作（称为规划），帮助我们从初始状态达到目标状态。规划问题由一组对象、一个初始状态和一个期望的目标状态来定义。目标是计算出能从初始状态到达目标状态的规划。生成规划的程序称为规划器。在本文中，我们对去年发布的最先进的大型语言模型PlanGPT进行了补充研究。我们重新进行了一些实验，以验证使用LLM进行规划是否**合理**且**值得**。我们还检查了PlanGPT官方论文中关于规划覆盖率的结论是否正确，并对PlanGPT的性能进行了更全面的研究：在我们的论文中，使用两个指标评估PlanGPT的性能：规划成本和规划生成时间。将PlanGPT的结果与同一规划的传统规划器在相同指标下的结果进行比较。我们发现PlanGPT并不优于贪婪搜索策略。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:15

# PlanGPT的补充研究：基于定义性能指标与规划器的评估与比较

来源：https://arxiv.org/html/2606.10489 Youssef Abdelkader, Humbert Fiorino, Damien Pellier Univ\. Grenoble Alpes \- LIG Grenoble, France firstname\.lastname@univ\-grenoble\-alpes\.fr

###### 摘要

自动规划是人工智能的一个子领域，其主要目标是生成一系列动作（称为规划），帮助我们从一个初始状态达到目标状态。规划问题由一组对象、一个初始状态和一个期望的目标状态定义。目标是计算出能引导我们从初始状态到目标状态的规划。生成规划的程序称为规划器。在本文中，我们对去年发布的最先进的LLM——PlanGPT进行了补充研究。我们重复了一些实验，以验证使用LLM进行规划是否恰当且值得。我们还检查了PlanGPT官方论文中关于规划覆盖率的结论是否正确，并对PlanGPT的性能进行了更全面的研究：在我们的论文中，使用两个指标评估PlanGPT的性能：规划成本和规划生成时间。我们将PlanGPT的结果与针对相同规划和使用相同指标的传统规划器的结果进行了比较。我们发现PlanGPT的表现并不优于贪婪搜索策略。

## 1 引言

### 1.1 背景

人工智能已经席卷全球。为了进一步改进、理解和优化人工智能等领域，大量研究正在进行中。特别是，我们关注与人工智能相关的两个重要概念：首先，我们将讨论自动规划，这是人工智能的一个子领域，专注于生成一个动作序列（称为规划），使机器人能够解决规划问题。在这个领域中，规划领域定义语言用于定义和形式化规划问题，然后将其输入给规划器（一个程序）以生成解决方案。为了使用PDDL形式化和定义规划问题，通常创建两个PDDL文件：一个领域文件，定义了规划环境中将涉及的对象类型（如果领域是类型化的）、谓词和动作。谓词是一个接收参数（在我们的例子中，参数是对象）并检查条件为真或假的条件，例如"`(iscar) car1`"检查car1是否是一辆车。动作是规划的基本构建块，具有名称、参数（动作接收对象）、前提条件（执行动作前必须为真的谓词）和效果（执行动作后将被更新的谓词）。另一个文件是问题文件，它描述了规划中涉及的对象（以及可选的它们的类型）、对象的初始状态（任务开始前对象所在的位置）、目标状态（任务完成后对象应处的位置）。

其次，我们还将讨论大型语言模型，这是一种用于自然语言处理任务的新兴AI模型；然而，最近LLMs被用于其他复杂任务，如图像生成和文本生成。Bommasani等人（2022）这两个概念之间的桥梁是PlanGPT（Rossetti等人，2024），这是一个从头构建的LLM，深受GPT-2的启发，专为规划而设计。PlanGPT将规划问题作为输入，并输出对应于解决问题规划的动作序列。PlanGPT试图学习一个解决规划问题的通用策略。因此，PlanGPT扮演着规划器角色的LLM。在PlanGPT论文中，在解释PlanGPT是什么以及它如何工作之后，作者在国际规划竞赛基准问题上测试了PlanGPT，并展示了PlanGPT在这些问题上的规划覆盖率。随后，针对相同问题，他们将PlanGPT与最先进的LLM Plansformer（Pallagani等人，2022）以及由ståhlberg等人（2022）提出的图神经网络进行了比较，并显示PlanGPT具有更好的规划覆盖率。然而，我们不知道具体使用了哪些IPC基准问题进行比较。另一个局限性是他们只展示了规划覆盖率的结果，还有其他有趣的评估指标，例如规划成本和规划生成时间，这些指标对于我们判断使用LLM规划是否恰当且值得会很有帮助。这正是我们论文中所呈现的：首先，我们检查在此获得的规划覆盖率结果是否与PlanGPT论文中获得的一致，然后我们使用这两个指标在IPC基准规划问题上评估PlanGPT的性能，甚至将PlanGPT的结果与称为FastDownward（Helmert，2006）的最优规划器在相同规划问题和指标上的结果进行比较。为了比较，我们使用两种策略：A\*和贪婪。本文的结构如下：首先，我们提供关于PlanGPT和我们实验模式的更多细节，然后我们呈现我们的结果，最后给出一些结论性意见。如果您想了解更多关于使用LLM进行规划的信息，可以查看相关工作部分，或者如果您想了解使用LLM规划背后的挑战、本文的目的以及本文可能为自动规划社区带来的价值（本文背后的动机），您可以阅读引言剩余部分。

### 1.2 相关工作

大量研究已经开展，以评估LLM的规划能力。最初的尝试是提示GPT-3.5和GPT-4为规划问题生成规划（Valmeekam等人，2022），不出所料，这产生了负面结果。下一步是尝试定制LLM用于规划：一个带有微调验证器的微调GPT2用于规划（Arora and Kambhampati，2023）是最早用于规划的LLM之一。它在规划领域的样本上显示了有趣的结果，但也强调了仍有很大的改进空间。然后，Pallagani等人（2022）实现了一个名为Plansformer的较新模型，这是一个在大量规划问题上训练的微调LLM。Plansformer为一系列具有不同复杂度的规划领域生成规划，展示了令人印象深刻的适应性和鲁棒性。对于一个规划领域，有效规划的百分比范围大约在75%到90%之间。另一点需要指出的是，其他几位研究人员已经使用其他深度学习模型来学习通用策略。Toyer等人（2020）构建了一个定制的神经网络，旨在概率规划中生成规划。他们使用表示为神经层的状态和动作，目标是借助神经网络获得规划中的下一个动作。Groshev等人（2018）构建了一个卷积神经网络来解决Sokoban领域中的规划问题。这几乎遵循了与Toyer等人（2020）相同的想法，在这种情况下，状态将是Sokoban配置的图像/截图。ståhlberg等人（2022）尝试使用图神经网络来解决规划问题。在GNN中，他们从一个初始状态开始，GNN计算来自所有可应用动作的所有可达状态。然后，GNN通过启发式值选择最佳状态。这些模型与PlanGPT之间的主要区别在于，它们要么是微调的，因此并非完全为规划而构建，要么是从头构建的，但更侧重于状态遍历和可达性，而PlanGPT更侧重于使用通用策略生成下一个有效动作。一个更接近的方法是Serina等人（2022）的工作，他们从头训练了一个BERT模型（Devlin等人，2019），旨在从部分规划中预测缺失的动作。在我们的案例中，PlanGPT从头预测整个规划。

### 1.3 挑战与持续研究

尽管如此，关于LLM规划能力的持续研究仍在进行。我们已经看到LLM可能在一定程度上进行规划，但这尚无定论，也就是说，关于LLM是否能成为一个值得注意的规划器并能为任何规划问题生成正确的规划，或者规划对于LLM来说是否过于困难，它们可能更适合其他任务，似乎还没有明确的答案。他人的工作显示了有希望的结果，突出了这项技术在该领域的潜力，但他们的结果仍然表明还有很大的改进空间，因为尚未发现适用于任何规划领域的"通用"LLM。即使在推进LLM在该领域使用的努力下，评估它们的规划能力也很困难，因为不确定实际可能达到多大程度的进一步改进。因此，衡量LLM的规划能力极其困难。这就是为什么评估LLM的规划能力是一个真正的挑战，需要进一步的研究。

### 1.4 目的陈述

本文将深入分析最先进的LLM（PlanGPT）的性能，以确定使用LLM进行规划是否可能且值得，尽管它们需要大量的资源。基于该领域已完成的研究，我们假设到目前为止，LLM还不能成为有能力的规划器。

### 1.5 价值陈述

本文可以向自动规划社区展示，利用LLM进行规划是未来的一个现实可能性，为传统规划器提供了一种引人注目的替代方案，并有可能在总体或特定情况下超越它们。它也可能表明LLM不适合规划，可能更适合其他任务。

## 2 PlanGPT细节及实验模式

### 2.1 概述

在本节中，我们将更详细地阐述PlanGPT，即解释PlanGPT到底是什么，PlanGPT如何工作，强调PlanGPT的一些限制等，我们将解释用于定义PlanGPT性能的指标（这反过来支持了我们的分析），以及环境是如何配置的，以及整个过程中应用的程序。

### 2.2 关于PlanGPT

如前所述，PlanGPT是一个从头构建、专为规划设计的LLM。目标是帮助PlanGPT学习每个领域的通用策略，以便应用它来生成有效的规划。PlanGPT深受GPT-2的启发，通过预测下一个词元来生成规划。要理解PlanGPT将什么定义为词元，我们必须讨论PDDL问题文件的结构并描述其内容。如前所述，PDDL问题文件中有三个主要组成部分：
- •1：对象部分：以”:objects”标记，该部分定义了规划中涉及的对象。对象可能有类型，将每个对象关联到某个类型的方式取决于该领域是否是类型化的。例如，如果领域是类型化的，会写成"car1 \- vehicle"以表示这辆车是vehicle类型。在非类型化版本中，它只是"car1"，因为没有类型。
- •2：初始状态部分：以”:init”标记，该部分定义了问题的初始状态。它总是一组谓词及其关联的对象。在这种情况下，由于我们在初始状态，所有定义的谓词都为真。例如，"(on-table) BlockA"是一个一元谓词，当且仅当BlockA在桌子上时为真。这里，由于我们在初始状态，此谓词被设置为真。
- •3：目标部分：以”:goal”标记，它也是一组必须在规划结束时有效的谓词。如果生成了一个规划而这些谓词为假，则该规划无效。
这些是主要部分。还有其他部分，例如":domain"部分，指定了问题的领域，然而与其他部分不同，PlanGPT不会对此部分进行词元化。PlanGPT对"fluents"进行词元化，简单来说，fluents是:init和:goal字段中的谓词。一个fluent对应一个谓词及其对象，因此在之前的例子中，"(ontable) BlockA"将是一个fluent。PlanGPT对这些部分进行词元化的方式是将fluent分解为单独的单词，然后将它们全部连接起来。一个单词是一个词元。例如，以下fluent "(on) BlockA BlockB"将有3个词元：on, BlockA, BlockB。然后这些词元连接起来形成："On BlockA BlockB"。现在这是一个词元序列。PlanGPT对:init和:goal状态中的每个fluent应用此操作。在获得所有词元序列后，预处理阶段完成：这是输入给PlanGPT之前的内容，用于预测下一个词元。此预处理阶段完成后，PlanGPT预测下一个词元。然而，在这种情况下，PlanGPT不预测谓词：它预测动作及其关联的对象。一个动作是一个词元，一个对象是另一个独立的词元。动作是规划的基本构建块，它允许在规划中前进。例如，"(put-on) BlockA BlockB"将是一个把BlockA放在BlockB上的动作。在规划生成的上下文中，PlanGPT会生成：put-on, BlockA, BlockB（每个单词1个词元），然后在结束时将所有内容连接起来。如此继续，直到生成一个""词元，该词元象征规划的结束。

使用包含70,000个规划问题的数据集来训练PlanGPT。使用的过程如下：他们使用问题生成器生成70,000个规划问题，使用LPG（一个规划器）为每个问题生成多个有效规划，然后随机化规划问题和解决方案规划。这里的随机化是指给对象分配随机名称，这样做是为了避免偏差，因为传统上在PDDL问题文件中，对象名称总是以数字结尾以标识它们（例如truck1, city1, car3...），进行此随机化步骤是为了防止PlanGPT在对象中的数字之间创建"想象中的"链接，因为对象名称不应影响生成的规划。他们还开发了一种新的停止技术，称为规划覆盖早停，与交叉熵结合使用，以帮助PlanGPT避免过拟合。另一个非常重要的细节是PlanGPT仅适用于8个领域。这些领域包括：Blocksworld、Satellite、Depot、Driverlog、Logistics、Zenotravel和Visitall。这是因为每个领域都有一个关联的模型，意味着有8个模型，这有点误导，因为有人可能会认为PlanGPT不是1个LLM，而是8个。这消耗了大量资源。你现在可以清楚地看到PlanGPT的一些限制：它只能工作在8个领域上，并且对于一个领域的某个问题文件，你不能给出任意数量的对象，因为存在一个最大限制。这限制了问题难度，暗示了高度复杂的问题无法在PlanGPT上运行。另一个限制是...

PlanGPT补充研究：基于定义性能指标的评估及与规划器比较

相似文章

PaT：试错后规划，实现高效的测试时代码生成

PlanningBench: 生成可扩展且可验证的规划数据，用于评估和训练大型语言模型

生成式规划模型的高效测试时推理

@fitchmultz: 使用 GPT-5.5 xhigh 作为规划者 + Composer 2.5 子代理作为实现者，比单独使用任一模型完成所有任务效果更好。在 pi (pi-…

AdaPlanBench：在世界和用户约束下评估大型语言模型智能体的自适应规划能力

提交意见反馈