基于大语言模型智能体进行分层广义规划时的策略分解学习与复用

arXiv cs.AI 论文

摘要

本文介绍了 HCL-GP,这是一种动态策略学习框架,将广义规划与分层任务分解相结合,使基于大语言模型(LLM)的智能体能够学习和复用可执行的策略组件,从而在 AppWorld 基准测试上显著提升性能。

arXiv:2605.06957v1 公告类型:新论文 摘要:我们提出了一种动态策略学习方法,将广义规划与分层任务分解相结合,应用于基于大语言模型的智能体。我们的方法,即用于广义策略的分层组件学习(HCL-GP),学习能够跨任务实例泛化的参数化策略,并从成功的执行中自动提取可复用的组件,将其组织成组件库以用于组合式策略生成。我们解决了三个挑战:(1)通过自动分解学习组件,(2)泛化组件以最大化复用,以及(3)通过语义搜索进行高效检索。在 AppWorld 基准测试上的评估显示,我们的方法在普通任务上达到了 98.2% 的准确率,在涉及未见应用的挑战性任务上达到了 97.8% 的准确率,相较于静态综合方法在挑战性场景下提升了 15.8 个百分点。对于开源模型,动态复用实现了 62.5% 的成功率,而没有复用则几乎为零。这表明经典规划概念可以有效地与大语言模型智能体集成,以提高准确性和效率。
查看原文
查看缓存全文

缓存时间: 2026/05/11 07:09

# 学习与重用策略分解以实现基于大语言模型代理的分层通用规划

**来源**: https://arxiv.org/html/2605.06957
**作者**: Shirin Sohrabi, Haritha Ananthakrishnan, Harsha Kokel, Kavitha Srinivas, Michael Katz
**机构**: IBM
**邮箱**: [email protected], {hananthakris,Harsha.Kokel,kavitha.srinivas,Michael.Katz1}@ibm.com

###### 摘要

我们提出了一种动态策略学习方法,将通用规划(generalized planning)与分层任务分解相结合,用于基于大语言模型(LLM)的代理。我们的方法,即用于通用策略的分层组件学习(Hierarchical Component Learning for Generalized Policies, HCL-GP),学习能够跨任务实例泛化的参数化策略,并从成功的执行中自动提取可重用组件,将其组织成组件库以进行组合式策略生成。我们解决了三个挑战:(1)通过自动分解学习组件;(2)泛化组件以最大化重用;(3)通过语义搜索实现高效检索。在 AppWorld 基准测试上的评估表明,我们的方法在常规任务上达到了 98.2% 的准确率,在未见过应用的挑战性任务上达到了 97.8% 的准确率,在挑战性场景下比静态综合提高了 15.8 个百分点。对于开源模型,动态重用使得成功率达到 62.5%,而无重用时则接近零。这表明经典的规划概念可以有效地与 LLM 代理集成,以提高准确性和效率。

## 1 引言

交互式编码代理通过生成可执行代码来解决现实任务,这些代码查询 API、操作状态并迭代修复故障。然而,许多系统孤立地处理每个任务,反复重新发现解决方案模式,未能积累可重用的程序性知识。我们研究结构化顺序决策设置中的动态策略学习,其中环境包含多个领域,每个领域由相关的任务实例组成,这些实例共享潜在结构但在参数上有所不同。目标是产生通用的、可重用的策略,这些策略可以在实例中实例化,并有效地适应新领域。

我们的方法借鉴了两种人工智能规划范式:通用规划 [3, 8, 15, 16] 通过抽象特定于实例的细节来生成解决一类问题的参数化策略;分层任务网络(HTN)规划 [5, 9, 6] 将复杂任务分解为可重用的子任务。我们通过一个动态策略学习框架将这些原则与基于 LLM 的代理相结合。我们的创新之处在于,在无模型的 LLM 代理设置中,通过基于执行的重复使用可执行策略组件的学习,实现了通用和分层规划。我们在没有符号领域模型、手工编码的分解结构或显式转换模型的情况下做到了这一点。相反,可重用的策略结构是从成功的执行中动态诱导出来的,通过交互验证,跨领域泛化,并用于未来的策略组合式综合。

我们在 AppWorld [18] 上实例化了这个框架,这是一个代理通过 API 与多个应用程序交互的基准测试。每个场景由多个共享结构但参数不同的相关任务组成,这使得 AppWorld 成为通用和组合式策略的自然测试平台。我们的贡献包括:(1)一个动态策略学习框架,整合通用规划和分层分解以生成可重用、参数化的策略;(2)从成功执行中自动提取、验证、泛化和重用可执行策略组件的方法;(3)在 AppWorld 上的实证评估,证明了提高效率和有利的成本-准确率权衡,特别是在具有挑战性的跨域迁移中,表明经典规划概念仍然是构建基于 LLM 代理的有效工具。

## 2 相关工作

我们的工作基于通用规划和分层任务分解。通用规划通过抽象特定于实例的细节来合成解决一类问题的策略 [11]。最近的工作利用 LLM 以代码形式生成此类策略 [15, 16]。我们学习参数化策略和可重用组件,这些组件在实例之间动态泛化。与传统方法不同,我们不假设符号领域表示;泛化源自执行反馈和迭代综合。

分层任务网络(HTN)规划将任务分解为可重用的子任务 [5, 14, 7]。HTN 学习旨在自动识别可重用的子结构 [9, 6]。我们采用了这一见解,但从 LLM 生成的执行中隐式学习分层结构,而不是从符号计划中,并动态发现组件,而不是强制固定的任务网络。

从演示中学习 [1] 和分层强化学习 [17, 10] 中研究了学习可重用技能。这些方法通常在具有固定状态-动作空间的低级控制设置中运行。我们的不同之处在于将可重用技能学习为实现策略逻辑的可执行代码片段。我们的工作位于经典规划和现代基于 LLM 的代理的交叉点,展示了如何通过交互提取、评估和重用来学习可执行策略组件,从而在没有符号领域模型的情况下动态实现通用规划和分层分解。

## 3 问题形式化

我们考虑一个围绕 *元领域* $\mathcal{M}$ 组织的结构化顺序决策设置,该设置定义了共享的动作空间和确定性执行语义。在元领域内,我们区分 *领域* 和 *任务实例*。一个领域 $\mathcal{D}$ 是一组相关的任务实例,它们共享潜在的程序结构,但在实体、值或初始条件等参数上有所不同。任务实例 $\tau = (I, s_0, s_g)$ 包括:
*   $I$:描述期望行为的自然语言指令;
*   $s_0$:初始状态;
*   $s_g$:定义正确性的目标规范。

遵循通用规划术语,我们区分策略和计划。*策略* $\pi$ 是一个具有签名 $\sigma(\pi)$ 的参数化程序,将任务参数映射到可执行计划。为了解决任务实例 $\tau$,系统必须:(1)从 $\tau$ 中提取与 $\sigma(\pi)$ 匹配的参数 $\theta$;(2)通过将 $\pi$ 实例化为 $\theta$ 来生成 *计划* $\pi(\theta)$;(3)将计划与 $s_0$ 和 $s_g$ 一起提交给验证器。验证器从 $s_0$ 执行 $\pi(\theta)$ 并检查结果状态是否满足 $s_g$。验证器提供表示成功或失败的反馈,并可能包括错误消息或执行轨迹以指导调试。

此设置的关键结构属性是,领域内的任务实例共享底层工作流或程序模式,主要区别在于参数值。这种结构使得可以学习在领域内实例间泛化的参数化策略,并提取在同一元领域内跨领域转移的可重用组件。

#### 目标:

给定元领域 $\mathcal{M}$ 中的领域 $\{\mathcal{D}_1, \dots, \mathcal{D}_n\}$,我们合成高效且组合地解决任务实例的参数化策略。对于每个领域 $\mathcal{D}_i$,我们寻求一个具有签名 $\sigma(\pi_i)$ 的参数化策略 $\pi_i$,以解决 $\mathcal{D}_i$ 中的所有实例。策略捕获共享的程序结构,而签名定义变化的参数。使用任务特定参数 $\theta_j$ 实例化 $\pi_i$ 会产生满足任务要求的计划。除了解决单个领域外,我们还利用已解决领域的经验,通过识别和重用重复出现的程序模式来高效解决新领域。挑战在于学习在领域内任务实例之间泛化并在领域之间组合可重用知识的策略,从而实现无需完全策略重新综合的高效适应。

#### AppWorld 作为元领域实例化:

我们在 AppWorld 基准测试 [18] 上实例化了这种一般形式化,它为元领域结构提供了具体的实现。

*   **元领域**:AppWorld 基准测试定义了元领域 $\mathcal{M}$。环境由一组应用程序 $\mathcal{A} = \{a_1, a_2, \dots, a_m\}$(例如,Gmail, Spotify, Phone)组成,其中每个应用程序 $a_i$ 公开一组表示为 $\mathrm{API}(a_i)$ 的 API。全局世界状态 $s$ 被表示为编码所有应用程序状态的数据库。代理不能直接访问或修改 $s$;所有交互仅通过 API 调用发生,这些调用确定性地更新世界状态。
*   **领域**:在 AppWorld 中,每个 *场景* 对应一个领域 $\mathcal{D}$。场景是一组任务 $\{\tau_1, \tau_2, \dots, \tau_k\}$。场景中的任务调用相同的 API,主要区别在于实体、金额、日期或标签等参数值。例如,支付场景可能包含仅在收件人、金额或备注上有所不同但共享相同高层工作流的任务。
*   **任务实例**:每个任务 $\tau = (I, s_0, s_g)$ 要求系统生成参数化策略(一个 Python 函数)并使用任务特定参数进行实例化,以产生可执行计划。该计划由一系列 API 调用和胶水代码(如处理响应、操作结果等)组成。任务正确性通过在 AppWorld 模拟器中执行计划并将结果状态与通过每个任务的测试用例编码在 $s_g$ 中的预期效果进行比较来评估。

这种实例化使 AppWorld 成为评估通用和组合式策略的自然测试平台:场景提供了自然的领域边界,场景内的任务共享程序结构,基准测试包括多个在不同应用程序和工作流中表现出重复模式的场景。

## 4 方法

我们提出了一种与元领域无关的动态策略学习架构,该架构完全可跨问题设置转移。该方法仅要求策略是可执行程序,验证器检查任务正确性并提供可解释的反馈。该架构不依赖于特定的动作空间、状态表示或符号领域模型,而是依赖于能够从自然语言进行语义理解和代码生成的代理,使其无需修改即可适应不同的元领域。

图 1 提供了架构概述及其组件之间的交互。图中的代理用橙色框标记。该架构由在给定领域上操作的三个主要部分组成:
1.  **策略生成**:通过任务抽象、组件检索以及与调试的迭代验证来合成参数化策略;
2.  **学习组件**:通过分解从成功的策略中提取可重用组件并对其进行验证;
3.  **泛化组件**:通过聚类和泛化将学习到的组件与之前验证过的组件整合,并有自己的验证循环以确保正确性得以保留。

验证后的组件库用于后续领域的组件检索。

![图 1: 动态策略学习架构,包含三个部分:(1)策略生成使用任务抽象、组件搜索和迭代验证来合成策略;(2)学习组件从成功的策略中提取可重用组件;(3)泛化组件在将它们存储到库中以供后续使用之前进行整合和验证。](https://arxiv.org/html/2605.06957#S4.F1)

#### 策略生成

策略综合按照图 1 策略生成部分所示的流程进行。给定领域 $\mathcal{D}_i$,*任务抽象和参数化代理* 推导出一个高层表示,捕捉任务实例之间的共享结构。这种抽象产生三个关键工件:(1)描述工作流的高层步骤;(2)指定领域级策略的参数和接口的策略签名 $\sigma(\pi)$;(3)每个任务实例的具体参数绑定 $\{\theta_1, \dots, \theta_k\}$。这种抽象促进了领域内任务实例之间的泛化,并指导下游推理。

抽象过程与元领域无关:它纯粹在自然语言描述上操作,不需要了解特定的动作空间或状态表示。为了支持组合式策略生成,*组件搜索代理* 从验证后的组件库中检索相关的可重用组件。具体来说,所有验证后的组件都被嵌入和索引,仅根据与领域抽象的语义相似性为给定领域检索最相关的 $k$ 个组件。检索到的组件(仅限于其签名和使用信息)作为上下文提供给 *策略生成器(规划)代理*,该代理随后被要求以适当的可执行表示(例如,AppWorld 的 Python 函数)为领域生成参数化策略 $\pi$。策略生成器接收四个输入:高层步骤、策略签名 $\sigma(\pi)$、参数绑定以及来自组件搜索代理的相关组件。合成的策略使用任务特定参数实例化以产生计划,这些计划提交给验证器。如果验证失败,错误消息和执行轨迹返回给策略生成器代理,该代理修订策略。这种验证-调试循环持续进行,直到为所有任务实例获得成功的计划或耗尽固定预算。此反馈循环与元领域无关:它仅要求验证器提供可解释的错误信号。

#### 学习组件

当领域级策略成功时,*分解代理* 分析策略并提取可重用组件,这些组件对应于可能适用于其他领域的连贯可执行逻辑片段。分解代理通过代码分析进行操作,识别程序模式和抽象,而无需特定于领域的启发式方法。该代理产生两个输出:(1)代表提取的可重用片段的学习组件;(2)引用这些组件的更新策略。两个输出都通过使用原始参数绑定实例化更新后的策略并提交给验证器来进行验证。

相似文章

提示引导的多样化策略优化用于LLM推理

arXiv cs.CL

本文介绍了提示引导的多样化策略优化(HDPO),这是一个两阶段强化学习框架,鼓励LLMs首先生成多个候选解决方案大纲(提示),然后选择最可靠的一个进行详细推理,从而提升推理的多样性和可靠性。

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL

本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。

PolicyBank:为LLM智能体演进策略理解

arXiv cs.CL

PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。