SkillGraph:通过动态演进的技能图增强智能体的强化学习

arXiv cs.CL 论文

摘要

SkillGraph 是一个框架,将可复用技能表示为有向图中的节点,使大型语言模型智能体能够通过结构化的技能检索和持续演进,更有效地处理组合任务。

arXiv:2605.12039v1 公告类型:新论文 摘要:技能库使大型语言模型智能体能够重用过去交互中的经验,但大多数现有库将技能存储为孤立条目,仅通过语义相似度进行检索。这导致了组合任务的两个关键挑战。首先,智能体不仅要识别相关技能,还要识别这些技能之间如何相互依赖和构建。其次,这也使得库的维护变得困难,因为系统缺乏结构线索来判断何时应该合并、拆分或删除技能。我们提出了 SKILLGRAPH,这是一个将可复用技能表示为有向图中节点的框架,其中类型化的边编码了先决条件、增强和共现关系。针对新任务,SKILLGRAPH 检索到的不仅是单个技能,而是能够指导多步决策的有序技能子图。该图通过智能体轨迹和强化学习反馈持续更新,使得技能库和智能体策略能够共同提升。在 ALFWorld、WebShop 以及七个搜索增强型问答任务上的实验表明,SKILLGRAPH 在基于记忆增强的强化学习方法中达到了最先进的性能,尤其在需要组合多种技能的复杂任务上取得了显著增益。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:21

# SkillGraph: 通过演化技能图谱增强智能体的强化学习

来源: https://arxiv.org/html/2605.12039
李肖远$^1$ 李慕新$^3$ 包可勤$^1$ 马宇波$^2$ 王文杰$^1$ 刘大恒$^2$ 冯富利$^1$
$^1$中国科学技术大学 $^2$阿里巴巴集团 $^3$新加坡国立大学

###### 摘要

技能库使得大型语言模型(LLM)智能体能够重用来自过往轨迹的经验,但大多数现有库将技能存储为孤立条目,仅通过语义相似性进行检索。这导致了组合任务中的关键挑战:智能体不仅需要识别相关技能,还需要了解技能之间的依赖关系以及它们如何相互构建。这也使得库的维护变得困难,因为系统缺乏结构线索来决定何时应合并、拆分或移除技能。我们提出了 **SkillGraph**,一个将可重用技能表示为有向图中的节点的框架,其中类型化边编码了先决条件、增强和共现关系。面对新任务,SkillGraph 不仅检索单个技能,还检索有序的技能子图,以指导多步决策。该图根据智能体轨迹和强化学习反馈不断更新,使技能库和智能体策略能够共同改进。在 ALFWorld、WebShop 和七个搜索增强型问答任务上的实验表明,SkillGraph 在记忆增强型强化学习方法中实现了最先进(state-of-the-art)的性能,特别是在需要组合多个技能的复杂任务上取得了显著增益。

## 1 引言

大型语言模型(LLM)智能体在复杂的交互任务中表现出强大的能力,包括网页导航 (Yao et al., 2022a)、具身家庭操作 (Shridhar et al., 2021) 和工具增强型问答 (Yao et al., 2022b)。然而,大多数智能体将任务视为独立片段 (episodes),即使遇到结构相似的问题,也难以从过去的成功或失败中学习 (Xia et al., 2026)。由于许多任务共享重复出现的子问题和组合动作模式,能够从*经验中学习*——即从过去的交互中提取可重用知识——的智能体可以避免冗余探索,将策略迁移到相似任务,并逐步建立解决更复杂问题的能力。

为了重用经验,一种常见的方法是维护一个*技能库*,用于存储解决重复子问题的可重用知识单元 (Wang et al., 2024; Zhao et al., 2024; Xia et al., 2026)。技能可以由人类手动设计 (Xu and Yan, 2026),也可以从智能体经验中自动获取——例如,通过将成功轨迹蒸馏为自然语言 (Zhao et al., 2024; Xia et al., 2026) 或可执行程序 (Wang et al., 2024)。与手工制作的技能相比,自动获取的技能更具可扩展性,并随着智能体遇到新任务和环境而持续扩展。因此,我们关注从交互轨迹中自动获取技能。

尽管前景广阔,但现有的技能库通常组织为扁平集合,其中每个技能作为独立条目存储,主要通过语义相似性检索 (Xia et al., 2026; Zhao et al., 2024; Liu et al., 2026)。这忽略了技能本质上是相互关联的事实:一些技能是其他技能的前置条件,一些技能增强其他技能,还有一些技能在成功轨迹中经常共同出现。因此,扁平库存在两个关键局限性。首先,*检索不具备组合性*。复杂任务通常需要有序的技能序列;例如,ALFWorld 中的“加热并放置”任务可能需要定位物体、拿起它、用电器加热,然后将其放置在目标位置。扁平的 Top-K 检索器可以返回相关技能,但它不指示其依赖关系或执行顺序。其次,*技能更新不具备结构性*。当技能独立维护时,库缺乏合并冗余技能、拆分解过于宽泛的技能、弃用过时技能或加强技能间有用关系的明确证据 (Xu and Yan, 2026)。

这些局限性表明,核心问题不仅是*如何获取*技能,还在于如何*组织、检索和更新*它们。如果显式表示技能间关系,检索就可以产生感知依赖关系的技能序列,而不是无序的提示,并且可以以规范的方式更新各个技能及其关系。

受此动机驱动,我们提出了 **SkillGraph**,一个将技能组织成结构化图并通过强化学习(RL)与智能体策略共同演化的框架。在 SkillGraph 中,节点表示从轨迹中提炼的技能,而类型化边捕获先决条件、增强和共现等关系。SkillGraph 包含三个阶段。首先,*图构建*从交互轨迹中构建初始技能图,使技能间关系显式化。其次,*感知图的检索*从与任务相关的种子技能开始,沿图边扩展,并根据依赖关系对检索到的技能进行排序,产生用于决策的一致性技能序列。第三,*图演化*在训练期间通过根据技能使用情况和成功率细化技能节点和调整边关系来更新图。这些阶段共同形成一个闭环:技能图为策略学习提供结构化指导,而改进的策略生成新轨迹,进一步细化图。

> **图 1 说明**:SkillGraph 概览。技能图与智能体策略通过闭环*共同演化*:(1) 图构建从轨迹中提炼技能及其类型化关系(先决条件、增强、共现);(2) 感知图的检索遍历这些关系,产生依赖排序的技能序列以指导策略;(3) 图演化利用训练反馈细化技能节点、调整边权重并重构图,从而改善未来的检索和策略学习。

在实证方面,我们在 ALFWorld、WebShop 和七个搜索增强型问答任务上评估了 SkillGraph,涵盖具身操作、网页导航和信息检索。实验结果表明,SkillGraph 在各项基准测试中实现了最先进的性能,特别是在需要技能组合的复杂多步任务上增益显著。进一步的分析显示,图结构改善了技能重用,与扁平库相比减少了冗余,并实现了从简单任务到复杂任务的组合知识迁移。

我们的主要贡献总结如下:

-   我们提出了一种面向 LLM 智能体的图结构技能库表述,其中技能通过显式的先决条件、增强和共现关系连接。
-   我们引入了 SkillGraph,一个支持强化学习期间感知依赖的技能检索和结构化技能更新的闭环框架。
-   我们在 ALFWorld、WebShop 和七个搜索增强型 QA 任务上进行了实验,展示了最先进的性能以及在复杂多步任务上的显著增益。

## 2 相关工作

##### 智能体中的记忆机制

外部记忆帮助 LLM 智能体在上下文窗口之外重用经验。早期方法将原始轨迹作为示例存储 (Zhao et al., 2024; Chhikara et al., 2025),而后续工作将经验压缩为摘要或知识条目 (Fang et al., 2025; Liu et al., 2026; Ouyang et al., 2025; Tang et al., 2025)。最近的研究进一步将 RL 直接应用于智能体知识结构:MemRL (Zhang et al., 2026) 对情景记忆执行运行时 RL,MemEvolve (Zhang et al., 2025) 对记忆系统进行元演化,Mem-$\alpha$ (Wang et al., 2025) 学习记忆构建策略,EvolveR (Wu et al., 2025) 协同适配策略和记忆库。相比之下,SkillGraph 将经验表示为具有类型化依赖关系的显式技能抽象,并与策略联合演化这一结构。

##### LLM 的图结构

图结构已被广泛用于 LLM 系统:Graph-of-Thought (Besta et al., 2024) 将推理步骤建模为有向图以启用非线性思维探索,GraphRAG (Edge et al., 2024) 在语料库上构建实体关系图以进行结构化检索,Nonkes et al. (2024) 将任务分解编码为规划图以进行智能体执行。SkillGraph 将图结构应用于智能体技能管理,通过 RL 联合演化图拓扑和策略,使技能图能够持续适应,而不是在构建后保持静态。

##### 智能体技能演化

智能体技能可以紧凑地表示子任务的可重用策略。Voyager (Wang et al., 2024) 积累可执行代码技能,ExpeL (Zhao et al., 2024) 从轨迹中提炼可迁移的策略经验。最相关的是,SkillRL (Xia et al., 2026) 通过递归 RL 与智能体策略共同演化分层技能库。SkillGraph 在此基础上将扁平技能库提升为结构化依赖图,在整个训练过程中启用类型化关系建模和拓扑演化。

## 3 SkillGraph

我们提出了 SkillGraph,一个将智能体技能组织为有向依赖图并通过 RL 与智能体策略共同演化的框架。关键见解是,显式建模技能间关系能够产生两种相互增强的能力:*结构化检索*,它为组合规划产生感知依赖关系的技能序列;以及*规范化演化*,它利用训练反馈来细化各个技能及其关系。如图 1 所示,该框架包括三个阶段——图构建(第 3.1 节)、感知图的检索(第 3.2 节)和图演化(第 3.3 节)——整合到闭环训练过程中(第 3.4 节)。

### 3.1 图构建

第一步是构建一个使技能间关系显式化的技能图,为检索和演化提供结构基础。

##### 技能提炼

我们通过使基础策略 $\pi_{\text{base}}$ 在环境中滚动来收集轨迹。教师语言模型 $\mathcal{M}$ 然后将成功轨迹 $\tau^+$ 和失败轨迹 $\tau^-$ 蒸馏为两种类型的技能:*通用技能*,捕获跨任务适用的领域无关推理策略(例如,“在继续之前验证每个子目标”);以及*任务特定技能*,编码与特定任务类型相关的策略(例如,“检查微波炉中的加热物体”)。每个技能表示为一个紧凑的记录,包含标题、描述策略的核心原则、适用条件以及指示其类型的类别标签。

##### 图结构

提炼的技能形成有向图 $\mathcal{G}=(\mathcal{V},\mathcal{E})$ 的节点集 $\mathcal{V}$,其中 $\mathcal{E}$ 表示边集。为了捕获技能之间的关系,我们定义了三种类型边:

-   **先决条件** ($A \xrightarrow{\texttt{prereq}} B$):技能 $A$ 必须在技能 $B$ 之前应用。
-   **增强** ($A \xrightarrow{\texttt{enhance}} B$):通用技能 $A$ 提高了任务特定技能 $B$ 的有效性。
-   **共现** ($A \xleftrightarrow{\texttt{co\_occur}} B$):技能 $A$ 和 $B$ 在成功片段中经常一起出现。

每条边 $e \in \mathcal{E}$ 携带权重 $w(e) \in [0,1]$,反映关系的强度,该强度在训练期间动态调整。每个节点 $v \in \mathcal{V}$ 维护运行统计数据——使用次数 $n_{\text{use}}(v)$、成功次数 $n_{\text{succ}}(v)$ 和经验成功率 $\hat{p}(v) = n_{\text{succ}}(v)/n_{\text{use}}(v)$——这些数据驱动演化决策和第 3.3 节中的渐进式解锁。基于有向先决条件和增强边,每个节点被分配一个拓扑层级 $\ell(v)$,指示其在依赖层次结构中的位置:0 级技能没有先决条件,而更高层级的技能依赖于较低层级的技能。边初始化和层级计算的细节见附录 A。

### 3.2 感知图的检索

扁平技能检索返回一组各自相关的技能,但忽略了它们的依赖关系,这对于需要有序技能组合的任务来说是不充分的。为了解决这个问题,我们设计了一种感知图的检索过程,该过程遍历技能图以产生尊重依赖关系的技能序列。

给定任务描述 $d$ 和任务类型 $t(d)$,检索分三步进行。

##### 种子选择

我们首先从当前激活的技能集 $\mathcal{V}_{\text{active}} \subseteq \mathcal{V}$ 中识别与任务相关的入口点,该集合包含已逐步解锁的技能(见第 3.3.3 节)。从 $\mathcal{V}_{\text{active}}$ 中,我们选择所有通用技能和任务类型匹配的技能作为种子节点,其中 $\mathcal{R}$ 表示检索到的技能节点子集:

$$
\mathcal{R}_{\text{seed}} = \{ v \in \mathcal{V}_{\text{active}} : \text{category}(v) = \texttt{general} \lor \text{category}(v) = t(d) \}. \tag{1}
$$

##### 图扩展

从种子集 $\mathcal{R}_{\text{seed}}$ 开始,我们在两个互补方向上扩展,以恢复完整的依赖上下文...

相似文章

SkillGen:经过验证的推理时代理技能合成

arXiv cs.LG

本文介绍了 SkillGen,这是一个多智能体框架,通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型(LLM)代理技能。该方法确保技能可审计,并通过实证验证其对代理性能具有净正面影响。