SkillMaster：迈向大语言模型智能体的自主技能掌握

arXiv cs.AI 2026/05/12 04:00 论文

摘要

本文介绍了 SkillMaster，一种训练框架，使大语言模型智能体能够通过轨迹知情审查和反事实效用评估，自主地创建、优化和选择技能。

arXiv:2605.08693v1 公告类型：新论文摘要：技能为提升大语言模型智能体在复杂任务上的表现提供了一种有效机制。然而，在现有的智能体框架中，技能的创建、优化和选择通常由外部教师、人工设计的规则或辅助模块控制。因此，技能往往只是被调用的外部资源，而非智能体能够通过经验发展、适应和内化的能力。为了使大语言模型智能体具备自主技能掌握能力，我们提出了 SkillMaster，这是一种训练框架，旨在教会智能体在任务解决过程中创建新技能、优化现有技能并选择已积累的技能。这一能力通过三个关键设计得以实现。首先，我们通过基于轨迹的技能审查对智能体进行训练，教导智能体根据已完成回合中的证据来提出、更新或保留技能。其次，每个候选技能编辑都设计为通过其在相关探测任务上的反事实效用进行评估，从而为技能编辑决策的训练提供直接的学习信号。第三，我们引入了 DualAdv-GRPO，分别估计任务解决动作和技能编辑决策的优势，从而稳定任务解决与技能管理之间的联合训练。在 ALFWorld 和 WebShop 上的实验表明，SkillMaster 将整体成功率分别提高了 8.8% 和 9.3%，优于最先进的基线模型，在所有对比方法中表现最佳。进一步的分析揭示了智能体能力的显著转变：经过 SkillMaster 训练的识别技能失败，从轨迹证据中优化程序性知识，并在有限的技能库编辑下将改进迁移到未来任务。总体而言，SkillMaster 推动大语言模型智能体超越单纯的技能使用，迈向能够开发、适应和应用自身技能库的自我改进智能体。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 07:20

# SkillMaster：迈向大语言模型智能体自主技能精通

来源：https://arxiv.org/html/2605.08693

Min Yang^{1,2}, Jinghua Piao^{2,3*}, Xu Xia^{2,4}, Xiaochong Lan^{3}, Jiaju Chen^{2,5}, Yongshun Gong^{1}, Yong Li^{2,3}

^{1}山东大学 ^{2}中关村学院 ^{3}清华大学 ^{4}东南大学 ^{5}中国科学技术大学

[email protected] {Pjh22, lanxc22}@mail.tsinghua.edu.cn [email protected] [email protected] [email protected] [email protected]

###### 摘要

技能为提升大语言模型（LLM）智能体在复杂任务上的表现提供了有效机制，然而在现有的智能体框架中，技能的创建、优化和选择通常由外部教师、手工设计的规则或辅助模块控制。结果是，技能仍作为需要调用的外部资源，而非智能体能够通过经验发展、适应和内化的能力。为了赋予 LLM 智能体自主的技能精通能力，我们提出了 **SkillMaster**，这是一种训练框架，教导智能体在任务求解过程中创建新技能、优化现有技能以及选择已积累的技能。这一能力通过三项关键设计实现。首先，我们通过轨迹驱动的技能评审来训练智能体，教导智能体基于已完成回合的证据提出、更新或保留技能。其次，每个候选技能编辑都通过其在相关探测任务上的反事实效用进行评估，为训练技能编辑决策提供直接的学习信号。第三，我们引入了 DualAdv-GRPO，分别估计任务求解动作和技能编辑决策的优势，从而稳定任务求解与技能管理之间的联合训练。在 ALFWorld 和 WebShop 上的实验表明，SkillMaster 将整体成功率分别提高了 8.8% 和 9.3%，在所有对比方法中取得了最佳性能。进一步分析揭示了智能体能力的显著转变：经过 SkillMaster 训练的能够识别技能失败，从轨迹证据中提炼程序性知识，并在有限技能库编辑的情况下将改进迁移到未来的任务中。总体而言，SkillMaster 推动 LLM 智能体超越单纯使用技能，走向能够开发、适应和应用自身技能组合的自我改进型智能体。

^00footnotetext:我们的代码已发布在 https://github.com/sduyangmin/Skill-Master。

## 1 引言

参见图注 图1：从外部管理到自主技能精通。(a) 先前工作：技能管理由外部模块处理；智能体仅检索技能。(b) SkillMaster：智能体通过工具调用自我管理其技能库，形成一个闭环，其中技能管理是一个学习到的强化学习目标。

大语言模型（LLM）智能体在具身家庭操作 (Shridhar et al., 2021; Wang et al., 2023)、网页导航 (Yao et al., 2022; Liu et al., 2025; Qiu et al., 2025)、信息获取 (Jin et al., 2025; Zhang et al., 2025; Li et al., 2025) 以及软件工程与代码生成 (Soni et al., 2026; Rashid et al., 2025; Yu et al., 2025a; Puvvadi et al., 2025) 等复杂任务中展现了令人印象深刻的能力。尽管在单个任务上表现强劲，LLM 智能体在很大程度上仍然是片段化的，未能有效利用过去的经验进行跨任务学习 (Xia et al., 2026)。基于记忆的方法 (Chhikara et al., 2025; Liu et al., 2026) 可以存储原始轨迹，但这些记忆冗长且充满噪声，使得提取核心原理变得困难 (Xia et al., 2026)。为了解决这一局限性，最近的工作引入了“技能”的概念：有效经验的紧凑、可复用抽象，用于指导未来行为 (Xia et al., 2026; Wang et al., 2026; Li et al., 2026a; Jiang et al., 2026; Gao et al., 2026)。与原始轨迹不同，技能提炼了必要的程序和启发式规则，大幅提高了任务成功率和效率。其在部署系统中的实用价值已经显现：个人助手 OpenClaw (OpenClaw Foundation, 2026) 和编码智能体 Claude Code (Anthropic, 2026) 都依赖于基于技能的方法。

然而，现有方法 (Xia et al., 2026) 通常依赖一个外部 LLM 教师，按照固定时间表从已完成轨迹中提炼技能，而主策略仅负责检索和应用它们。因此，技能管理仍然是一种外部机制，而非智能体策略的可学习组件，限制了自主技能精通。最近的工作试图使技能管理变得可学习 (Li et al., 2026b; Zhang et al., 2026b; Wu et al., 2025b)，但这些方法通常依赖辅助模块或单独的流水线。此外，技能管理通常仅由任务结果奖励引导，这些奖励稀疏且粗糙，无法捕捉特定技能编辑如何影响下游行为。这种明确技能质量信号的缺失阻碍了智能体将技能管理完全整合到其自身的策略中。因此，使智能体实现自主技能精通仍然具有挑战性。

首先，技能是外部管理的，而非内部精通的。技能精通应该是智能体内化的一种能力，而不是外部的维护过程。现有的训练可以教会智能体调用技能，但很少教导它们将技能库视为可以通过自身经验主动改进的东西。

其次，评估技能质量很困难。仅凭任务成功过于稀疏，无法表明特定的技能编辑是否有帮助。我们的关键洞察是，高质量技能应该产生两种可测量的下游效应：提高以前失败任务的成功率，并减少已可解任务所需的步骤。这些可观察的效应提供了外部管理方法中缺失的明确信号。

第三，联合优化具有挑战性。技能管理和任务执行的优化目标不同，将它们结合在一个策略中通常会引起干扰，导致训练不稳定。

为了解决这些挑战，我们提出了 SkillMaster 框架，将技能管理整合到智能体的学习循环中。我们的框架建立在三项关键设计之上。第一项，轨迹驱动的技能评审，允许智能体使用工具集成的推理，基于已完成的任务轨迹提出、更新或保留技能，在一个端到端的强化学习框架中统一任务执行和技能管理。第二项，下游效用奖励，通过在相关探测任务上进行反事实比较来评估每个候选技能修改，为训练技能编辑决策提供明确的技能质量信号。最后，DualAdv-GRPO 分别对任务求解动作和技能编辑决策的优势进行归一化，使两个优化目标在统一策略内的联合训练保持稳定。

我们的贡献如下：

- 我们提出了 SkillMaster，这是一个在单一策略中整合任务执行与学习型技能管理决策的框架，通过强化学习联合优化。
- 我们引入了一种下游效用奖励，通过测量候选技能修订对相关探测任务的反事实影响来评估其价值。
- 我们提出了 DualAdv-GRPO，通过分别归一化优势来解耦动作优化与技能管理优化，从而在目标无干扰的情况下实现联合训练。
- 在 ALFWorld 和 WebShop 上，SkillMaster 相较于最强的基线，整体成功率分别提高了 8.8% 和 9.3%。

参见图注 图2：SkillMaster 概览。(a) 技能精通的轨迹设计：智能体在检索到的技能指导下与环境交互，然后评审该回合，通过工具调用提出、更新或保留技能。(b) 反事实技能效用奖励：候选技能变更通过在相关探测任务上的反事实比较进行评估。(c) DualAdv-GRPO：动作优势和技能优势分别归一化，并通过可调权重 $\gamma$ 合并为统一的 PPO 损失，以实现稳定的联合训练。

## 2 方法

图2 提供了 SkillMaster 框架的概览。我们描述其三个主要组件，对应于图中所示的模块。第一个组件，技能精通的轨迹设计 (§2.1)，统一了*行动阶段*和*技能精通阶段*：智能体在检索到的技能指导下与环境交互，然后评审该回合，通过工具调用提出、更新或保留技能。第二个组件，反事实技能效用奖励 (§2.2)，通过使用原始和修改后的技能库在相关探测任务上比较性能来评估候选技能变更。第三个组件，DualAdv-GRPO (§2.3) 分别对任务求解动作和技能编辑决策的优势进行归一化，并通过可调权重 $\gamma$ 将其合并为统一的 PPO 损失，以稳定联合训练。

### 2.1 技能精通的轨迹设计

SkillMaster 通过在每个回合后附加一个显式的技能精通阶段，增强标准的智能体强化学习训练。每个回合分为两个阶段进行：

- **行动阶段**。智能体逐步与环境交互。在每一步，根据当前任务从技能库 $\mathcal{B}$ 中检索相关技能，并注入到观察提示中。智能体产生一个动作，并接收标量环境奖励 $r_{\text{env}}$。收集一条轨迹 $\tau=\{o_0, a_0, r_0, \dots, o_T, a_T, r_T\}$。
- **技能精通阶段**。回合终止后，系统构建一个*技能评审提示*，展示任务描述、检索到的技能、轨迹以及最终的环境反馈。智能体随后必须输出恰好一个工具调用：`propose_skill`、`update_skill` 或 `keep_skill`。特别地，我们通过三个函数调用工具暴露技能精通：`propose_skill` 添加新技能，`update_skill` 修订现有技能，`keep_skill` 保持技能库不变。每个调用都由后端执行，后者会变异技能库并返回结构化状态元数据。每个回合后，技能评审提示展示任务、结果、检索到的技能、动作-观察轨迹以及最终的环境反馈。智能体被指示进行简要推理，并输出恰好一个工具调用。提示还强制执行接地约束，以防止常见的失败模式，例如提出与当前领域无关的技能，或仅仅因为回合失败而更新技能库。完整的工具模式提示模板提供在附录 E 和附录 A 中。

该阶段接收专用的技能精通奖励 $R_{\text{skill}}$（在 §2.2 中定义）。这两个阶段遵循不同的优化目标：行动阶段针对即时环境反馈进行优化，而技能精通阶段针对技能库的长期质量进行优化。因此，我们将它们视为*异构阶段*，并引入专门的优化算法来共同训练它们 (§2.3)。

### 2.2 反事实技能效用奖励

自我管理技能演进的一个核心挑战是定义什么是*好*的技能。在诸如 SkillRL (Xia et al., 2026) 的先前工作中，技能由外部教师提炼，智能体仅使用环境结果奖励进行训练——这是一个二元成功信号，混淆了任务执行质量和技能质量。这种奖励无法区分真正有用的技能和那些仅仅*看起来*合理的技能，因为它不提供关于技能是否实际上有助于未来任务的信号。

我们的关键洞察是，高质量技能应该在具有相似要求的任务上产生两种可测量的效应：(1) 以前*失败*的任务应该更有可能*成功*，(2) 已经成功的任务应该能在*更少的步骤*内完成，因为技能编码了更高效的策略。我们通过基于反事实探测评估的*下游效用奖励*来实现这一直觉。

#### 2.2.1 基于探测的反事实评估

当智能体调用 `propose_skill` 或 `update_skill` 时，我们选择 $K$ 个与当前回合语义相关的*探测任务*（例如，来自同一任务家族的任务，共享相似的技能要求）。选择使用源自当前任务标识符的确定性种子，确保可重现性。探测池从训练数据的保留集任务中抽取，因此效用评估衡量的是真正的技能迁移，而不是对已见任务的记忆。基准特定的探测任务定义详述于 §3.1。

对于每个探测任务 $p_i$，我们通过比较两种技能库下的任务来评估候选技能修改的影响：$\mathcal{B} \xrightarrow{\text{应用候选变异}} \mathcal{B}'$。具体而言，我们首先使用原始技能库 $\mathcal{B}$  rollout $p_i$。接下来，我们通过应用候选技能修改创建临时库 $\mathcal{B}'$，然后使用 $\mathcal{B}'$ rollout 相同的探测任务 $p_i$。这种反事实比较直接衡量了技能修改对任务性能的影响。

每个探测 rollout 根据我们的两个期望——成功率和效率——进行评分：

$$
\text{score}(p_i, \mathcal{B}) = \mathbf{1}[\text{success}_i] + \frac{M - \text{steps}_i}{M} \cdot \mathbf{1}[\text{success}_i] \quad (1)
$$

其中 $M$ 是最大允许步骤数。第一项捕捉任务是否在之前可能失败的情况下现在成功了；第二项捕捉步骤效率——编码更短、更直接策略的技能获得更高的分数。失败的探测得分为 0，因为无法实现成功的技能无论步数多少都无益处。

#### 2.2.2 效用计算

定义 $\delta_i = \text{score}(p_i,

SkillMaster：迈向大语言模型智能体的自主技能掌握

相似文章

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

SkillLens：面向成本高效型大模型智能体的自适应多粒度技能复用

SkillRet：面向 LLM 智能体技能检索的大规模基准

SkillGen：经过验证的推理时代理技能合成

SkillOS：面向自进化智能体的技能策展学习

提交意见反馈