SkillCAT:对比性评估与拓扑感知的LLM智能体技能自我进化

arXiv cs.CL 论文

摘要

SkillCAT是一个无需训练的LLM智能体技能自我进化框架,通过三个阶段解决单轨迹偏差、未经验证的合并和全语料库加载等问题:对比因果提取、评估增强进化和拓扑感知任务执行,在基准测试上实现高达40.40%的提升。

arXiv:2606.13317v1 Announce Type: new 摘要:针对LLM智能体的技能自我进化方法旨在将执行轨迹转化为可复用的技能文档,但当前流程通常每个任务仅从一条轨迹学习,在检查前合并候选技能补丁,并在推理前加载完整技能语料库。我们提出SkillCAT,一个无需训练的框架,将该过程分解为三个阶段。对比因果提取(CCE)为每个任务采样多条轨迹,并比较同一任务的成功/失败对,以识别解释结果差异的证据。评估增强进化(AAE)在源任务克隆上重放每个候选补丁,并在分层技能补丁合并前仅保留能改善或保持任务结果的补丁。拓扑感知任务执行(TTE)将进化后的技能编译为可路由的子技能拓扑,从而使推理仅加载与任务相关的能力节点。我们在常见的智能体基准上评估SkillCAT,包括SpreadsheetBench、WikiTableQuestions和DocVQA,并进一步测试跨模型和分布外泛化能力。在这些设置下,SkillCAT相比基线将平均得分提升高达40.40%,展示了无需模型训练的可靠技能进化。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:52

# 对比评估与拓扑感知的LLM智能体技能自我进化

来源:https://arxiv.org/html/2606.13317

###### 摘要

面向LLM智能体的技能自我进化方法旨在将执行轨迹转化为可复用的技能文档,但当前的流水线通常每个任务只从一个轨迹中学习,在检查候选技能补丁之前进行合并,并在推理时加载整个技能语料库。我们提出SkillCAT,一个无需训练的框架,将这个过程分为三个阶段。对比因果提取(CCE)为每个任务采样多个轨迹,并比较同任务成功/失败对,以识别解释结果差异的证据。评估增强进化(AAE)在源任务克隆上回放每个候选补丁,并在分层技能补丁合并之前仅保留那些能改善或保持任务结果的补丁。拓扑感知任务执行(TTE)将进化后的技能编译成可路由的子技能拓扑,因此推理时仅加载与任务相关的能力节点。我们在常见的智能体基准测试(包括SpreadsheetBench、WikiTableQuestions和DocVQA)上评估了SkillCAT,并进一步测试了跨模型和分布外泛化能力。在这些设定下,SkillCAT相比基线平均得分提升高达40.40%,证明了无需模型训练的可靠技能进化。

## 引言

参考图例图1:Trace2Skill类方法的三个限制及相应的SkillCAT解决方案。基于大语言模型(LLM)的智能体在执行时通常依赖外部技能文档,例如结构化指令、工具使用规则以及注入上下文的任务经验。这些技能帮助智能体在不更新模型权重的情况下完成长时间跨度的任务(Wang等人,2024 (https://arxiv.org/html/2606.13317#bib.bib1);Yao等人,2023 (https://arxiv.org/html/2606.13317#bib.bib2);Schick等人,2023 (https://arxiv.org/html/2606.13317#bib.bib10);Qin等人,2024 (https://arxiv.org/html/2606.13317#bib.bib11);Wang等人,2023 (https://arxiv.org/html/2606.13317#bib.bib13))。早期的技能库大多为手工编写;最近的工作则从智能体轨迹中提取并精炼技能,通常称为*技能自我进化*(Zhou等人,2026b (https://arxiv.org/html/2606.13317#bib.bib36);Yang等人,2026 (https://arxiv.org/html/2606.13317#bib.bib22);Zhang等人,2026c (https://arxiv.org/html/2606.13317#bib.bib31);Shinn等人,2023 (https://arxiv.org/html/2606.13317#bib.bib14);Madaan等人,2023 (https://arxiv.org/html/2606.13317#bib.bib15))。

早期的技能自我进化方法通常遵循顺序更新循环:每个新轨迹对当前技能编辑一次,然后流水线进入下一个轨迹(Shinn等人,2023 (https://arxiv.org/html/2606.13317#bib.bib14);Madaan等人,2023 (https://arxiv.org/html/2606.13317#bib.bib15);Zhang等人,2026b (https://arxiv.org/html/2606.13317#bib.bib20);Jiang等人,2026 (https://arxiv.org/html/2606.13317#bib.bib24);Chen等人,2026b (https://arxiv.org/html/2606.13317#bib.bib23))。这个过程简单,但后期的编辑可能收益递减,并积累噪声或覆盖有用的行为。Trace2Skill(Ni等人,2026 (https://arxiv.org/html/2606.13317#bib.bib19))将这个流程转变为离线批处理流水线:它从每个轨迹中提取一个技能补丁,然后使用Map-Reduce风格的合并将补丁组合成更通用的技能编辑。作为一种无需训练的方法,Trace2Skill为技能自我进化提供了一个有效的基线。

然而,随着任务和技能语料库的增长,仍存在三个问题:(1)单轨迹偏差。单个轨迹为任务提供的证据薄弱:成功的轨迹可能反映了偶然的策略,而失败的轨迹往往无法识别根本原因(Ni等人,2026 (https://arxiv.org/html/2606.13317#bib.bib19);Li等人,2026b (https://arxiv.org/html/2606.13317#bib.bib25))。(2)未经验证的合并。补丁在未独立检查它们是否有助于源任务的情况下被合并,因此低质量或有害的补丁可能进入技能语料库(Zhang等人,2026a (https://arxiv.org/html/2606.13317#bib.bib30);Tian等人,2026 (https://arxiv.org/html/2606.13317#bib.bib35);Gou等人,2024 (https://arxiv.org/html/2606.13317#bib.bib16))。(3)上下文过载。合并后的技能不断增长,推理时可能向智能体呈现不相关或冲突的规则,增加提示长度并分散其对任务相关内容的注意力(Li等人,2026a (https://arxiv.org/html/2606.13317#bib.bib28);Meng等人,2026 (https://arxiv.org/html/2606.13317#bib.bib37);Qin等人,2024 (https://arxiv.org/html/2606.13317#bib.bib11);Chen等人,2026a (https://arxiv.org/html/2606.13317#bib.bib18))。

我们提出SkillCAT(对比评估和拓扑感知的技能自我进化),一个将技能生命周期分为三个可观察阶段的框架。对比因果提取(CCE)通过多种子采样为每个任务生成多个轨迹,并构建同任务成功/失败对比对,提取围绕结果间因果分水岭的候选经验,而非总结整个轨迹。评估增强进化(AAE)在源任务克隆上回放每个候选补丁,根据结果转变分配校准分数,并选择那些能改善或保持源任务行为的补丁进行分层分级合并。拓扑感知任务执行(TTE)将进化后的技能编译成可路由的能力节点拓扑,并在推理时仅路由与任务相关的内容。

在SpreadsheetBench(Ma等人,2024 (https://arxiv.org/html/2606.13317#bib.bib3))上,当从人类编写的技能初始化时,SkillCAT在使用Qwen3.5-35B-A3B时达到55.50% Vrf,比Trace2Skill高25.83个百分点,使用Qwen3.5-122B-A10B时达到69.50% Vrf。进化后的技能还泛化到分布外的WikiTableQuestions(Pasupat和Liang,2015 (https://arxiv.org/html/2606.13317#bib.bib4)),使用Qwen3.5-35B-A3B和Qwen3.5-122B-A10B技能用户的准确率分别达到81.55%和84.47%,并且在多模态DocVQA(Mathew等人,2021 (https://arxiv.org/html/2606.13317#bib.bib5))上仍然有效,使用Qwen3.5-35B-A3B编写的SkillCAT技能,在Qwen3.5-35B-A3B和Qwen3.5-122B-A10B用户下分别达到0.9159和0.7200 ANLS。消融实验表明,CCE、AAE和TTE都有贡献,跨模型实验显示这些技能也可以被gemma-4-31B-it(Google DeepMind,2026 (https://arxiv.org/html/2606.13317#bib.bib7))和gpt-5.4-mini用户复用。

#### 贡献。

我们的主要贡献是:

- 我们识别了离线智能体技能改进中的三个关键决策:证据提取、补丁验证与集成,以及测试时技能部署。基于这一观点,我们提出了SkillCAT,一个无需训练的技能自我进化框架。
- 该框架集成了对比因果提取、评估增强进化以及拓扑感知任务执行,以解决单轨迹偏差、未经验证的合并和推理时上下文过载问题。
- 实验在电子表格、文档和跨模型设置中展示了强劲结果,相比匹配基线平均提升高达40.40%。

参考图例图2:SkillCAT流水线概览:CCE提取同任务对比证据,AAE验证候选补丁,TTE路由与任务相关的技能节点。

## 相关工作

#### 智能体与技能。

外部技能文档在运行时为LLM智能体提供可复用的指令、工具知识和任务经验(Wang等人,2024 (https://arxiv.org/html/2606.13317#bib.bib1);Yao等人,2023 (https://arxiv.org/html/2606.13317#bib.bib2);Schick等人,2023 (https://arxiv.org/html/2606.13317#bib.bib10);Qin等人,2024 (https://arxiv.org/html/2606.13317#bib.bib11);Wang等人,2023 (https://arxiv.org/html/2606.13317#bib.bib13))。先前的工作主要研究这些技能如何组织、检索和评估(Zhou等人,2026b (https://arxiv.org/html/2606.13317#bib.bib36)):技能图谱和GraSP建模依赖关系或前提条件,SkillRAE编译检索上下文,而诸如SkillsBench和SkillLearnBench等基准测试跨任务使用和持续获取(Li等人,2026a (https://arxiv.org/html/2606.13317#bib.bib28);Xia等人,2026 (https://arxiv.org/html/2606.13317#bib.bib32);Meng等人,2026 (https://arxiv.org/html/2606.13317#bib.bib37);Li等人,2026b (https://arxiv.org/html/2606.13317#bib.bib25);Liu等人,2024 (https://arxiv.org/html/2606.13317#bib.bib17);Li等人,2023 (https://arxiv.org/html/2606.13317#bib.bib12);Zhong等人,2026 (https://arxiv.org/html/2606.13317#bib.bib33))。这些研究改进了技能的使用,但通常假设有用的技能内容已经存在。我们转而研究如何从执行经验中提取可靠的技能,并在测试时仅暴露与任务相关的部分。

#### 技能提取与进化。

技能自我进化研究如何将轨迹和反馈转化为可复用的技能(Wang等人,2023 (https://arxiv.org/html/2606.13317#bib.bib13);Shinn等人,2023 (https://arxiv.org/html/2606.13317#bib.bib14);Madaan等人,2023 (https://arxiv.org/html/2606.13317#bib.bib15))。Trace2Skill(Ni等人,2026 (https://arxiv.org/html/2606.13317#bib.bib19))通过提取轨迹局部补丁并使用Map-Reduce合并为技能文档,使这一过程离线化。后续工作通过个性化交互、多模态经验、结构化记忆、坏例诊断、代理验证、对比执行、集体聚合、效用信号、强化学习以及发现或修复基准,扩展了技能来源、记忆维护和质量控制(Yang等人,2026 (https://arxiv.org/html/2606.13317#bib.bib22);Zhang等人,2026b (https://arxiv.org/html/2606.13317#bib.bib20);Jiang等人,2026 (https://arxiv.org/html/2606.13317#bib.bib24);Chen等人,2026b (https://arxiv.org/html/2606.13317#bib.bib23);Zhou等人,2026a (https://arxiv.org/html/2606.13317#bib.bib26);Liu等人,2026 (https://arxiv.org/html/2606.13317#bib.bib34);Zhang等人,2026a (https://arxiv.org/html/2606.13317#bib.bib30);Tian等人,2026 (https://arxiv.org/html/2606.13317#bib.bib35);Gou等人,2024 (https://arxiv.org/html/2606.13317#bib.bib16);Ma等人,2026 (https://arxiv.org/html/2606.13317#bib.bib29);Tu等人,2026 (https://arxiv.org/html/2606.13317#bib.bib27);Shi等人,2026 (https://arxiv.org/html/2606.13317#bib.bib38);Zhang等人,2026c (https://arxiv.org/html/2606.13317#bib.bib31);Alzubi等人,2026 (https://arxiv.org/html/2606.13317#bib.bib21))。这些方法通常单独处理经验提取、补丁验证或技能选择。SkillCAT通过多种子对比证据、合并前源任务回放以及拓扑感知上下文控制将它们连接起来。

## 方法

SkillCAT将技能自我进化分解为三个阶段:对比因果提取(CCE)、评估增强进化(AAE)和拓扑感知任务执行(TTE)。CCE和AAE在技能学习期间离线运行;TTE在任务部署期间在线运行。图2 (https://arxiv.org/html/2606.13317#Sx1.F2)展示了完整流水线。

### 问题定义

令X={x1,...,xN}\\mathcal\{X\}=\\\{x\_\{1\},\\ldots,x\_\{N\}\\\}为用于技能进化的任务集,Z={z1,...,zK}\\mathcal\{Z\}=\\\{z\_\{1\},\\ldots,z\_\{K\}\\\}为随机种子集。给定基础技能S0S\_\{0\},在任务xix\_\{i\}上使用种子zz运行智能体产生轨迹τi,z\\tau\_\{i,z\}以及来自官方评估器的二元结果yi,z∈{0,1}y\_\{i,z\}\\in\\\{0,1\\}。我们将任务xix\_\{i\}的多种子运行记为Ti={(τi,z,yi,z):z∈Z}\\mathcal\{T\}\_\{i\}=\\\{\(\\tau\_\{i,z\},y\_\{i,z\}\):z\\in\\mathcal\{Z\}\\\},整个进化轨迹集合记为T={Ti}i=1N\\mathcal\{T\}=\\\{\\mathcal\{T\}\_\{i\}\\\}\_\{i=1\}^\{N\}\。

技能自我进化以(S0,T)\(S\_\{0\},\\mathcal\{T\}\)为输入,输出进化后的技能S∗S^\{\*\},以及每个测试时任务使用的路由技能ScS\_\{c\}。目标是在改善未见任务上官方评估器性能的同时,限制注入每个任务智能体上下文的技能内容量。因此,问题不仅仅是编写更长的技能文档:方法必须决定哪些证据可靠,哪些补丁应进入技能,以及测试时应加载进化后技能的哪些部分。

算法1 (https://arxiv.org/html/2606.13317#alg1)总结了完整流水线。CCE从多种子轨迹中提取候选经验记录,AAE通过源任务回放过滤补丁并将保留的补丁合并为S∗S^\{\*\},TTE将S∗S^\{\*\}编译为可路由的拓扑,为每个测试任务组装任务相关的技能ScS\_\{c\}。这些模块对应上述三个决策,因此可以单独消融或作为完整流水线进行评估。

### 对比因果提取(CCE)

CCE从多种子运行中形成同任务成功/失败对,并在第一个有意义的发散点提取技能证据。由于每对共享相同的输入、工具和评估器,证据隔离了最有可能解释结果差距的执行选择。

#### 对比对构建。

对于任务xix\_\{i\},令Ti+\\mathcal\{T\}\_\{i\}^\{\+\}和Ti−\\mathcal\{T\}\_\{i\}^\{\-\}分别表示成功和失败的轨迹集合。当两个集合都非空时,CCE从每个集合中均匀随机抽取一个轨迹,形成对比对(τi+,τi−)\(\\tau\_\{i\}^\{\+\},\\tau\_\{i\}^\{\-\}\)。这种同任务构造防止任务难度或输入内容的差异被误认为技能证据。

#### 因果分水岭识别与记录提取。

给定对比对(τi+,τi−)\(\\tau\_\{i\}^\{\+\},\\tau\_\{i\}^\{\-\}\),CCE定位*因果分水岭*wiw\_\{i\},即成功和失败轨迹中动作序列首次出现分歧的点。然后提取器围绕该点编写候选经验记录,包括局部证据、推断的失败原因以及可编辑的技能教训。令EE表示对比提取器:

ri = E(τi+, τi−, wi), (1)

其中wi = min{t: αt+ ≠ αt-},αt+和αt-分别是τi+和τi-中第t步的动作。因此,ri不总结整个轨迹;它专注于结果开始分离点的行为差异。

#### 回退机制。

当任务的所有K条轨迹全部成功或全部失败时,不存在严格的成功/失败对比对。如果启用回退,CCE对Ti应用单轨迹提取器E1;否则跳过该任务以保持严格对比证据的定义。

算法1 SkillCAT流水线
1: 输入: 进化任务

X\\mathcal\{X\},种子

Z\\mathcal\{Z\},基础技能

S0S\_\{0\},分数阈值

θ\\theta,路由预算

kk
2: 输出: 进化后的技能拓扑

(V,S∘)\(\\mathcal\{V\},S\_\{\\circ\}\)
3: 阶段1: 对比因果提取 (§对比因果提取(CCE) (https://arxiv.org/html/2606.13317#Sx3.SSx2))

4:

R ← ∅\\mathcal\{R\}\\leftarrow\\emptyset ⊳\\triangleright 初始化记录集

5: for each task

xi∈Xx\_\{i\}\\in\\mathcal\{X\}do

6: 在所有种子

z∈Zz\\in\\mathcal\{Z\}下运行智能体,得到

Ti\\mathcal\{T\}\_\{i\}
7: if

∃ yi,z=1\\exists\\,y\_\{i,z\}\\\!=\\\!1并且

∃ yi,z′=0\\exists\\,y\_\{i,z^\{\\prime\}\}\\\!=\\\!0then ⊳\\triangleright 混合结果

8: 选择一个成功轨迹并

相似文章

OpenSkill:LLM智能体的开放世界自进化

Hugging Face Daily Papers

OpenSkill是一个框架,让LLM智能体能够从开放世界资源中自进化技能和验证信号,无需目标任务监督,在多个基准测试中实现高性能。