SkillAudit:基于成对轨迹审计的无真值技能进化
摘要
SkillAudit 引入了一个框架,通过成对轨迹审计和对比评估,在没有真实反馈的情况下进化 LLM 智能体技能。该框架在 89 个任务上实现了 73.9% 的平均任务奖励,优于基线方法。
arXiv:2606.14239v1 公告类型:新
摘要:智能体技能是结构化的程序化包,指导冻结的 LLM 智能体在特定工作流程中工作。技能在部署后很少能保持足够适用:边缘情况、API 变更和部署限制只有在使用过程中才会显现,这使得技能进化成为实际需求。现有方法依赖于特权反馈,如保留验证分数、隐藏测试结果或环境奖励——这些信号在实践者仅有任务描述和工作空间数据时往往不可用。我们提出 SkillAudit,一个无需真实反馈即可进化智能体技能的框架。其核心思想是成对轨迹审计:在每次迭代中,对同一任务分别执行带和不带候选技能的操作,从而隔离技能如何改变智能体行为而不依赖外部标签。为了将行为差异转化为编辑指导,SkillAudit 使用过程对齐对比评估(PACE),这是一组评估器,将轨迹差异映射到与技能文档中特定段落相关的诊断信号。结构验证器根据任务规范一次性编译后固定,检查任务约束并回滚有害更新。SkillAudit 通过两个管道进行编辑:Refine 从广泛有用的技能中移除嘈杂或不相关的指导,而 Repair 替换与任务冲突的段落。在覆盖 8 个专业领域的 89 个容器化任务中,SkillAudit 实现了 73.9% 的平均任务奖励,优于无技能智能体(40.9%)和静态专家技能(56.7%)。这些提升是在进化过程中无需访问隐藏测试、参考解决方案或外部评分函数的情况下获得的。
查看缓存全文
缓存时间: 2026/06/15 09:11
# 通过成对轨迹审计实现无真实标记的技能演化
来源:https://arxiv.org/html/2606.14239
Haowen Gao1,2, Haoran Chen3, Can Wang3, Shasha Guo1, Liang Pang1, Zhaoyang Liu3, Huawei Shen1, Xueqi Cheng1
1State Key Laboratory of AI Safety, Institute of Computing Technology, CAS, Beijing, China
2University of Chinese Academy of Sciences, Beijing, China
3Tongyi Lab, Alibaba Group, Beijing, China
gaohaowen23s@ict\.ac\.cn, congling\.chr@alibaba\-inc\.com, xiaocan\.wc@alibaba\-inc\.com
guoshasha@ict\.ac\.cn, pangliang@ict\.ac\.cn, jingmu\.lzy@alibaba\-inc\.com
###### 摘要
智能体技能是结构化的程序化指令包,用于引导冻结的大语言模型智能体执行专业工作流程。然而,技能在部署后很少能持续适用:新的边界案例、工具与API的变更以及部署约束往往只有在实际使用中才会暴露。这使得技能演化为实际必要。现有方法通常依赖特权反馈,例如保留的验证分数、隐藏测试结果、环境奖励或专家参考响应。当实践者仅拥有任务描述和工作区数据时,此类信号往往不可用。这引出了一个核心挑战:在优化过程中无法访问外部真实标记反馈的情况下,如何改进智能体技能?
我们提出 **SkillAudit**,一种无需真实标记反馈即可演化智能体技能的方法。核心思想是**成对轨迹审计**:在每次迭代中,同一任务分别在有候选技能和无候选技能的情况下执行,使系统能够隔离技能如何改变智能体行为,且无需外部标签。为了将这些行为差异转化为编辑指导,SkillAudit 使用**过程对齐对比评估**(PACE),这是一个评估器簇,将轨迹差异映射为与技能文档中特定段落相关联的诊断信号。一个结构验证器从任务规范中一次性编译并固定,提供对任务约束的稳定检查,并回滚损害执行的更新。SkillAudit 进一步将编辑路由至两条互补管线:**Refine** 从广泛有用的技能中移除噪声或不相关的指导;**Repair** 替换与任务冲突的技能段落。在涵盖 8 个专业领域的 89 个容器化任务中,SkillAudit 实现了 73.9% 的平均任务奖励,优于无技能智能体(40.9%)和基准中包含的静态专家技能(56.7%)。这些提升在演化过程中无需访问隐藏测试、参考解决方案或外部评分函数。
## 1 引言
大语言模型智能体越来越多地用于长周期专业任务,包括软件工程、科学分析和企业数据管道(Yao et al., 2023 (https://arxiv.org/html/2606.14239#bib.bib26); Hong et al., 2024 (https://arxiv.org/html/2606.14239#bib.bib28); Jimenez et al., 2024 (https://arxiv.org/html/2606.14239#bib.bib22))。这些任务要求程序可靠性:智能体必须以正确顺序调用工具,满足严格的输出约束,并从特定领域的边界案例中恢复。为了在不更新模型参数的情况下提供此类程序知识,**智能体技能**——结合自然语言指导与可选支持工件的结构化多文件指令包——已成为冻结模型的实际接口(Anthropic, 2025 (https://arxiv.org/html/2606.14239#bib.bib31); Wang et al., 2024a (https://arxiv.org/html/2606.14239#bib.bib24); Zhao et al., 2024 (https://arxiv.org/html/2606.14239#bib.bib27); Shinn et al., 2023 (https://arxiv.org/html/2606.14239#bib.bib25); Xu and Yan, 2026 (https://arxiv.org/html/2606.14239#bib.bib33))。近期大规模评估证实了其价值:精心策划的技能显著提升了跨多个专业智能体基准的任务完成度(Li et al., 2026b (https://arxiv.org/html/2606.14239#bib.bib21))。
然而,有用的技能在部署后很少能持续适用。随着实践者重复使用技能,新的边界案例出现,工具和API变更,数据格式变化,且部署特定的约束只有通过使用才能显现。因此,曾经有用的技能可能变得不完整、与任务不对齐,甚至具有误导性。挑战不仅在于一次性编写强大的技能,更在于通过持续与任务交互,使技能演化为更可靠的程序知识。
近期工作已开始通过执行反馈迭代优化技能文档来研究技能演化(Zhang et al., 2026b (https://arxiv.org/html/2606.14239#bib.bib1); a (https://arxiv.org/html/2606.14239#bib.bib2); Yang et al., 2026a (https://arxiv.org/html/2606.14239#bib.bib5); Alzubi et al., 2026 (https://arxiv.org/html/2606.14239#bib.bib6); Liu et al., 2026 (https://arxiv.org/html/2606.14239#bib.bib7); Ma et al., 2026 (https://arxiv.org/html/2606.14239#bib.bib4))。然而,现有方法通常依赖不可用的反馈。如图1 (https://arxiv.org/html/2606.14239#S1.F1) 所示,这些方法分为两大范式。
***Oracle-Gated Evolution**方法(例如 SkillOpt (Yang et al., 2026a (https://arxiv.org/html/2606.14239#bib.bib5)) 和 CoEvoSkills (Zhang et al., 2026b (https://arxiv.org/html/2606.14239#bib.bib1)))使用外部验证信号(如保留分数、隐藏测试结果或神谕通过/失败反馈)来接受或拒绝技能更新。*Failure-Signal Driven*方法(例如 SkillForge (Liu et al., 2026 (https://arxiv.org/html/2606.14239#bib.bib7)) 和 SkillClaw (Ma et al., 2026 (https://arxiv.org/html/2606.14239#bib.bib4)))则使用更丰富的外部监督,如企业知识库、历史支持工单、跨用户交互日志或任务结果奖励。
然而,在现实场景中,实践者往往只有任务描述和工作区数据,而没有隐藏测试、参考解决方案、部署日志或真实标记评分函数。这留下了一个实际问题:当演化过程中外部真实标记反馈不可用时,如何改进技能?
我们通过**成对轨迹审计**解决这个问题。核心思想是两次执行同一任务——一次带有候选技能,一次不带。由此产生的轨迹对隔离了技能如何改变智能体行为,提供了关于技能在何处有帮助、何处被忽略、何处误导智能体的自包含信号。原始轨迹差异是证据,但并非现成的诊断:它们既不能识别技能中导致行为变化的段落,也不能提供接受或拒绝跨迭代编辑的稳定标准。因此,我们结合了两个互补组件。首先,**PACE**(过程对齐对比评估)将轨迹差异映射到锚定于技能文档中特定段落的局部诊断信号。其次,一个结构验证器从任务规范中一次性编译并固定在整个演化过程中;它编码了仅从任务描述和工作区可推导的任务约束,防止评估器漂移和执行回归。
参见图注
图1:三种技能演化范式。*Oracle-Gated*(左)和*Failure-Signal Driven*(中)需要外部真实标记信号。SkillAudit(右)仅需要 T、W 和 S0:成对执行产生 τ_w 和 τ_wo,PACE 和 Anchor Verifier 内部评估以给出“有帮助”、“有害”或“无效”的裁决,不访问真实标记信号。
基于此设计,我们提出 **SkillAudit**,一种在优化过程中无需真实标记反馈的技能演化框架。这里的“无需真实标记”指演化循环从不访问隐藏测试、参考解决方案、任务奖励、神谕通过/失败反馈或人工编写的验证脚本;它仅使用任务描述、工作区数据、候选技能、执行轨迹、生成的工件以及可从任务规范推导的约束。在每次迭代中,SkillAudit 在有技能和无技能条件下执行任务,聚合生成的 PACE 诊断和结构检查,并决定是否提交、延迟或回滚更新。破坏执行的更新被无条件否决。为了处理不同形式的技能-任务错配,SkillAudit 将编辑路由至两条管线:**Refine** 从广泛有用的技能中移除噪声或不相关的指导,而 **Repair** 替换其指导与任务冲突的段落。
我们的贡献包括:
- **无真实标记的技能演化**。我们在一个现实的部署场景中公式化技能演化,该场景下隐藏测试、参考解决方案、任务奖励和神谕反馈在优化过程中不可用,形式化为无真实标记约束 C_gtf。我们引入 SkillAudit,一个不依赖外部真实标记信号改进智能体技能的框架。
- **成对轨迹审计**。我们提出成对轨迹审计作为推导优化信号的核心机制。通过在有无候选技能条件下执行同一任务,SkillAudit 隔离技能如何改变智能体行为,并将这些差异转化为用于技能编辑的自包含、无标签证据。
- **过程对齐诊断与受保护编辑**。我们开发了一个双轴评估架构,结合了从任务规范编译的固定结构验证器和 PACE(过程对齐对比评估器簇)。PACE 在四个维度上产生锚定于段落的诊断信号:过程遵守、工件证据、一致性和有效性增量。基于这些诊断,编辑通过互补的 Refine 和 Repair 管线路由,同时基于验证器的检查否决违反任务约束或降低执行质量的更新。
- **实证增益与边界分析**。我们在涵盖 8 个专业领域的 89 个容器化任务上评估 SkillAudit。SkillAudit 实现了 73.9% 的平均任务奖励,超过了无技能智能体基线(40.9%)和基准中包含的静态专家技能(56.7%),分别提升了 +33.0 和 +17.2 个百分点。进一步分析确定了一个可观测性边界,有助于解释无真实标记技能演化何时成功、何时失败。
## 2 问题形式化
我们考虑一个部署场景,实践者面对一个专业任务,具有三种外部可用的输入:自然语言任务描述 T、工作区数据 W 以及初始技能 S_0。任务描述指定了目标、可交付物和约束。工作区包含任务操作的文件、数据目录和配置。初始技能 S_0 是一个结构化的程序文档,可能附带帮助脚本,由人工实践者编写或从现有技能库中检索为与任务最接近的匹配项。目标是生成一个演化后的技能 S*,当在推理时注入到智能体上下文中时,能提升智能体的任务性能。技能是外部工件而非模型参数:智能体的权重在整个演化过程中保持冻结,演化后的技能可被其他模型重用而无需重新训练。
在此场景中,真实标记奖励在演化过程中不可观测。实践者无法访问隐藏测试脚本、参考解决方案、保留验证集、评分函数、环境奖励或神谕通过/失败反馈。因此,我们将技能演化形式化为一个带约束的优化问题。令 τ ∼ π(·|S,T,W) 表示当技能 S 注入到上下文时由冻结智能体 π 产生的执行轨迹,并令 R(τ) ∈ [0,1] 为(潜在、未观测的)终端任务奖励。目标是
S* = arg max_S E_{τ∼π(·|S,T,W)}[R(τ)], subject to the ground-truth-free constraint C_gtf. (1)
约束 C_gtf 允许演化过程仅使用 T、W、S_0、候选技能,以及交互过程中产生的可观测执行轨迹和工件;它禁止在优化的每一点访问 R 本身或其任何常用代理(隐藏测试、参考解决方案、保留验证分数、环境奖励或神谕通过/失败信号)。
由于在 C_gtf 下 R(τ) 从未被观测到,我们从有技能和无技能候选的成对执行之间的可观测差异中估计技能变化的“方向”(§3.2)。成对轨迹是主要证据:PACE 从其行为差异中提取锚定于段落的诊断信号,这些信号直接驱动技能编辑的内容。三路裁决(skill_helped、skill_hurt 或 skill_inert)作为决策门,决定是提交、回滚还是延迟每次更新,而实际修改基于完整的轨迹证据而非仅裁决。下一节将这一形式化为一个具体的演化循环,详细说明成对轨迹、PACE 评估器和结构验证器如何交互以驱动无真实标记的编辑。
## 3 方法
### 3.1 概述
式 1 中的带约束优化提出了一个根本性挑战:当所有先前演化方法所依赖的信号被明确禁止时,如何改进技能?我们通过设计一个完全从任务本身推导更新信号、无需任何外部基础设施的演化循环来解决这个问题。核心机制是成对轨迹审计:通过在有和无候选技能条件下执行任务,系统直接观察技能对智能体行为的影响,并将由此产生的轨迹证据作为编辑的基础,三路裁决控制每次提交或回滚。图 1 展示了最终系统,它由以下各节描述的四个协作组件组成。
给定 T、W 和初始技能 S_0,系统以两个一次性设置步骤开始。一个任务解释器首先深入分析 T 和 S_0,检查任务需求、数据模式和工作流结构,以及初始技能的覆盖范围和潜在冲突。产生的结构化任务规范驱动后续两个设置步骤:编译一个锚定验证器,编码仅从任务描述可推导的客观约束,并在演化剩余部分锁定;运行兼容性预评估,根据检测到的 S_0 与 T 之间错配的性质,将任务路由至 Refine 或 Repair 管线(§3.4)。两条管线共享相同的评估基础设施,但应用不同的约束门控技能修改方式。图 2 详细说明了单次迭代的内部结构。每次迭代并行执行有技能和无技能条件下的任务,产生轨迹对——一条有技能,一条无技能——它们构成成对审计的核心证据。相似文章
SkillCAT:对比性评估与拓扑感知的LLM智能体技能自我进化
SkillCAT是一个无需训练的LLM智能体技能自我进化框架,通过三个阶段解决单轨迹偏差、未经验证的合并和全语料库加载等问题:对比因果提取、评估增强进化和拓扑感知任务执行,在基准测试上实现高达40.40%的提升。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
OpenSkillEval:自动审计面向LLM智能体的开放技能生态系统
OpenSkillEval是一个自动评估框架,用于审计LLM智能体在多个下游任务中使用的开源技能。通过使用超过600个动态生成的任务和30项技能,作者发现技能的可用性并不保证有效使用,其收益在很大程度上取决于模型和框架。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
SkillAdaptor: 基于轨迹的LLM智能体自适应技能
SkillAdaptor是一种无需训练的步骤级技能自适应框架,具有显式的失败归因能力,适用于LLM智能体,在WebShop、PinchBench和Claw-Eval上提升了性能。