智能体技能评估与演进:框架与基准
摘要
本综述系统性地审视了智能体系统的技能演进与评估,将演进归类为四种范式,并分析了六个以技能为中心的基准类别,以识别结构性差距和开放方向。
arXiv:2606.11435v1 公告类型:新
摘要:智能体技能的增长改变了智能体系统的构建、评估和部署方式。随着技能库的不断扩展,严格的评估对于确保其在现实应用中的实用性、质量和安全性变得至关重要。因此,该领域正经历从孤立的技能创建到自动化、评估驱动的技能演进的范式转变。在本文中,我们系统性地审视了基础技能创建之外的技能演进与评估的现状。我们将演进归类为四种不同的范式,涵盖执行反馈、轨迹蒸馏、压缩和强化学习,展示了每种要素如何有助于提高技能的实用性和可靠性。此外,我们还分析了六个以技能为中心的基准类别,识别了基准覆盖范围、权衡和指标丰富性方面的结构性差距,以推动技能研究。最后,我们指出了构建可泛化、高效且可验证安全的技能生态系统的开放方向。项目网址:https://github.com/Cassie07/AgentSkill_Survey
查看缓存全文
缓存时间: 2026/06/11 13:37
# 智能体技能评估与演化:框架与基准 来源:https://arxiv.org/html/2606.11435 Kexin Ding¹、Yang Zhou¹、Can Jin¹、Feng Tong²、Mu Zhou¹、Dimitris N. Metaxas¹ ¹罗格斯大学,²北卡罗来纳大学夏洛特分校 通讯作者:[email protected] (https://arxiv.org/html/2606.11435v1/mailto:email@domain) ###### 摘要 *智能体技能*的发展已深刻改变了智能体系统的构建、评估与部署方式。随着技能库规模持续扩大,严格的评估对于确保其在实际应用中的效用、质量和安全性变得至关重要。因此,该领域正经历一场新兴的范式转变:从孤立的技能创建转向自动化的、评估驱动的技能演化。在本综述中,我们系统性地审视了基础技能创建之外的技能演化与评估格局。我们将演化划分为四种不同的范式:执行反馈、轨迹蒸馏、压缩与强化学习,展示了每种范式如何提升技能的效用与可靠性。我们还对六类以技能为核心的基准进行了分析,指出了基准覆盖范围、权衡关系以及评估指标丰富度方面的结构性差距,以推动技能研究。最后,我们指出了构建可泛化、高效且可验证安全的技能生态系统的开放方向。项目网址为 https://github.com/Cassie07/AgentSkill_Survey 智能体技能评估与演化:框架与基准 Kexin Ding¹、Yang Zhou¹、Can Jin¹、Feng Tong²、Mu Zhou¹、Dimitris N. Metaxas¹ ¹罗格斯大学,²北卡罗来纳大学夏洛特分校 通讯作者:[email protected] (https://arxiv.org/html/2606.11435v1/mailto:email@domain) ## 1 引言 智能体技能使 LLM 智能体在推理时具备领域特定知识,使智能体能够通过多种外部工具感知环境并与之交互(Zhang et al., 2025 (https://arxiv.org/html/2606.11435#bib.bib47))。与提示工程(Wei et al., 2022 (https://arxiv.org/html/2606.11435#bib.bib112);Brown et al., 2020 (https://arxiv.org/html/2606.11435#bib.bib102))不同,智能体技能编码了可复用、可移植的多步解决方案,指导智能体通过协调的决策序列处理复杂任务,从而大幅减少繁琐的人工操作。随着智能体技能规模和多样性的持续增长(Liang et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib53);Li et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib106)),缺乏稳健的评估框架已成为技能引导的智能体部署的关键瓶颈。与此同时,多样化的技能使得手动细化不可行,而缺乏捕获真实世界反馈的演化方法进一步加剧了这一挑战(Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74))。过时或不安全的技能可能在后续任务中传播错误,使技能评估成为诊断、维护和对齐的开放性问题。因此,有必要为智能体技能建立自动化、持续的机制,而非依赖静态流程,以确保技能跨任务可泛化,且对公众使用可验证安全。 在本综述中,我们将技能演化与评估定位为这一新兴范式的核心焦点(图 1 (https://arxiv.org/html/2606.11435#S2.F1))。具体而言,我们引入了一个包含四种范式的技能演化策略分类(第 3 节 (https://arxiv.org/html/2606.11435#S3))。我们深入探讨了如何设计演化策略以增强技能创建、效用和细化,同时减少人力投入。我们还对以技能为核心的基准进行了批判性分析(第 4 节 (https://arxiv.org/html/2606.11435#S4)),评估其在多模态技能、轨迹蒸馏和技能安全性方面的潜力,以实现更好的实际智能体部署。 ## 2 什么是技能? 参见图注 图 1:我们通过比较分析和设计建议描绘了智能体技能演化策略的格局(§3)。我们通过结构差距和基准局限性提供了评估洞见(§4),并指出了用于稳健实际技能部署的开放挑战(§5)。 智能体技能是一个结构化包(Li et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib106)):S = (C, π, T, R),其中 C: O × G → {0,1} 是条件,将智能体观察 (O) 和目标 (G) 映射到技能的关联性;π 是执行策略,用于编码过程;T 是终止标准,指定技能执行何时完成;R 是可复用接口,指示与其他技能的组合。人工编写的技能将领域专业知识封装为机器可解读的程序化知识(Li et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib106))。为加速这一过程,自动化技能创建使智能体能够以更少的人工书写量生成技能。例如,Skill Creator(Anthropic, 2026 (https://arxiv.org/html/2606.11435#bib.bib5))可以自动创建完整的技能目录和测试用例,仅需最简的人工文本描述。类似地,Voyager(Wang et al., 2023 (https://arxiv.org/html/2606.11435#bib.bib110))将技能创建为可执行代码,包括提出任务、通过环境反馈细化代码、自我验证以及更新技能库。为更好地创建可复用技能,强化学习 (RL) 被整合到训练循环中,在后续任务中复用技能所获得的奖励会反向传播以更新策略。受 Group Relative Policy Optimization (GRPO)(Shao et al., 2024 (https://arxiv.org/html/2606.11435#bib.bib93))启发,SAGE(Wang et al., 2025 (https://arxiv.org/html/2606.11435#bib.bib92))利用来自组任务的可复用奖励,鼓励智能体学习和创建可复用技能。ARISE(Li et al., 2026c (https://arxiv.org/html/2606.11435#bib.bib94))保留成功的推理模式以训练智能体生成可复用技能,克服了 GRPO 将 rollout 独立处理的局限。 高效的技能使用策略包括检索、路由和管理。对于每个任务,智能体通常无法加载所有潜在技能来评估其可用性,因为时间和令牌消耗过大。为解决这一问题,(a) 检索从大型技能池中确定一小部分技能;(b) 路由在检索后高效决定应在哪个步骤执行哪个技能;(c) 管理保持技能的有序、更新和安全使用(附录 A (https://arxiv.org/html/2606.11435#A1))。这些使用机制为下文所述的评估与演化框架提供了基础。 ## 3 技能演化 技能演化是一个持续的过程,通过从过去的成功和失败模式中学习来提升技能质量,以实现最新的能力(Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74))。随着技能数量的持续增长,手动细化变得越来越不切实际。这一障碍促使了自动化策略的出现,这些策略利用技能执行记录,包括丰富的反馈信号和解决问题的轨迹(Ni et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib56))。这些原始的执行信号和轨迹通常带有噪声,混合了成功步骤与无关或失败的步骤。因此,可靠的技能演化需要跨多条轨迹捕获可复用的执行模式,而非单个行为(Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74))。此外,不断增长的技能库可能引入冲突内容,导致冗余存储、过度的令牌消耗和较差的泛化能力(Wang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib57);Gao et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib91);Zhang et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib58))。为解决这些障碍,我们概述了演化策略,特别关注学习信号的来源和粒度:执行反馈作用于单步级别的信号;轨迹蒸馏作用于多轨序列级别的模式;压缩与增强作用于库级别的结构;强化学习作用于任务级别的奖励。这些范式并非互斥,但它们代表了社区中的主要设计选择。我们进一步构建并分析了当前演化范式如何与基准对齐,强调了权衡和实用指南,以推动未来研究(附录 C (https://arxiv.org/html/2606.11435#A3))。 演化策略 | 执行反馈 | 轨迹蒸馏 | 压缩与增强 | 强化学习 --- | --- | --- | --- | --- SkillForge (Liu et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib73)) | CoEvoSkills (Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74)) | Skills-Coach (Tian et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib39)) | Ctx2Skill (Si et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib40)) AutoSkill (Yang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib54)) | SkillClaw (Ma et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib65)) | EmbodiSkill (Ju et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib67)) | SPARK (Zhou et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib116)) Trace2Skill (Ni et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib56)) | Memento-Skills (Zhou et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib52)) | XSkill (Jiang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib66)) | SkillNet (Liang et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib53)) SkillX (Wang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib57)) | SkillReducer (Gao et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib91)) | SkillFoundry (Shen et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib41)) | D2Skill (Tu et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib72)) SkillRL (Xia et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib113)) | SkillOS (Ouyang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib8)) | Skill1 (Shi et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib42)) 表 1:第 3 节 (https://arxiv.org/html/2606.11435#S3) 中技能演化策略的总结。类别用颜色编码:执行反馈、轨迹蒸馏、压缩与增强、强化学习。 ### 执行反馈 技能执行的记录可以揭示有价值的反馈信号用于技能改进,包括运行时错误、错误输出、未满足的任务规范以及执行路径。受人工重写的启发,一种直观的方法是实现一个自动化循环:执行现有技能,从执行反馈中观察失败模式,然后重写技能以防止此类失败再次发生。执行反馈可以来自明确的信号(Liu et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib73);Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74);Tian et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib39);Si et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib40);Jin et al., 2025a (https://arxiv.org/html/2606.11435#bib.bib103);Ju et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib67))或隐式执行信号(Yang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib54);Ma et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib65);Yang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib54)),两者对引导技能演化都至关重要。 技能演化的可追踪信号可以来自真实的工程活动,揭示用户意图、智能体工具调用以及具体的错误模式。这些信号对于自动检测、诊断和纠正有缺陷的技能至关重要。例如,SkillForge(Liu et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib73))通过检测执行结果与参考行为之间的差异来创建新技能。特别地,SkillForge 生成结构化的失败记录以识别系统模式,减少了人工重写和验证的需求。为支持多轮对话,CoEvoSkills(Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74))使智能体能够减少人机认知失调,并生成优于人工筛选技能的自演化技能。特别是在处理执行失败的技能时,它引入了一个验证器,可以提供关于根本原因分析和修改建议的直接反馈。访问丰富的环境反馈可以进一步增强技能可靠性。EmbodiSkill(Ju et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib67))利用智能体执行反馈,通过与环境交互生成动作、观察和最终奖励的轨迹。 Skills-Coach(Tian et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib39))不依赖实际执行反馈,而是在合成案例上执行技能以获得演化反馈。Skills-Coach 生成种子技能的多个重写版本。得分最高的重写版本作为成功信号来改进技能指令,而失败痕迹则驱动技能脚本以防止失败。类似地,Ctx2Skill(Si et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib40))通过从参考文档中生成合成诊断问题来从反馈中学习。 即使没有明确的执行信号,用户在对话中的偏好(如偏好的语气、术语或写作惯例)对于改进技能演化仍然有价值。我们认为交互轨迹可以包含具有可复用知识的丰富信号。AutoSkill(Yang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib54))将用户交互作为技能演化的主要信号。它不仅依赖失败纠正,还将用户偏好转化为明确的能力,以个性化智能体的行为。类似地,SkillClaw(Ma et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib65))利用来自关键轨迹的异构用户体验,这些轨迹反映了不同用户如何与工具和工作流进行交互。 在上述执行反馈研究中,我们发现结构化的失败模式成为一个有意义的设计因素。能够很好地将失败诊断与重写生成分离开的系统(SkillForge(Liu et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib73))、CoEvoSkills(Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74)))在跨任务结果上往往报告优于处理原始痕迹的系统(AutoSkill(Yang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib54))、SkillClaw(Ma et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib65))),尽管缺乏直接对比。显然,反馈信号本质上受到执行环境多样性的限制,而非部署因素——这一结构约束值得在技能的设计和评估中予以明确关注。 ### 轨迹蒸馏 通过轨迹蒸馏进行技能演化正日益受到关注,它通过捕获任务特定的可复用模式,利用序列化记忆来改进技能。例如,SPARK(Zhou et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib116))探索使用在线轨迹验证来从可执行证据中提炼强技能。它引入了一个关键的轨迹级度量,使用任务环境证据而非未经验证的先前计划来评估技能性能。Trace2Skill(Ni et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib56))
相似文章
SkillEvolBench:从情景经验到程序技能的进化基准测试
SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。
SkillFlow:自主智能体终身技能发现与演化基准测试
SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。
Skill-RM: 通过智能体技能统一异构评估标准
Skill-RM 提出了一种统一的奖励建模框架,将奖励计算视为结构化的智能体任务,实现了动态证据聚合和跨多种应用的一致评估,优于传统的评判基线。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
从原始经验到技能消费:模型生成智能体技能的系统研究
本文系统评估了语言智能体的模型生成技能,涵盖经验生成、提取和消耗的完整生命周期,发现技能平均有益但存在显著的负迁移,从而引出一种提高技能质量的元技能。