智能体技能评估与演进：框架与基准

arXiv cs.CL 2026/06/11 04:00 论文

agent-skills evaluation benchmarks evolution llm-agents survey skill-ecosystems

摘要

本综述系统性地审视了智能体系统的技能演进与评估，将演进归类为四种范式，并分析了六个以技能为中心的基准类别，以识别结构性差距和开放方向。

arXiv:2606.11435v1 公告类型：新摘要：智能体技能的增长改变了智能体系统的构建、评估和部署方式。随着技能库的不断扩展，严格的评估对于确保其在现实应用中的实用性、质量和安全性变得至关重要。因此，该领域正经历从孤立的技能创建到自动化、评估驱动的技能演进的范式转变。在本文中，我们系统性地审视了基础技能创建之外的技能演进与评估的现状。我们将演进归类为四种不同的范式，涵盖执行反馈、轨迹蒸馏、压缩和强化学习，展示了每种要素如何有助于提高技能的实用性和可靠性。此外，我们还分析了六个以技能为中心的基准类别，识别了基准覆盖范围、权衡和指标丰富性方面的结构性差距，以推动技能研究。最后，我们指出了构建可泛化、高效且可验证安全的技能生态系统的开放方向。项目网址：https://github.com/Cassie07/AgentSkill_Survey

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:37

# 智能体技能评估与演化：框架与基准 来源：https://arxiv.org/html/2606.11435 Kexin Ding¹、Yang Zhou¹、Can Jin¹、Feng Tong²、Mu Zhou¹、Dimitris N. Metaxas¹ ¹罗格斯大学，²北卡罗来纳大学夏洛特分校 通讯作者：[email protected] (https://arxiv.org/html/2606.11435v1/mailto:email@domain) ###### 摘要 *智能体技能*的发展已深刻改变了智能体系统的构建、评估与部署方式。随着技能库规模持续扩大，严格的评估对于确保其在实际应用中的效用、质量和安全性变得至关重要。因此，该领域正经历一场新兴的范式转变：从孤立的技能创建转向自动化的、评估驱动的技能演化。在本综述中，我们系统性地审视了基础技能创建之外的技能演化与评估格局。我们将演化划分为四种不同的范式：执行反馈、轨迹蒸馏、压缩与强化学习，展示了每种范式如何提升技能的效用与可靠性。我们还对六类以技能为核心的基准进行了分析，指出了基准覆盖范围、权衡关系以及评估指标丰富度方面的结构性差距，以推动技能研究。最后，我们指出了构建可泛化、高效且可验证安全的技能生态系统的开放方向。项目网址为 https://github.com/Cassie07/AgentSkill_Survey 智能体技能评估与演化：框架与基准 Kexin Ding¹、Yang Zhou¹、Can Jin¹、Feng Tong²、Mu Zhou¹、Dimitris N. Metaxas¹ ¹罗格斯大学，²北卡罗来纳大学夏洛特分校 通讯作者：[email protected] (https://arxiv.org/html/2606.11435v1/mailto:email@domain) ## 1 引言 智能体技能使 LLM 智能体在推理时具备领域特定知识，使智能体能够通过多种外部工具感知环境并与之交互（Zhang et al., 2025 (https://arxiv.org/html/2606.11435#bib.bib47)）。与提示工程（Wei et al., 2022 (https://arxiv.org/html/2606.11435#bib.bib112)；Brown et al., 2020 (https://arxiv.org/html/2606.11435#bib.bib102)）不同，智能体技能编码了可复用、可移植的多步解决方案，指导智能体通过协调的决策序列处理复杂任务，从而大幅减少繁琐的人工操作。随着智能体技能规模和多样性的持续增长（Liang et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib53)；Li et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib106)），缺乏稳健的评估框架已成为技能引导的智能体部署的关键瓶颈。与此同时，多样化的技能使得手动细化不可行，而缺乏捕获真实世界反馈的演化方法进一步加剧了这一挑战（Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74)）。过时或不安全的技能可能在后续任务中传播错误，使技能评估成为诊断、维护和对齐的开放性问题。因此，有必要为智能体技能建立自动化、持续的机制，而非依赖静态流程，以确保技能跨任务可泛化，且对公众使用可验证安全。 在本综述中，我们将技能演化与评估定位为这一新兴范式的核心焦点（图 1 (https://arxiv.org/html/2606.11435#S2.F1)）。具体而言，我们引入了一个包含四种范式的技能演化策略分类（第 3 节 (https://arxiv.org/html/2606.11435#S3)）。我们深入探讨了如何设计演化策略以增强技能创建、效用和细化，同时减少人力投入。我们还对以技能为核心的基准进行了批判性分析（第 4 节 (https://arxiv.org/html/2606.11435#S4)），评估其在多模态技能、轨迹蒸馏和技能安全性方面的潜力，以实现更好的实际智能体部署。 ## 2 什么是技能？ 参见图注 图 1：我们通过比较分析和设计建议描绘了智能体技能演化策略的格局（§3）。我们通过结构差距和基准局限性提供了评估洞见（§4），并指出了用于稳健实际技能部署的开放挑战（§5）。 智能体技能是一个结构化包（Li et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib106)）：S = (C, π, T, R)，其中 C: O × G → {0,1} 是条件，将智能体观察 (O) 和目标 (G) 映射到技能的关联性；π 是执行策略，用于编码过程；T 是终止标准，指定技能执行何时完成；R 是可复用接口，指示与其他技能的组合。人工编写的技能将领域专业知识封装为机器可解读的程序化知识（Li et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib106)）。为加速这一过程，自动化技能创建使智能体能够以更少的人工书写量生成技能。例如，Skill Creator（Anthropic, 2026 (https://arxiv.org/html/2606.11435#bib.bib5)）可以自动创建完整的技能目录和测试用例，仅需最简的人工文本描述。类似地，Voyager（Wang et al., 2023 (https://arxiv.org/html/2606.11435#bib.bib110)）将技能创建为可执行代码，包括提出任务、通过环境反馈细化代码、自我验证以及更新技能库。为更好地创建可复用技能，强化学习 (RL) 被整合到训练循环中，在后续任务中复用技能所获得的奖励会反向传播以更新策略。受 Group Relative Policy Optimization (GRPO)（Shao et al., 2024 (https://arxiv.org/html/2606.11435#bib.bib93)）启发，SAGE（Wang et al., 2025 (https://arxiv.org/html/2606.11435#bib.bib92)）利用来自组任务的可复用奖励，鼓励智能体学习和创建可复用技能。ARISE（Li et al., 2026c (https://arxiv.org/html/2606.11435#bib.bib94)）保留成功的推理模式以训练智能体生成可复用技能，克服了 GRPO 将 rollout 独立处理的局限。 高效的技能使用策略包括检索、路由和管理。对于每个任务，智能体通常无法加载所有潜在技能来评估其可用性，因为时间和令牌消耗过大。为解决这一问题，(a) 检索从大型技能池中确定一小部分技能；(b) 路由在检索后高效决定应在哪个步骤执行哪个技能；(c) 管理保持技能的有序、更新和安全使用（附录 A (https://arxiv.org/html/2606.11435#A1)）。这些使用机制为下文所述的评估与演化框架提供了基础。 ## 3 技能演化 技能演化是一个持续的过程，通过从过去的成功和失败模式中学习来提升技能质量，以实现最新的能力（Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74)）。随着技能数量的持续增长，手动细化变得越来越不切实际。这一障碍促使了自动化策略的出现，这些策略利用技能执行记录，包括丰富的反馈信号和解决问题的轨迹（Ni et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib56)）。这些原始的执行信号和轨迹通常带有噪声，混合了成功步骤与无关或失败的步骤。因此，可靠的技能演化需要跨多条轨迹捕获可复用的执行模式，而非单个行为（Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74)）。此外，不断增长的技能库可能引入冲突内容，导致冗余存储、过度的令牌消耗和较差的泛化能力（Wang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib57)；Gao et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib91)；Zhang et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib58)）。为解决这些障碍，我们概述了演化策略，特别关注学习信号的来源和粒度：执行反馈作用于单步级别的信号；轨迹蒸馏作用于多轨序列级别的模式；压缩与增强作用于库级别的结构；强化学习作用于任务级别的奖励。这些范式并非互斥，但它们代表了社区中的主要设计选择。我们进一步构建并分析了当前演化范式如何与基准对齐，强调了权衡和实用指南，以推动未来研究（附录 C (https://arxiv.org/html/2606.11435#A3)）。 演化策略 | 执行反馈 | 轨迹蒸馏 | 压缩与增强 | 强化学习 --- | --- | --- | --- | --- SkillForge (Liu et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib73)) | CoEvoSkills (Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74)) | Skills-Coach (Tian et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib39)) | Ctx2Skill (Si et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib40)) AutoSkill (Yang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib54)) | SkillClaw (Ma et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib65)) | EmbodiSkill (Ju et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib67)) | SPARK (Zhou et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib116)) Trace2Skill (Ni et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib56)) | Memento-Skills (Zhou et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib52)) | XSkill (Jiang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib66)) | SkillNet (Liang et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib53)) SkillX (Wang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib57)) | SkillReducer (Gao et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib91)) | SkillFoundry (Shen et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib41)) | D2Skill (Tu et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib72)) SkillRL (Xia et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib113)) | SkillOS (Ouyang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib8)) | Skill1 (Shi et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib42)) 表 1：第 3 节 (https://arxiv.org/html/2606.11435#S3) 中技能演化策略的总结。类别用颜色编码：执行反馈、轨迹蒸馏、压缩与增强、强化学习。 ### 执行反馈 技能执行的记录可以揭示有价值的反馈信号用于技能改进，包括运行时错误、错误输出、未满足的任务规范以及执行路径。受人工重写的启发，一种直观的方法是实现一个自动化循环：执行现有技能，从执行反馈中观察失败模式，然后重写技能以防止此类失败再次发生。执行反馈可以来自明确的信号（Liu et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib73)；Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74)；Tian et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib39)；Si et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib40)；Jin et al., 2025a (https://arxiv.org/html/2606.11435#bib.bib103)；Ju et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib67)）或隐式执行信号（Yang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib54)；Ma et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib65)；Yang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib54)），两者对引导技能演化都至关重要。 技能演化的可追踪信号可以来自真实的工程活动，揭示用户意图、智能体工具调用以及具体的错误模式。这些信号对于自动检测、诊断和纠正有缺陷的技能至关重要。例如，SkillForge（Liu et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib73)）通过检测执行结果与参考行为之间的差异来创建新技能。特别地，SkillForge 生成结构化的失败记录以识别系统模式，减少了人工重写和验证的需求。为支持多轮对话，CoEvoSkills（Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74)）使智能体能够减少人机认知失调，并生成优于人工筛选技能的自演化技能。特别是在处理执行失败的技能时，它引入了一个验证器，可以提供关于根本原因分析和修改建议的直接反馈。访问丰富的环境反馈可以进一步增强技能可靠性。EmbodiSkill（Ju et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib67)）利用智能体执行反馈，通过与环境交互生成动作、观察和最终奖励的轨迹。 Skills-Coach（Tian et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib39)）不依赖实际执行反馈，而是在合成案例上执行技能以获得演化反馈。Skills-Coach 生成种子技能的多个重写版本。得分最高的重写版本作为成功信号来改进技能指令，而失败痕迹则驱动技能脚本以防止失败。类似地，Ctx2Skill（Si et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib40)）通过从参考文档中生成合成诊断问题来从反馈中学习。 即使没有明确的执行信号，用户在对话中的偏好（如偏好的语气、术语或写作惯例）对于改进技能演化仍然有价值。我们认为交互轨迹可以包含具有可复用知识的丰富信号。AutoSkill（Yang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib54)）将用户交互作为技能演化的主要信号。它不仅依赖失败纠正，还将用户偏好转化为明确的能力，以个性化智能体的行为。类似地，SkillClaw（Ma et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib65)）利用来自关键轨迹的异构用户体验，这些轨迹反映了不同用户如何与工具和工作流进行交互。 在上述执行反馈研究中，我们发现结构化的失败模式成为一个有意义的设计因素。能够很好地将失败诊断与重写生成分离开的系统（SkillForge（Liu et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib73)）、CoEvoSkills（Zhang et al., 2026a (https://arxiv.org/html/2606.11435#bib.bib74)））在跨任务结果上往往报告优于处理原始痕迹的系统（AutoSkill（Yang et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib54)）、SkillClaw（Ma et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib65)）），尽管缺乏直接对比。显然，反馈信号本质上受到执行环境多样性的限制，而非部署因素——这一结构约束值得在技能的设计和评估中予以明确关注。 ### 轨迹蒸馏 通过轨迹蒸馏进行技能演化正日益受到关注，它通过捕获任务特定的可复用模式，利用序列化记忆来改进技能。例如，SPARK（Zhou et al., 2026b (https://arxiv.org/html/2606.11435#bib.bib116)）探索使用在线轨迹验证来从可执行证据中提炼强技能。它引入了一个关键的轨迹级度量，使用任务环境证据而非未经验证的先前计划来评估技能性能。Trace2Skill（Ni et al., 2026 (https://arxiv.org/html/2606.11435#bib.bib56)）

智能体技能评估与演进：框架与基准

相似文章

SkillEvolBench：从情景经验到程序技能的进化基准测试

SkillFlow：自主智能体终身技能发现与演化基准测试

Skill-RM: 通过智能体技能统一异构评估标准

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

从原始经验到技能消费：模型生成智能体技能的系统研究

提交意见反馈