SkillJuror: 衡量技能组织如何改变运行时行为
摘要
本文介绍了SkillJuror,一个评估Agent技能的不同组织范式如何影响LLM Agent运行时行为的框架。对82个任务的研究表明,与扁平基线相比,渐进式披露(Progressive Disclosure)增加了资源多样性和采纳事件,且结果改善依赖于任务。
arXiv:2606.11543v1 公告类型:新
摘要:Agent技能在推理时为大语言模型(LLM) Agent提供程序性知识,但当前的基准测试很少区分技能的内容与其组织方式。我们通过渐进式披露(Progressive Disclosure)研究这一区别,其中简洁的根文件按需引导Agent访问支持资源,并将其与规范化的扁平基线进行比较。我们提出了SkillJuror,一个通过在保持任务知识固定的情况下,使用语义控制变体、匹配多轮评估和轨迹证据来评估技能编写范式的框架。在82个任务的SkillsBench研究中,渐进式披露改变了聚合结果之前的运行时行为:每条轨迹中访问的不同技能资源从1.18增加到3.85,有效采纳事件从1.33增加到3.92。与规范化的扁平基线相比,它在410个匹配试验中还产生了17个额外的验证器通过试验(+4.1%)。收益依赖于任务。当支持资源指导实现、检查或修复时,渐进式披露有帮助,但当成功取决于精确的输出约定、数值阈值或长工件生成流水线时,效果较弱。这些结果表明,技能组织不仅仅是呈现方式:它可以改变Agent搜索和应用程序性知识的方式,而结果增益取决于暴露的资源是否对任务可操作。代码可在 https://github.com/zhiyuchen-ai/skill-juror 获取。
查看缓存全文
缓存时间: 2026/06/11 13:47
# SkillJuror:衡量智能体技能组织方式如何改变运行时行为 来源:https://arxiv.org/html/2606.11543 陈智宇1,2,†,郭子涵2,3,†,黄博2,4,卢秉蔚4,林江浩4∗,袁建洲2∗,张伟男2,4∗ 1 同济大学 2 上海创新研究院 3 中山大学 4 上海交通大学 † 同等贡献。∗ 通讯作者。 [email protected], [email protected], [email protected] ###### 摘要 Agent Skills(智能体技能)在推理阶段为大型语言模型(LLM)智能体提供过程性知识,但当前的基准测试很少区分技能的内容与组织方式。我们通过渐进式信息呈现(Progressive Disclosure)来研究这一区别——即一个简洁的根文件按需引导智能体访问辅助资源——并将其与规范化的扁平基线进行对比。我们提出了 SkillJuror,一个通过语义可控变体、匹配多次试验及轨迹证据来评估技能编写范式的框架,同时保持任务知识不变。在包含82个任务的 SkillsBench 研究中,渐进式信息呈现改变了聚合结果之前的运行时行为:每条轨迹中访问的不同技能资源从1.18增加到3.85,有效采纳事件从1.33增加到3.92。相较于规范化扁平基线,在410次匹配试验中它还额外获得了17次通过验证的试验(+4.1%)。其收益取决于具体任务。当辅助资源用于指导实现、检查或修复时,渐进式信息呈现有帮助;但当成功依赖于精确的输出约定、数值阈值或较长的工件生成流水线时,其效果较弱。这些结果表明,技能组织不仅仅是呈现方式:它可以改变智能体搜索和应用过程性知识的方式,而结果收益则取决于暴露的资源是否对任务可操作。代码见 https://github.com/zhiyuchen-ai/skill-juror。 关键词:智能体技能、技能评估、运行时分析、沙盒工程 ## 1 引言 Agent Skills 正成为一种在推理阶段为 LLM 智能体提供特定任务过程性知识的实用机制。技能是一个自包含、可导航的运行时工件,而非静态提示。智能体读取根文件 SKILL.md,打开辅助参考资料,检查模板,并可能在处理任务时调用辅助脚本,正如规范所描述的那样。由于智能体自主选择打开哪些资源以及调用哪些辅助程序,因此技能组织方式决定了运行时轨迹,而不仅仅是格式化文档。 一旦采用 Agent Skills,一个立即出现的实际问题就是:应该如何编写它们?已发布的风格指南倡导诸如渐进式信息呈现、模块化组织和脚本化等范式。尽管这些建议很直观,但严格的实证验证仍然难以实现。现有证据主要关注采用情况,即比较技能是否存在、缺失或自生成,而不是探讨相同知识在技能内部是如何组织的。此外,自然的技能集合不可避免地会混淆核心知识覆盖范围、个人作者风格以及结构组织。因此,一个表现更好的技能,其优势可能源于更优的组织方式、更丰富的任务知识,或两者兼有。 这种归因差距使得在缺乏受控、任务知识匹配的变体的情况下,难以评估编写建议。解决这一挑战至关重要,因为一个与知识无关的组织范式,如果能在不同领域都有效,则表明技能布局可以独立于任务特定内容覆盖,系统地重塑智能体的运行时行为。这将使组织本身成为一个可控机制,用于引导智能体在执行过程中如何检索、应用和复用过程性知识。将组织与知识分离,使我们能够将结构布局视为一个实验上独立的运行时干预,为受控的技能评估建立可扩展的基础。 本文将技能组织隔离为运行时的一个受控干预。我们的重点是渐进式信息呈现,即保持根文件简洁并按需指导智能体访问辅助资源的做法。在保持过程性知识不变的情况下,这种对比考察了将扁平的、自包含的指令重新组织成按需资源包是否会改变智能体的行为方式。因此,渐进式信息呈现是一种行为干预,其结果影响可能因任务而异。较短的根文件可以减少进入时的认知负荷,并鼓励有针对性地访问参考资料,而其益处则取决于智能体是否访问并应用了包含任务关键知识的辅助资源。 我们引入了 SkillJuror,这是一个评估框架,通过排除知识覆盖面和作者风格等干扰变量,来隔离技能组织的行为和结果影响。为了将组织与任务知识分离,SkillJuror 从一个共享源构建受控的、语义匹配的技能变体,同时保留相同的知识,例如操作义务、约束和辅助程序。通过在相同、可重复的运行时环境中执行这些知识匹配的配对,该框架将宏观的通过/失败结果与细粒度的轨迹证据(例如资源访问广度和有效资源采纳率(ERU))关联起来。这种双层测量使我们能够系统地审查结构布局的改变是否以及如何修改智能体的运行时推理和执行路径。 参见图注 图1:从混杂的技能比较到受控的运行时证据。自然的技能比较可能同时变化任务知识、工件组织和运行时行为,使得结果差异难以归因。SkillJuror 则构建知识匹配的变体,在匹配的运行时条件下仅变化组织方式,然后将验证器结果与过程证据(成本、轨迹形状和资源采纳率)配对。 本文做出三项贡献: 1. **首次对 Agent Skill 组织进行受控评估。**据我们所知,我们是首个将技能组织作为实验上独立的运行时变量进行处理,比较任务知识匹配的变体而非自然不同的技能,从而将内容与结构分离。 2. **SkillJuror:一个用于受控技能变体评估的框架。**我们引入了一个经过审计的构建和匹配运行时评估流程,在变化组织方式的同时保留任务知识,将结果差异与轨迹层面的证据联系起来,并支持技能编写范式的受控比较。 3. **组织方式在结果之前改变行为的实证证据。**我们进行了一项包含82个任务的渐进式信息呈现研究,发现资源访问和有效采纳率发生了巨大变化(每条轨迹的事件从1.33增加到3.92)。虽然这些行为变化带来了适度的聚合通过率提升(+4.1%),但最终的结果影响仍然高度依赖于具体任务。 ## 2 相关工作 ### 2.1 作为运行时过程性工件的 Agent Skills Agent Skills 将可复用的过程性知识封装为面向智能体的工件,而非一次性提示。Agent Skills 规范将技能定义为一个以 SKILL.md 文件为中心、包含可选脚本、参考资料、资产和路由元数据的目录。Anthropic 的指南进一步将技能围绕渐进式信息呈现进行构建:元数据支持选择,根文件提供入口点,辅助资源按需加载。最近的程序记忆工作同样将技能视为具有激活和执行条件的运行时单元,而非被动检索的文本。 这种观点使得技能编写成为一个组织问题。相同的任务知识可以暴露为扁平指令包,也可以暴露为简洁的根文件加辅助文件。现有规范将此类选择描述为最佳实践,但并未在受控的任务语义下实证检验组织本身是否会改变下游行为。 ### 2.2 从技能采用基准测试到受控技能变体比较 最相关的工作评估提供技能是否有助于智能体解决任务。SkillsBench 在可验证任务上比较了无技能、精心策划技能和自生成技能的条件,表明精心策划的技能可以提高通过率,但效果存在异质性,且自生成的技能可能无效甚至有害。SWE-Skills-Bench 将这一采用问题扩展到基于仓库的软件工程任务,而对更大技能库的研究表明,失败可能源于轨迹层面的技能选择错误,而不仅仅是上下文开销。 其他基准测试研究技能如何被学习、生成或验证。SkillLearnBench 评估持续技能学习方法;SkillGenBench 评估从仓库或文档中提取可执行技能的流程;SkillGen 则从成功和失败的轨迹中合成可审计的技能。这些工作拓宽了技能的来源,但其分析单位仍然是采用、获取或生成质量。SkillJuror 则比较同一任务技能的不同变体,同时保持任务范围、辅助程序可用性、工作流义务和输出契约固定,将评估粒度从技能可用性转移到受控的技能变体比较。 ### 2.3 轨迹与资源感知的智能体评估 智能体评估已日益超越最终任务成功。以结果为中心的基准测试和调查提供了可扩展的通过率或奖励信号,但它们常常隐藏智能体成功或失败的原因。轨迹感知的基准测试通过评估中间行为,包括工具使用诊断、推理轨迹和步骤级流程质量,解决了这一差距。成本感知的评估进一步主张应将成功与资源消耗一起解释。为了恰当地隔离这些行为因素,当代的沙盒工程作为一个统一的运行时层,以消除不受控的环境变化,使得 SkillJuror 能够严格保持执行基座不变以进行受控归因。 在这个受控框架内,SkillJuror 使用轨迹证据来补充验证器结果,展示改变技能布局是否改变运行时资源访问和采纳。为了评估这些轨迹中细微的资源使用行为,SkillJuror 采用了“LLM 作为评判者”的方法。这一选择是基于在捕捉有效资源采纳时对语义判断的需求,使我们能够利用 LLM 辅助的标签作为有价值的流程证据,而这是纯粹的程序化指标所遗漏的。 ### 2.4 面向智能体工件的约束优化 相关工作线自动改进面向智能体的工件。提示敏感性工作表明,即使是保持意义不变的格式选择也能改变模型行为,而提示优化则在指令、示例或 LM 程序组件上进行搜索以最大化验证性能。技能层级的优化类似地使用回滚反馈和保留验证来编辑技能文档。工具接口和程序记忆系统改进了智能体调用 API 或积累可复用行为的方式。 这些方法搜索更好的工件或从经验中积累新行为。SkillJuror 不同地使用转换,为评估构建受控的反事实。这种转换旨在隔离相同的任务知识在指定编写范式下组织时是否表现不同。在此范式约束的设置中,运行时差异可以被解释为组织方式的影响,而不是无约束的工件优化。 ## 3 方法 ### 3.1 评估问题 SkillJuror 评估改变技能组织是否会在保持任务知识不变的情况下改变智能体行为。令 $\mathcal{T}$ 表示任务集,其中每个任务 $T$ 包含一个指令、一个初始环境和一个验证器。对于每个任务 $T$ 和运行时条件 $c$,$\mathcal{B}_{T,c}$ 表示暴露给智能体的技能包。一个包可能包含元数据、根文件 SKILL.md、可执行辅助程序以及不可执行的支持材料。受控比较仅使用那些通过相同构建协议并被接受为保持任务语义的包。在主要运行中,主要的编写范式对比是规范化扁平基线(Baseline)与渐进式信息呈现(PD)变体。 每个试验 $r_{T,c,j}$ 是任务 $T$ 在条件 $c$ 下的独立执行,重复试验形成集合 $\mathcal{R}_{T,c}$。对于每个评估维度 $d$(例如结果、效率、范式实现或路由质量),SkillJuror 计算一个任务级摘要 $A_d(T,c)$,而不是将所有证据合并为一个分数。主要的任务内渐进式信息呈现对比是 $\Delta_d(T) = A_d(T, \mathrm{PD}) - A_d(T, \mathrm{Base})$,基准测试和组的级结果汇总这些任务级比较。 #### 3.1.1 整体流程 SkillJuror 遵循图2中的三阶段流程。输入一个源技能包和一个目标编写范式,它在知识保持约束下重写该技能,使得被接受的变体主要在组织方式而非知识内容上存在差异。然后,它执行每个任务-条件对,进行重复、匹配的试验,并将产生的工件映射到结果、效率、范式实现和路由质量四个维度的摘要中。 参见图注 图2:SkillJuror 方法流程概览。任务、源技能包和目标编写范式在知识保持检查下被转换为被接受的受控技能变体。被接受的变体在固定运行时设置下执行,并映射到四个分析维度:结果、效率、范式实现和路由质量。失败的构建候选者会返回到修订阶段,之后才进入运行时评估。 ### 3.2 受控技能变体比较 直接评估原始技能集不可避免地会将其结构组织与不同的作者风格、内容覆盖范围和隐式辅助程序实现相混淆。为了干净地将组织隔离为一个独立的运行时干预,SkillJuror 将源工件转换成一个语义匹配的对:一个扁平基线(Baseline)和一个结构重组的渐进式信息呈现(PD)变体,如图3中的示例所示,以提供对其具体类型的直观理解。 参考 Anthropic 的工业级 Agent Skill 指导,PD 范式通过提供一个
相似文章
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
Skill-RM: 通过智能体技能统一异构评估标准
Skill-RM 提出了一种统一的奖励建模框架,将奖励计算视为结构化的智能体任务,实现了动态证据聚合和跨多种应用的一致评估,优于传统的评判基线。
Formal Skill: 面向高效精准LLM智能体的可编程运行时技能
本文介绍了Formal Skill,这是一种面向LLM智能体的运行时原生抽象,它将可重用流程编码为可执行状态机,配有JSON元数据、Python执行器和钩子控制的逻辑。还介绍了一个名为FairyClaw的开源实现,在Harness-Bench上展示了具有竞争力的性能,且减少了token使用量。
LLM智能体系统中技能的规模化定律
本文识别了LLM智能体系统中技能库的两个耦合规模化定律:路由准确率随库大小呈对数衰减,执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证,且定律指导的优化显著提升了性能。