技能组:面向智能体技能库的组结构化技能检索
摘要
本文提出了 Group of Skills (GoSkills),这是一种检索方法,通过将原子技能组织为带有角色标签的执行上下文,从而在有限的上下文预算内提升智能体的性能。
arXiv:2605.06978v1 公告类型:新发布
摘要:技能增强型智能体越来越依赖于大型可复用技能库,但检索相关技能并不等同于提供可用的上下文。现有方法通常返回原子技能或感知依赖关系的技能包,其内部角色隐含未显,导致智能体需要自行推断执行的入口点、支持技能、可见需求以及避免失败的指导。我们引入了 Group of Skills (GoSkills),这是一种推理阶段的组结构化检索方法,它将面向智能体的检索对象从扁平的技能列表转变为紧凑的、带有角色标签的执行上下文。GoSkills 基于类型化技能图构建以锚点为中心的技能组,通过组图扩展支持组,将选定的组计划压缩为一组有界的原子技能有效载荷,并呈现包含 Start(起始)、Support(支持)、Check(检查)和 Avoid(避免)字段的固定执行契约,且无需改变下游智能体、技能有效载荷或执行环境。在 SkillsBench 和 ALFWorld 上的实验表明,GoSkills 在较小的技能预算下保持了可见需求的覆盖率,优于扁平式技能访问基线,并且通常能提升奖励及智能体自身的运行时间,相较于结构化检索参考方法表现更佳。
查看缓存全文
缓存时间: 2026/05/11 06:41
# 技能组:用于智能体技能库的群组结构化技能检索
来源: https://arxiv.org/html/2605.06978
Kun Zeng♣\\clubsuit, Yu Huo♠\\spadesuit\footnotemark[1], Siyu Zhang♡\\heartsuit, Zi Ye♣\\clubsuit, Yuecheng Zhuo♢\\diamondsuit, Haoyue Liu♠\\spadesuit, Yuquan Lu♣\\clubsuit, Junhao Wen♣\\clubsuit, Xiaoying Tang♠\\spadesuit
♠\\spadesuit 香港中文大学(深圳)理工部
♣\\clubsuit 中山大学
♡\\heartsuit 加州大学圣地亚哥分校
♢\\diamondsuit 太原理工大学
###### 摘要
增强型智能体日益依赖大型可复用技能库,但检索相关技能并不等同于提供可用的上下文。现有方法通常返回原子技能或依赖感知型捆绑包,但其内部角色仍然隐含,导致智能体必须自行推断执行入口点、支持技能、可见要求以及避免失败的指导。我们提出了**Group of Skills (GoSkills)**,这是一种推理时的群组结构化检索方法,它将面向智能体的检索对象从扁平的技能列表转变为紧凑的、带有角色标签的执行上下文。GoSkills 基于类型化的技能图谱构建以锚点为中心的技能组,通过群组图谱扩展支持组,将选定的群组计划瓶颈化处理为有限的一组原子技能负载,并渲染出包含 Start、Support、Check 和 Avoid 字段的固定执行契约,而无需更改下游智能体、技能负载或执行环境。在 SkillsBench 和 ALFWorld 上的实验表明,GoSkills 在较小的技能预算下保留了可见要求的覆盖度,优于扁平式技能访问基线,并且相对于结构化检索参考,通常能改善奖励和仅智能体运行时间。代码可在 https://anonymous.4open.science/r/Group-of-Skills-E861 获取。
> **图 1:** 从个体技能检索到群组结构化检索的演变。原始技能依赖全库提示;向量技能检索前 k 个语义相似的技能;技能图谱执行图谱结构化节点检索并水合依赖感知型技能捆绑包;而**技能组**在扩展为群组计划之前,先对以锚点为中心的技能组进行评分。
## 1 引言
增强型 LLM 智能体日益依赖外部技能库:这些库包含可复用的代码片段、过程模板、工具指令、检查器以及任务特定的惯例,数量众多,无法一次性放入提示中 (Jiang et al., 2026; Wang et al., 2026; Han et al., 2025)。随着这些库的增长,瓶颈已从智能体能否访问技能转移到如何在有限的上下文预算下组织检索到的技能。全库提示能保持召回率但成本高昂;扁平语义检索成本较低但可能遗漏功能上必需的技能;基于图谱的检索通过建模技能间的关系来提高召回率 (Li et al., 2026a; Xia et al., 2026)。然而,即使检索到相关的捆绑包,下游智能体仍需自行推断执行入口点、支持技能、可见要求以及避免失败的指导。图 1 总结了从个体技能和已水合捆绑包向角色感知型技能组的这一演进过程。
这引发了一个不同的问题:技能检索器应向智能体暴露什么单元?现有接口通常决定包含哪些原子技能或已水合捆绑包,而它们之间面向智能体的角色则保持隐含 (Que et al., 2024; Shi et al., 2025)。在对验证器敏感的编码和交互任务中,这种缺失的组织结构与召回率同样重要:设置工具可能需要先于检查器执行,解析器仅作为格式化程序的支持才有用,而在上下文压缩后,输出格式或公开测试等可见要求必须保持明确 (Hendrycks et al., 2021; Gen et al., 2023; Kang et al., 2025)。我们仅将“可见要求”用于执行前可用的信息,排除隐藏测试、评估器内部机制和先前的失败轨迹。
我们介绍了**Group of Skills (GoSkills)**,这是一种用于智能体技能库的推理时群组级检索和上下文化方法。其核心思想是将面向智能体的检索对象从原子技能的扁平列表转变为紧凑的、带有角色标签的执行上下文。有用的群组并非任意的语义簇:它是以锚点为中心的局部模式,其支持成员添加了互补角色、工件覆盖、可见检查或避免失败的线索。离线状态下,GoSkills 从类型化的技能邻域构建此类有界群组,并通过群组图谱链接相关群组。在推理时,它检索一个锚点群组,扩展支持群组,将选定的群组计划瓶颈化为少量原子技能负载,并渲染出固定的执行契约。由于下游智能体、技能负载和执行环境保持不变,我们将干预隔离在检索时的上下文组织,而非智能体训练、工具执行或环境修改。
我们在 SkillsBench (Li et al., 2026c) 上评估了 GoSkills,该基准测试技术技能选择和可见要求覆盖度;以及在 ALFWorld (Shridhar et al., 2021) 上评估,该基准测试多轮交互决策。这种组合使我们能够测试群组结构化上下文是否有助于在对验证器敏感的技术任务和受限技能预算下的更广泛下游执行。
我们的贡献如下:
- 我们为智能体技能库制定了**群组结构化技能检索**:检索选择以锚点为中心的技能组并在上下文预算下扩展它们,而不是暴露孤立技能或事后捆绑包。
- 我们提出了 GoSkills,一种确定性的推理时方法,将技能上下文构建分解为锚点选择、支持扩展和负载暴露。这种分解通过将生成的群组计划渲染为具有可见要求覆盖债务的执行契约,使检索到的技能可直接被使用。
- 我们在 SkillsBench 和 ALFWorld 上评估了 GoSkills。结果表明,它保留了可见要求的覆盖度,优于扁平式技能访问基线,并且相对于结构化检索参考,通常能改善奖励和仅智能体运行时间。
## 2 相关工作
#### 工具和技能检索
工具增强型语言模型、API 检索系统和工具使用基准表明,外部工具可以扩展智能体能力,而大型工具或技能集合使得检索成为必要 (Schick et al., 2023; Mialon et al., 2023; Patel et al., 2024; Qin et al., 2024; Shi et al., 2025; Huo et al., 2026; Yao et al., 2023; Zhuang et al., 2023; Li et al., 2023)。先前的技能库和基准强调在不同智能体任务和库设置中打包、发现和评估可复用技能 (Wang et al., 2023; Zhang et al., 2026; Li et al., 2026c; Lianget al., 2026; Li et al., 2026b)。然而,检索相关技能并不等同于提供可用上下文:检索到的捆绑包可能仍然使执行入口点、支持角色、可见约束和避免失败的指导保持隐含。我们的工作针对这一接口层:在找到相关技能后,决定如何将其暴露给智能体。
#### 结构化检索
图谱结构化检索已在文档、记忆和工具访问中得到研究,其中关系帮助检索超越独立的最近邻匹配 (Edge et al., 2024; Gutierrez et al., 2024; Liu et al., 2024b, a)。在技能设置中,此类结构可以恢复可能不具备词法显著性的先决条件、设置工具、预处理器和格式化器。GoSkills 基于这种结构化观点,但将决策单元从个体技能转移到小型角色感知型群组,然后在为智能体瓶颈化最终负载之前,将锚点群组扩展为支持群组。
#### 并发工作
并发工作在技能使用的不同阶段使用结构。技能图谱通过图谱构建、播种、扩散、重排和水合检索依赖感知型执行捆绑包 (Li et al., 2026a),而 GRASP 研究结构化技能组合和运行时修复 (Xia et al., 2026)。相比之下,GoSkills 在执行前使用结构:它执行群组级检索和扩展,渲染带角色标签的上下文,并保持下游执行循环不变。
## 3 方法论
Group of Skills (GoSkills) 是一种用于技能增强型编码智能体的推理时群组级检索和上下文化方法。其目标是将面向智能体的检索对象从原子技能的扁平列表转变为紧凑的、带有角色标签的执行上下文。与那些在排名或水合原子技能后停止的方法不同,GoSkills 仅将原子检索作为激活群组级检索单元的证据。如图 2 所示,GoSkills 首先离线构建可复用的技能组。在推理时,它检索一个锚点群组,用支持群组扩展它,将选定的群组瓶颈化为有界的原子技能负载集,并将它们渲染为执行契约。因此,任何下游行为的变化都源于检索到的技能如何被组织和暴露,而非改变智能体、技能实现或环境。
我们区分四种对象。**群组 (group)** 是以主导技能为中心的离线可复用局部检索单元。**群组计划 (group plan)** $\mathcal{P}(q)$ 是为查询选择的一个有序锚点-支持结构。$B(q)$ 是呈现给智能体的有预算限制的原子技能负载集。$D(q,B)$ 是任何未覆盖的可见要求债务,$C(q)$ 是从 $(\mathcal{P}, B, D)$ 渲染出的确定性契约。GoSkills 的贡献在于群组级检索、扩展、瓶颈化和渲染策略。
> **图 2:** GoSkills 概述。离线阶段从技能库构建技能图谱,提取以锚点为中心的技能组,并存储可复用的群组模板。在推理时,GoSkills 分解任务查询,检索和评分候选群组,选择锚点群组,扩展支持群组,将选定的群组计划瓶颈化为有界的原子技能负载集,并为下游智能体渲染紧凑的带角色标签的执行契约。
### 3.1 离线:技能组与群组图谱
令 $\mathcal{S}=\{s_1, ..., s_n\}$ 为原子技能库。每个技能 $s$ 具有一个已水合的负载和一个从其名称、元数据、标签和文本中提取的标准化方面集 $F_s$。我们假设一个类型化的技能图谱 $G_{\mathcal{S}}=(\mathcal{S}, E, w, \phi)$,其中边编码依赖、工作流、语义、工件或替代关系。
离线状态下,GoSkills 构建一个小规模以锚点为中心的群组池 $\mathcal{G}$。每个群组表示为 $g=\langle s_g^{\text{lead}}, M_g, R_g, F_g^+, F_g^{\text{opt}}, F_g^-, A_g, V_g, T_g, \pi_g \rangle$,其中 $s_g^{\text{lead}}$ 是主导技能,$M_g$ 是至多两个支持成员,$R_g$ 分配成员角色,$F_g^+$, $F_g^{\text{opt}}$, 和 $F_g^-$ 编码必需、可选和负面适用性方面,$A_g$ 和 $V_g$ 存储工件和可见要求线索,$T_g$ 记录局部拓扑,$\pi_g$ 是固定的群组先验。群组不是一个可执行的隐藏程序;它是一个有界的角色模板,其成员随后可以在提示预算下被扩展、修剪和渲染。
GoSkills 还构建了一个类型化的群组图谱 $\mathcal{H}=(\mathcal{G}, E_{\mathcal{G}}, \rho_{\mathcal{G}}, \omega)$,其中 $\rho_{\mathcal{G}}$ 将每个群组边标记为支持、工件、可见检查、回退或不兼容证据,$\omega$ 分配边权重。在在线扩展期间,GoSkills 仅遵循正非不兼容边:
$$ \mathcal{N}_{\mathcal{H}}^{+}(\mathcal{P}, q) = \left\{ g' \notin \mathcal{P}_{\text{set}} : \exists g \in \mathcal{P}_{\text{set}}, (g, g') \in E_{\mathcal{G}}, \rho_{\mathcal{G}}(g, g') \neq \text{incompat}, \omega(g, g') > 0 \right\} $$
该图谱将原子技能关系提升为可复用的群组级关系。GoSkills 无需在推理时从原子图谱中反复重新发现支持技能,而是可以从锚点群组扩展到已编码角色、工件和可见要求结构的附近支持群组。通过这种方式,群组图谱将低级技能连通性转化为用于面向智能体上下文组织的可复用检索基底。构建细节见附录 B.2。
### 3.2 在线:群组检索与上下文化暴露
给定查询 $q$,GoSkills 产生 $\Omega(q) = (\mathcal{P}(q), B(q), D(q,B), C(q))$。群组计划是一个有序的锚点-支持对象:
$$ \mathcal{P}(q) = \langle g_a(q), \mathcal{P}_{\text{sup}}(q) \rangle $$
$$ \mathcal{P}_{\text{set}}(q) = \{g_a(q)\} \cup \mathcal{P}_{\text{sup}}(q) $$
$B(q) \subseteq \mathcal{S}$ 是呈现的原子技能集,$D(q,B)$ 是剩余覆盖债务,$C(q)$ 是渲染的执行契约。该计划受上下文预算 $\tau$ 约束;在我们的实现中,负载数量是主要预算,字符级估计作为守护。
#### 查询模式
查询被映射到确定性模式 $\psi(q) = \langle F_{\text{core}}, F_{\text{tech}}, F_{\text{op}}, F_{\text{artifact}}, F_{\text{constraint}}, F_{\text{failure}}, F_{\text{check}} \rangle$。相似文章
SkillRet:面向 LLM 智能体技能检索的大规模基准
本文提出了 SkillRet,这是一个用于评估 LLM 智能体技能检索的大规模基准,旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset,并证明针对特定任务的微调能显著提升检索性能。
SkillGraph:通过动态演进的技能图增强智能体的强化学习
SkillGraph 是一个框架,将可复用技能表示为有向图中的节点,使大型语言模型智能体能够通过结构化的技能检索和持续演进,更有效地处理组合任务。
SkillGen:经过验证的推理时代理技能合成
本文介绍了 SkillGen,这是一个多智能体框架,通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型(LLM)代理技能。该方法确保技能可审计,并通过实证验证其对代理性能具有净正面影响。
基于状态感知动态检索的Web智能体在线技能学习
本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。
COLLEAGUE.SKILL:通过专家知识蒸馏实现自动化AI技能生成
本文介绍COLLEAGUE.SKILL,一个开源系统,能够从异构轨迹中自动提炼基于人的AI技能,形成可检查、可纠正、可移植的技能包,使LLM代理能够携带有限的人类专业知识和交互风格表征。