SkillRet：面向 LLM 智能体技能检索的大规模基准

arXiv cs.AI 2026/05/08 04:00 论文

llm-agents skill-retrieval benchmark arxiv fine-tuning research evaluation

摘要

本文提出了 SkillRet，这是一个用于评估 LLM 智能体技能检索的大规模基准，旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset，并证明针对特定任务的微调能显著提升检索性能。

arXiv:2605.05726v1 公告类型：新论文摘要：随着搭载大型可复用技能库的 LLM 智能体被日益广泛地部署，为用户请求选择合适的技能已成为一个关键的系统级挑战。在小型技能库中，用户或许可以通过显式命名来调用技能，但随着技能生态系统的扩展，在严格上下文和延迟预算的限制下，这一假设不再成立。尽管技能检索具有实际重要性，但目前仍缺乏充分探索，现有基准有限，且对真实技能库上的检索行为知之甚少。为弥补这一空白，我们提出了 SkillRet，即面向 LLM 智能体技能检索的大规模基准。SkillRet 包含 17,810 个公开智能体技能，通过结构化的语义标签进行组织，并采用涵盖 6 个大类和 18 个子类的两级分类法。它提供了 63,259 个训练样本和 4,997 个评估查询，且查询与技能库互不重叠，从而支持基准测试和以检索为导向的训练。在多样化的检索模型评估中，我们发现技能检索问题远未解决：现成模型在现实世界的大规模技能库上表现吃力，而先前的技能检索模型仍有巨大的提升空间。在 SkillRet 上进行任务特定微调可大幅提升性能，相较于最强先前检索模型，NDCG@10 提升了 13.1 分；相较于最强现成检索模型，提升了 16.9 分。我们的分析进一步表明，这些性能提升源于微调后的模型能够更有效地关注长且嘈杂查询中少量与技能相关的信号。这些结果确立了 SkillRet 作为未来大规模智能体系统检索研究的重要基准和基础。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:40

# 面向 LLM Agent 技能检索的大规模基准测试

来源：https://arxiv.org/html/2605.05726

Hongcheol Cho, Ryangkyung Kang$^{1\dagger}$, Youngeun Kim

ThakiCloud

$\dagger$ 同等贡献。同等贡献者按字母顺序排列。

通讯作者：[email protected]

###### 摘要

随着大型语言模型（LLM）智能体越来越多地部署具备大规模可复用技能库的系统，为用户请求选择合适的技能已成为一项关键的系统性挑战。在小规模技能库中，用户可能通过名称显式调用技能，但随着技能生态系统的扩张，在有限的上下文和延迟预算下，这一假设不再成立。尽管具有重要的实际意义，技能检索研究仍然不足，缺乏基准测试，且对真实技能库上的检索行为了解甚少。为了弥补这一差距，我们引入了 **SkillRet**，这是一个面向 LLM Agent 技能检索的大规模基准测试。**SkillRet** 包含 17,810 个公开的智能体技能，通过结构化的语义标签和涵盖 6 个大类及 18 个子类的两级分类体系进行组织。它提供了 63,259 个训练样本和 4,997 个评估查询，且技能池相互独立，从而支持基准测试和面向检索的训练。在对多种检索模型的广泛测试中，我们发现技能检索远未得到解决：现成模型在处理现实世界的大规模技能库时表现不佳，且之前的技能检索模型仍有巨大的提升空间。在 **SkillRet** 上进行任务特定的微调可显著提高性能，与最强的先前检索模型相比，NDCG@10 提升了 13.1 分，与最强的现成检索模型相比，提升了 16.9 分。我们的分析进一步表明，这些增益源于微调模型能够更好地关注长而嘈杂查询中微小的、与技能相关的信号。这些结果确立了 **SkillRet** 作为强大基准的地位，并为未来关于大规模智能体系统中检索的研究奠定了基础。我们公开发布了该基准测试（https://huggingface.co/datasets/ThakiCloud/SKILLRET）、代码（https://github.com/ThakiCloud/SKILLRET）以及模型检查点（0.6B（https://huggingface.co/ThakiCloud/SKILLRET-Embedding-0.6B）、8B（https://huggingface.co/ThakiCloud/SKILLRET-Embedding-8B））。

## 1 引言

随着 LLM 智能体能力的增强，它们越来越依赖可复用的技能（即长篇程序化模块，如提示词、脚本、工作流和执行策略）来解决复杂任务 Xu and Yan (2026); Jiang et al. (2026b); Zhou et al. (2026); Wang et al. (2023a)。在小规模设置中，用户通常可以通过名称显式调用此类技能。然而，随着智能体生态系统的扩大，这一假设变得脆弱。当系统维护一个庞大的默认可复用技能池时，将整个库暴露在上下文中或期望用户知道对于给定请求应激活哪个技能已不再实际。相反，未来的智能体系统将越来越需要一个显式的检索层，为当前任务选择一小部分相关技能，既是为了降低上下文成本，也是为了实现大规模下鲁棒的自动化技能使用 Li et al. (2025)。

MetaClaw (Xia et al. 2026)、XSkill (Jiang et al. 2026a) 和 WebXSkill (Wang et al. 2026) 等最近的智能体系统已经显示出这种转变，它们依赖推理时检索与任务相关的技能或知识来指导下游执行。这一趋势使技能检索和选择成为一个核心的系统问题。关键挑战在于，智能体能否在现实的推理约束下从大型技能库中识别出正确的技能。然而，尽管对可靠技能选择的需求日益增长，其评估却发展不足。如表 1 所示，先前的技能基准测试 Li et al. (2026b); Han et al. (2026); Li et al. (2026a) 主要关注端到端执行而非检索本身，而现有的检索基准测试要么针对工具，要么仅提供有限的评估规模。ToolRet 研究了工具检索，并表明即使在强大的信息检索（IR）模型中，在该设置下也会遇到困难 Shi et al. (2025)。SkillRouter 是与技能检索最接近的先前工作，但仅提供 75 个评估查询，并未公开发布其训练数据 Zheng et al. (2026)。这些局限性表明，需要更大规模、公开可用的基准测试，具有大量训练和评估划分，将技能检索作为一个独立问题进行隔离。

为了弥补这一差距，我们引入了 **SkillRet**，这是一个面向 LLM Agent 技能检索的大规模基准测试。**SkillRet** 基于 17,810 个公开的智能体技能构建，通过过滤管道从 22,795 个原始爬取列表中筛选而来。它提供了 63,259 个公开训练样本和 4,997 个评估样本，支持受控基准测试和面向检索的模型开发。我们进一步为语料库添加了语义标签和涵盖 6 个大类及 18 个子类的两级分类体系，支持跨领域和难度因素的细粒度分析。总而言之，**SkillRet** 捕捉到了以长上下文技能文档和不平衡技能分布为特征的真实检索环境。

我们在 **SkillRet** 上对广泛的检索和重排序模型进行了基准测试。我们的实验揭示了几个关键发现。首先，技能检索仍然具有挑战性：即使是最强的现成检索模型也仅实现了有限的性能，表明现有模型不适合从查询中检索相关技能。其次，在我们的训练数据上进行任务特定的微调可带来显著提升，使较小的微调模型能够匹配甚至超越大得多的现成模型。第三，当第一阶段检索器仍有提升空间时，重排序效果最明显，但一旦基础检索器变得强大，其边际效益就会减弱。最后，我们的分析表明，微调模型通过更好地关注嵌入在长、嘈杂且组合性查询中的少量与技能相关的句子来改善检索。这些结果确立了技能检索作为一个独立的检索问题，并将 **SkillRet** 定位为大规模智能体系统未来研究的坚实基础。

**表 1：** **SkillRet** 与相关基准测试和工作的比较。与主要评估端到端性能的先前技能基准不同，**SkillRet** 将技能检索作为一个独立问题进行隔离，并为检索模型开发提供大规模的训练/评估划分。与最接近的技能检索工作 SkillRouter 相比，**SkillRet** 提供了大得多的评估集和更大的公开训练集。† SkillRouter 报告了 37,979 条训练数据，但这些训练数据未公开释放。

| 基准测试 | 任务 | 目标 | # 评估样本 | 训练 | # 训练样本 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| ToolRet (Shi et al. 2025) | 检索 | 工具 | 7,615 | ✓ | >200K |
| SkillsBench (Li et al. 2026b) | 端到端性能 | 技能 | 86 | × | – |
| SWE-Skills-Bench (Han et al. 2026) | 端到端性能 | 技能 | 565 | × | – |
| AgentSkillOS (Li et al. 2026a) | 端到端性能 | 技能 | 30 | × | – |
| SkillRouter (Zheng et al. 2026) | 检索 | 技能 | 75 | ✓ | 37,979† |
| **SkillRet (我们)** | **检索** | **技能** | **4,997** | **✓** | **63,259** |

## 2 相关工作

### 2.1 智能体技能

最近的工作越来越多地将技能视为智能体系统的可复用抽象层。MetaClaw 提出了一种连续元学习框架，联合演化基础 LLM 策略和可复用技能库，利用失败轨迹合成新技能并在不停机的情况下改进智能体 Xia et al. (2026)。XSkill 通过两种形式的可复用知识研究了多模态智能体中的连续学习，这些知识在推理时被检索并适应当前的视觉上下文 Jiang et al. (2026a)。WebXSkill 专注于自主 Web 智能体，引入了将参数化动作程序与步骤级自然语言指导相结合的可执行技能，并在基于 URL 的图中组织以便进行上下文感知检索 Wang et al. (2026)。这些系统表明，可复用技能正成为一种实用的设计模式，推理时对技能库的访问变得越来越重要。

另一个研究方向是关于更广泛的技能生态系统及其有用性的研究。AgentSkillOS 通过能力树和基于 DAG 的多技能管道研究了生态系统规模的组织、选择和编排，评估了五个类别中的 30 个富含工件的任务 Li et al. (2026a)。SkillsBench 测量技能是否在 11 个领域的 86 个任务中提高了性能，显示出了来自策展技能的增益，但自我生成的技能没有平均收益 Li et al. (2026b)。SWE-Skills-Bench 同样评估了需求驱动的软件工程任务上的公开 SWE 技能，发现大多数技能几乎没有或没有通过率提升 Han et al. (2026)。这些工作与我们的研究互补：它们表明技能生态系统已经出现，且下游技能的有用性变化很大。然而，这些基准测试并未将技能检索质量作为一个独立问题进行隔离。在端到端技能使用设置中，失败可能源于所选技能的内在有用性、编排错误、执行失败或上下文不匹配，这使得难以将性能具体归因于检索。

### 2.2 技能检索基准测试和技能路由

一条较小但不断增长的研究线更直接地研究检索。在工具设置中，ToolRet 引入了一个包含 7.6K 检索任务和 43K 工具的基准测试，表明在传统 IR 基准测试中表现强劲的模型在工具检索中仍然遇到困难 Shi et al. (2025)。这是我们设置的一个重要先例：检索应被视为一等级的智能体瓶颈，而不是一个已解决的预处理步骤。然而，ToolRet 关注的是工具而非技能，因此无法捕捉真实技能库的长篇程序化内容、可复用提示逻辑和组合结构。SkillFlow (Li et al. 2025) 与我们的工作互补，因为它提出了一个面向智能体的多阶段管道，用于从大型社区技能库中检索和选择技能，而 **SkillRet** 将技能检索作为一个独立基准测试，具有公开的训练/评估划分和受控的基于排名的评估。

最接近的先前工作是 SkillRouter，它使用两阶段检索-重排序管道和 75 个专家验证查询的基准测试，在约 80K 候选技能上研究技能选择 Zheng et al. (2026)。一个关键发现是，完整的技能主体携带决定性路由信号，移除它会导致各种检索方法的大幅性能下降 Zheng et al. (2026)。同时，SkillRouter 主要是一篇关于路由模型的论文，而不是一篇关于基准测试的论文。其核心贡献在于如何设计和训练可扩展的路由器，而我们的目标是提供一个更广泛的基准测试，用于比较不同模型和设置下的检索质量。

## 3 SkillRet 基准测试

**SkillRet** 是一个大规模基准测试，用于从精心策划的公开技能库中检索相关的智能体技能。从 22,795 个社区贡献的技能开始，我们应用质量过滤和去重以获得 17,810 个技能（第 3.1 节）。然后，我们生成反映现实智能体调用模式的自然语言查询，其中每个查询需要库中的一个或多个技能（第 3.2 节）。最后，我们通过自动检查、基于 LLM 的审查和人类专家验证来过滤生成的查询-技能对，产生无技能重叠的独立训练和评估划分。图 1 说明了完整的数据构建管道。

### 3.1 数据收集和质量过滤

##### 原始语料库。
我们从 `claude-plugins.dev`$^1$ 爬取的 22,795 个智能体技能快照开始。这是一个由社区维护的开源市场，自动索引 GitHub 上的所有公开智能体技能。每条记录包含技能标识符、名称、自然语言描述、完整技能主体（`SKILL.md`）以及市场元数据，包括 GitHub 星标数、平台特定安装数、作者、命名空间和许可证。

##### 五阶段过滤。
我们应用一个管道来去除噪音和冗余，分为两个阶段：*内容资格*（步骤 1-3）确保每个技能满足基本的质量和法律要求，*去重*（步骤 4-5）去除冗余条目。
(1) 描述恢复和修剪：缺少或存根描述（<<10 字符）的列表通过 YAML 前导元数据解析或第一段提取进行恢复；无法恢复的条目被移除（3 个技能）。
(2) 语言过滤：移除主体包含超过 3% 非拉丁字符的技能，仅保留英语技能（1,319 个技能）。
(3) 许可证过滤：排除声明许可证非 MIT 或 Apache-2.0 的技能（255 个技能）；通过规范化内容哈希识别这些条目的未声明许可证的近重复项，并同样移除（共 1,249 个）。
(4) 内容去重：规范化每个技能主体（剥离 YAML、小写、移除非字母数字）并用 SHA-256 哈希；在重复项中，我们保留星标和安装数最高的条目（移除 1,547 个技能）。
(5) 搜索目标去重：共享相同规范化名称-描述对的技能在连接哈希上去重，再次保留最流行的条目（移除 867 个技能）。

过滤后，剩余 17,810 个技能（占原始语料库的 78.1%），形成基准测试的文档语料库。每步的损耗情况详见附录 B.1（表 7）。这 17,810 个技能被划分为包含 10,123 个技能的训练池和包含 6,660 个技能的保留评估池，两者之间无重叠。

### 3.2 技能-查询对生成

为了构建现实的评估集，我们通过自指令风格 (self-instruct-style) (Wang et al. 2023b) 管道生成自然语言用户查询，其中提示大型语言模型产生包含库中一个或多个技能的查询。

##### 种子示例。
为了鼓励词汇和结构的多样性，我们为每次生成调用提供一组随机子集...

---
$^1$ https://claude-plugins.dev/

SkillRet：面向 LLM 智能体技能检索的大规模基准

相似文章

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

SkillFlow：自主智能体终身技能发现与演化基准测试

SkillOS：面向自进化智能体的技能策展学习

@omarsar0: 这篇论文很好地结合了 Skills 与 RAG 的优势。大多数 RAG 系统会在每次查询时都进行检索，无论模型是否需要……

勿检索，需导航：将企业知识蒸馏为可导航的智能体技能，用于QA和RAG

提交意见反馈