SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用

arXiv cs.AI 论文

摘要

本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。

arXiv:2605.08386v1 发布类型:新论文 摘要:技能库已成为大模型智能体跨任务复用程序化经验的一种实用方式。然而,现有系统通常将技能视为扁平的、单一分辨率的提示块。这导致了相关性与成本之间的紧张关系:注入粗粒度的技能可能会引入无关或误导性的上下文,而重写整个技能则成本高昂且往往不必要。我们提出了 SkillLens,这是一种分层技能演化框架,它将技能组织成由策略、战术、程序和基本单元组成的四层图,并以混合粒度检索它们。给定一个任务,SkillLens 首先检索语义相关的技能种子,通过技能图上的度数修正随机游走进行扩展,然后使用验证器决定每个访问到的单元是应被接受、分解、重写还是跳过。这使得智能体能够直接复用兼容的子技能,同时仅针对局部不匹配的部分进行适配。为了随着时间推移改进系统,SkillLens 进一步细化多粒度技能和验证器,以提升其路由决策能力。我们提供了理论分析,表明在稀疏不匹配假设下,混合粒度适配产生的成本呈次线性增长,且演化更新规则会单调改善验证目标,直到达到局部最优。在 MuLocbench 和 ALFWorld 数据集上,SkillLens consistently 优于基于技能的强基线模型,在 bug 定位任务中实现了高达 6.31 个百分点的 Acc@1 提升,并将智能体的成功率从 45.00% 提高至 51.31%。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:11

# SkillLens:面向成本高效 LLM Agent 的自适应多粒度技能复用
来源:https://arxiv.org/abs/2605.08386
查看 PDF (https://arxiv.org/pdf/2605.08386)

> 摘要:技能库已成为 LLM Agent 跨任务复用程序性经验的实用方式。然而,现有系统通常将技能视为扁平的、单一分辨率的提示块。这导致了相关性与成本之间的张力:注入粗粒度技能可能引入不相关或误导性的上下文,而重写整个技能则成本高昂且通常没有必要。我们提出了 SkillLens,这是一种层次化的技能演化框架,将技能组织为包含策略、战术、程序和原语的四层图,并以混合粒度检索它们。给定一个任务,SkillLens 首先检索语义相关的技能种子,通过技能图上的度校正随机游走进行扩展,然后使用验证器决定每个访问的单元应被接受、分解、重写还是跳过。这使得 Agent 能够直接复用以兼容的子技能,同时仅对局部不匹配的部分进行适配。为了随时间推移改善系统性能,SkillLens 进一步细化多粒度技能和验证器,以优化其路由决策。我们提供了理论分析,表明在稀疏不匹配假设下,混合粒度适配产生的成本呈次线性增长,且演化更新规则单调改进验证目标直至达到局部最优。在 MuLocbench 和 ALFWorld 基准测试中,SkillLens 始终优于强大的基于技能的方法,在 Bug 定位方面实现了高达 6.31 个百分点的 Acc@1 提升,并将 Agent 成功率从 45.00% 提升至 51.31%。

## 提交历史

来自:Ziyang Yu \[查看邮箱 (https://arxiv.org/show-email/cef65bae/2605.08386)\] **\[v1\]** 2026年5月8日 周五, 18:48:04 UTC \(93 KB\)

相似文章

SkillRet:面向 LLM 智能体技能检索的大规模基准

arXiv cs.AI

本文提出了 SkillRet,这是一个用于评估 LLM 智能体技能检索的大规模基准,旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset,并证明针对特定任务的微调能显著提升检索性能。

SkillGen:经过验证的推理时代理技能合成

arXiv cs.LG

本文介绍了 SkillGen,这是一个多智能体框架,通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型(LLM)代理技能。该方法确保技能可审计,并通过实证验证其对代理性能具有净正面影响。