SkillSelect-Serve: 预算可控且QoS感知的小型LLM智能体技能服务推荐与组合

arXiv cs.AI 论文

摘要

介绍了SkillSelect-Serve,一个用于小型LLM智能体的预算可控且QoS感知的技能服务推荐与组合框架,在大型注册表上评估,并展示了相比Top-K检索更高的召回率和效用。

arXiv:2607.00011v1 公告类型:交叉 摘要:可复用的技能库正成为大型语言模型(LLM)智能体的重要基础设施,但现有的选择方法通常将技能视为可检索的文档,并返回固定的Top-K列表。本文提出SkillSelect-Serve,一个预算可控且QoS感知的框架,将智能体技能选择建模为技能服务推荐与组合。SkillSelect-Serve将原始技能表示为结构化的技能服务,包含功能描述、依赖关系、上下文成本、风险以及QoS相关属性。本地微智能体需求规划器将自然语言任务转换为结构化服务需求,而共享的发现骨干从大型注册表中检索候选服务。该框架随后执行双粒度效用建模,包括技能级别的边际适应性评估和包级别的校准,以权衡覆盖度、冗余、成本和风险。在35,353个技能和586个任务查询上的实验表明,SkillSelect-Serve在相同预算下相比固定的Top-K检索基线,持续提升了包召回率和平均效用。
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:41

# SkillSelect-Serve:面向小型LLM代理的预算可控与QoS感知的技能服务推荐与组合

来源:https://arxiv.org/html/2607.00011

Jingyuan Zheng, Dongjing Wang, Xin Zhang, Butian Huang, Haiping Zhang, Dongjin Yu, and Shuguang Deng

Jingyuan Zheng、Dongjing Wang、Xin Zhang、Haiping Zhang 和 Dongjin Yu 来自杭州电子科技大学,杭州,中国。电子邮件:[email protected], [email protected], [email protected], [email protected], [email protected]。

Butian Huang 来自杭州电子科技大学网络空间安全学院,杭州,中国。电子邮件:[email protected]。

Shuguang Deng 来自浙江大学,杭州,中国。电子邮件:[email protected]。

通讯作者:Dongjing Wang。

###### 摘要

可复用的技能库正在成为大型语言模型(LLM)代理的重要基础设施。然而,现有的技能选择方法通常将技能视为可检索的文档,并返回固定的 Top-k 列表,这对于上下文预算有限、工具约束和风险偏好各异的小型 LLM 代理来说是不够的。本文提出 SkillSelect-Serve,一个预算可控且 QoS 感知的框架,将代理技能选择形式化为技能服务推荐与组合。SkillSelect-Serve 将原始技能描述为结构化的技能服务,包含功能、输入/输出假设、工具依赖、成本、风险及 QoS 相关属性,并使用本地微代理需求规划器将自然语言任务解析为结构化的服务需求,而无需直接选择技能 ID。基于共享的发现主干,SkillSelect-Serve 执行双粒度服务效用建模:技能级别边际适宜性估计识别有用的候选服务,而包级别校准估计覆盖度、冗余、成本和风险的权衡。然后,预算化的 QoS 感知投影在推理时仅使用部署可观测、无标签特征,输出不同服务预算制度下的服务包。我们在包含 35,353 个技能项和 586 个任务查询的注册表上评估 SkillSelect-Serve。在三个服务的相同预算下,SkillSelect-Serve 将包召回率从 0.8163 提升至 0.8700,平均效用从 0.6333 提升至 0.6901,优于 Top-3 检索。在五个服务的预算下,包召回率从 0.8492 提升至 0.8873,平均效用从 0.6672 提升至 0.7078,优于 Top-5 检索,接近 Top-20 候选空间的上界。诊断执行结果进一步揭示了推荐-执行差距,表明需要执行感知的服务效用学习。这些发现表明,可复用的代理技能应作为预算化、QoS 感知的技能服务来管理,而非普通的可检索文档。

## I 引言

大型语言模型(LLM)代理正从单次提示交互、有限的工具调用和短视野交流,演变为能够进行任务分解、工具调用、模型编排以及与外部 API 交互的复杂智能系统[35 (https://arxiv.org/html/2607.00011#bib.bib1),27 (https://arxiv.org/html/2607.00011#bib.bib2)]。在这种新兴范式中,代理技能充当用户任务与可执行能力之间的关键中间层。一项技能通常不仅包含自然语言指令,还包括任务工作流、工具使用规范、代码模板、输入输出假设、执行约束、示例和风险警告。随着这类技能的持续积累、复用和共享,大规模代理技能库正在催生一种新的面向服务的生态系统。在此生态系统中,可复用技能的功能类似于服务单元:它们必须被识别、建模、发现、选择和组合,以支持在受限环境下运行的小型 LLM 代理执行复杂任务。

然而,随着技能库扩展到数万条目,代理技能选择的核心挑战发生了根本性变化。问题不再是简单的检索任务——判断是否存在相关技能。相反,系统必须从大型候选空间中为任务发现、选择并组织一组能共同支持任务执行的技能服务。这一问题对于小型 LLM 代理尤为突出,因为技能选择本质上是一个预算化决策问题:代理在有限的上下文预算、可用的工具集和风险约束下,只能加载少量面向服务的能力单元。推荐更多的技能并不一定会带来更好的执行性能。冗余或不兼容的技能可能消耗稀缺的上下文,引入不相关的步骤,甚至导致负迁移。因此,有效的技能选择系统不仅需要识别语义相关的技能,还必须评估它们的边际有用性、互补性、成本、风险以及与当前代理配置的兼容性。

现有的 LLM 工具使用和检索增强代理方法通常将外部能力的集成形式化为工具检索、API 选择、路由或重排序问题[26 (https://arxiv.org/html/2607.00011#bib.bib3),21 (https://arxiv.org/html/2607.00011#bib.bib4),13 (https://arxiv.org/html/2607.00011#bib.bib5)]。给定一个任务请求,系统为每个候选工具或技能计算相关性分数,并返回固定数量的 top-k 项。尽管这种范式简单有效,但它存在三个结构性限制。首先,它通常将技能视为可检索的文档或工具描述,而忽略了技能隐式关联的服务属性,例如输入输出类型、工具依赖、上下文成本、风险级别和适用条件。其次,它使用单个技能作为基本决策单元,难以刻画多个技能之间的互补性、可替代性、冲突和冗余。单独看起来相关的两个技能组合起来可能高度重复,而单个排名相对较低的技能可能提供任务所需的关键能力。第三,固定的 top-k 选择假设所有任务都需要相同数量的技能。这种假设无法适应小型 LLM 代理的预算约束,也无法支持覆盖度、成本、风险和适用性之间的细粒度权衡。

本文的核心论点是,代理技能应被视为可组合的服务,而非可检索的文档。我们将每个代理技能建模为一个技能服务(Skill Service),即一个面向服务的能力单元,由功能描述、输入输出假设、工具依赖、执行约束、令牌成本、风险属性和 QoS 相关属性来刻画。这一观点与服务计算领域在服务发现、服务选择、服务组合和 QoS 感知决策方面的长期研究紧密一致[18 (https://arxiv.org/html/2607.00011#bib.bib6),37 (https://arxiv.org/html/2607.00011#bib.bib7),2 (https://arxiv.org/html/2607.00011#bib.bib8)]。在这种表述下,代理技能选择不再仅仅是从文本库中检索相关文档。相反,它变成了一个位于技能服务生态系统中的服务计算问题:系统必须从大规模技能服务注册表中发现候选服务,估计每个候选服务对于当前任务的边际适宜性,并在给定的服务预算、上下文预算和风险约束下输出一个预算可控的技能服务包。

基于这一重新表述,本文提出了 SkillSelect-Serve,一个面向小型 LLM 代理的预算可控且 QoS 感知的技能服务推荐与组合框架。与固定的 top-k 检索不同,SkillSelect-Serve 采用需求条件化的双粒度服务效用建模范式。首先,系统将原始技能文档转换为结构化的技能服务配置文件(Skill Service Profile),显式表示功能、工具、输入输出规范、成本和风险等服务属性。其次,我们引入一个轻量级的本地微代理需求规划器(Micro-Agent Requirement Planner),将自然语言任务解析为结构化的服务需求,包括所需能力、所需工具、输入输出需求、硬约束和风险说明。需要强调的是,这个微代理不直接选择技能 ID 或执行最终推荐。它仅作为一个需求接口,使后续模型能够在服务需求层面估计候选服务的适宜性。

在结构化需求的基础上,SkillSelect-Serve 首先使用一个发现主干从大规模技能服务注册表中检索候选技能服务。然后执行双粒度服务效用建模。在技能级别,模型估计每个候选服务对于当前任务的边际服务适宜性,从而在给定预算下识别最有价值的服务。在包级别,模型进一步校准候选服务包的效用、命中可能性、冗余、成本和风险。最后,SkillSelect-Serve 应用预算化的 QoS 感知服务投影,在不同服务预算下(如紧凑模式、高召回模式、激进模式)产生推荐结果。与直接使用预言效用的方法不同,SkillSelect-Serve 在推理时仅使用部署时可用的无标签服务特征,从而保持清晰且可部署的设置。

该设计的关键优势在于,SkillSelect-Serve 不会试图以无约束的方式向代理加载更多技能。相反,它在指定的服务预算下选择更有用的技能服务。在严格的上下文预算下,系统以紧凑模式运行,优先选择边际价值最高的少量服务。当需要更高召回率时,可以采用更大的服务预算以提高任务覆盖度。换句话说,SkillSelect-Serve 将技能选择从固定的 top-k 相关性排名提升为预算可控的服务推荐与组合。其目标不仅仅是在检索列表中最大化命中率,而是在任务覆盖度、服务适宜性、上下文成本、风险和小型代理约束之间建立可控的权衡。

我们在大规模技能服务注册表上评估了 SkillSelect-Serve。该注册表包含 35,353 个去重技能项,以及 586 个任务请求、577 个可评估查询、717 个精选的正向交互和 52,647 个查询-技能训练对。实验结果表明,在相同的服务预算下,SkillSelect-Serve 显著优于固定的 top-k 基线。具体来说,在 k=3 的紧凑设置下,SkillSelect-Serve Compact@3 将包召回率从 Top-3 基线的 0.8163 提升至 0.8700,平均效用从 0.6333 增至 0.6901。在 k=5 的高召回设置下,SkillSelect-Serve Final@5 将召回率从 Top-5 基线的 0.8492 提升至 0.8873,平均效用从 0.6672 增至 0.7078。进一步的上界分析表明,Final@5 已经接近 Top-20 候选空间的上界 0.8873。这些结果表明,SkillSelect-Serve 的提升并非来自简单扩大候选池或依赖预言效用,而是源于清晰可部署的边际服务适宜性估计和预算化服务选择。

本文的主要贡献总结如下。

- • 我们提出了“技能即服务”的表述,将代理技能选择从传统的 top-k 检索重新定义为服务计算问题。我们将每个技能建模为一个技能服务,由功能、输入输出规范、工具依赖、成本、风险和 QoS 属性来刻画。这种表述将任务转化为技能服务发现、技能服务组合和 QoS 感知技能服务推荐的联合问题。
- • 我们引入了一种代理条件化的服务需求表示。具体来说,我们设计了一个轻量级的本地微代理需求规划器,将自然语言任务解析为结构化的服务需求。与直接要求 LLM 选择技能 ID 的方法不同,该规划器不执行最终选择。相反,它为后续的服务效用建模提供能力、工具、输入输出、约束和风险信号,从而提高了任务需求建模的可解释性和稳定性。
- • 我们提出了双粒度服务效用建模。该机制联合估计技能级别的边际服务适宜性和包级别的效用与命中校准。前者识别在给定服务预算下边际价值最高的候选服务,而后者评估服务组合的覆盖度、冗余、成本和风险权衡。与仅依赖原始检索排名或单一包评分器的方法不同,SkillSelect-Serve 明确整合了服务发现信号与服务组合质量。
- • 我们提出了预算化的 QoS 感知服务投影,支持不同的服务预算制度,包括紧凑模式、高召回模式和激进模式。在推理时,该投影仅使用无标签的部署特征,并根据服务预算、上下文成本、风险和冗余约束输出最终的技能服务包。实验结果表明,在相同预算下,SkillSelect-Serve 显著优于固定的 top-k 基线,且 Final@5 接近 Top-20 候选空间的上界。
- • 我们在大规模技能注册表上对 SkillSelect-Serve 进行了系统评估,涵盖相同预算下的推荐质量、上界分析、消融研究、效率-可扩展性权衡以及诊断性执行研究。结果表明,SkillSelect-Serve 在清晰可部署的设置下提高了预算化技能服务推荐质量。此外,执行诊断揭示了离线服务推荐效用与下游小型代理执行效用之间的差距,为未来关于执行感知技能服务组合的研究提供了见解。

总之,本文表明,随着 LLM 代理进入可复用技能生态系统阶段,技能选择的关键挑战不再是检索更多相关文本,而是在给定的服务预算和 QoS 约束下选择更有用且可部署的技能服务。SkillSelect-Serve 系统地将这一问题形式化为需求条件化、预算可控且 QoS 感知的技能服务推荐与组合。通过双粒度服务效用建模,它在统一框架内连接了服务发现、服务组合和服务推荐。该框架为未来关于面向服务的能力管理、执行反馈以及面向小型 LLM 代理的执行感知服务效用学习提供了基础。

## II 问题形式化

随着 LLM 代理从一次性提示和有限工具调用演变为依赖可复用能力库的复杂系统,代理技能选择问题发生了根本性转变。现有方法通常将技能视为可检索的文本片段,并根据任务请求返回固定数量的 top-k 技能。然而,这种观点忽略了服

相似文章

SkillRet:面向 LLM 智能体技能检索的大规模基准

arXiv cs.AI

本文提出了 SkillRet,这是一个用于评估 LLM 智能体技能检索的大规模基准,旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset,并证明针对特定任务的微调能显著提升检索性能。