多智能体路由作为集合值预测:一个基于WildChat的基准测试与成本感知评估

arXiv cs.LG 论文

摘要

本文将从自然语言提示出发的智能体路由形式化为集合值预测问题,引入了一个源自WildChat的基准测试,包含3000个提示,覆盖12个智能体的固定目录,并评估了包括有监督分类器和成本感知路由在内的多种方法,以研究精度与成本之间的权衡。

arXiv:2606.28925v1 公告类型:新 摘要:从自然语言提示进行的工具和智能体路由本质上是一个集合值预测问题:单个查询可能需要多个智能体,而过多的选择会增加执行成本。这里引入的基准测试源自WildChat,包含3000个提示,基于一个固定的12智能体目录,并在固定模式和控制重平衡下进行AI辅助启发式标注,以进行多标签评估。评估协议结合了集合级指标(精确率、召回率、F1、Jaccard和精确匹配)、延迟、面向执行的能力覆盖模拟以及基于智能体成本等级的约束加权路由设置。对比方法包括最近邻匹配、线性多标签分类、依赖感知基线、微调编码器、通过加权智能体路由(WAR)的确定性加权后评分以及零样本LLM基线。结果表明,有监督路由器的性能显著优于最近邻和零样本LLM路由。微调编码器在无约束集合准确率上表现最强,而线性多标签模型提供了最强的实际基线。在约束设置中,加权路由层在强有监督评分器之上应用时提高了效用,其中Encoder+WAR的增益最大。总体而言,该基准测试和评估协议支持对固定目录多智能体路由中精度-成本权衡的可重复研究。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:30

# 多智能体路由作为集合值预测:基于WildChat的基准与成本感知评估
来源:https://arxiv.org/html/2606.28925
Ananto Nayan Bala 和 Faisal Muhammad Shah
Ahsanullah University of Science and Technology, Dhaka, Bangladesh
faisal\.cse@aust\.edu (https://arxiv.org/html/2606.28925v1/mailto:[email protected])

###### 摘要。

从自然语言提示中进行工具和智能体路由本质上是一个集合值预测问题:单个查询可能涉及多个智能体,而过多的选择会增加执行成本。本文介绍了一个源自WildChat的基准,包含3,000个提示,对应一个固定的12个智能体目录,并在固定模式和控制重平衡下进行AI辅助启发式标注,用于多标签评估。评估协议结合了集合级别指标(精确率、召回率、F1、Jaccard系数和完全匹配)、延迟、面向执行的能力覆盖模拟,以及基于智能体成本有序等级的约束加权路由设置。对比的方法包括最近邻匹配、线性多标签分类、依赖感知基线、微调编码器、通过加权智能体路由(WAR)进行的确定性加权后评分,以及零样本LLM基线。结果表明,监督路由器的性能显著优于最近邻和零样本LLM路由。微调编码器在无约束集合准确率上表现最强,而线性多标签模型则提供了最实用的基线。在约束设置下,加权路由层在强监督评分器之上应用时能提升效用,其中编码器+WAR的组合增益最大。总体而言,该基准和评估协议支持对固定目录多智能体路由中准确率-成本权衡进行可重复研究。

††copyright:acmlicensed††journalyear:2026

## 1. 引言

现代AI系统越来越依赖于工具或智能体的目录,系统需要选择一个或多个智能体来满足用户请求(例如,查询数据库、调用API、执行统计分析或生成图表)。这一场景自然地映射到集合值路由:给定一个查询,系统预测一组相关的智能体,共同满足该请求。与top-1路由不同,这种形式捕捉了真实的多步骤工作流,并允许在覆盖率和执行成本之间进行明确的权衡。

尽管对工具增强助手的兴趣日益增长,但将路由视为多标签集合预测问题并进行集合级别评估的研究仍然有限。以往的路由流程通常选择单个智能体或对工具进行排序,而没有用于多智能体执行的原则性决策规则。我们通过将智能体路由明确视为固定目录上的集合值预测,并使用标准集合指标和成本感知效用进行评估,来填补这一空白。

我们构建了一个源自WildChat的基准,具有可控的智能体覆盖率和集合大小分布。从真实的用户提示开始,我们在固定的12个智能体目录下分配AI辅助启发式标签,并重新平衡数据池以实现稳定的多标签评估,然后将其分为训练/验证/测试分区。由于提示到智能体的路由根据冗余容忍度、成本敏感性和用户偏好的不同,可能允许不止一个合理的路由集合,这些标签最好被解释为协议定义的参考集,用于比较性评估。我们评估了三类方法:(i) 基于内容的最近邻检索,(ii) 监督式多标签分类,以及 (iii) 提供更强语义匹配的微调编码器。我们还研究了一种成本感知的选择策略,以权衡预测质量和执行成本。我们的贡献包括:

- • 一种集合值预测形式的智能体路由,明确处理多智能体选择和成本感知评估。
- • 一个源自WildChat的基准,包含真实提示、固定12个智能体目录下的启发式标签,以及可控的集合大小/智能体平衡目标。
- • 基于共享集合评估协议,对KNN、线性模型、依赖感知模型、编码器和LLM基线进行了系统性的实证比较,并结合基于确定性WAR后评分的约束加权路由研究,明确了准确率和成本感知的运作区间。

提供了匿名仓库供审查:https://anonymous.4open.science/r/multi-agent-routing-D655/

## 2. 相关工作

### 2.1. LLM系统中的工具/智能体路由

将用户查询路由到专门的工具或智能体已在对话系统、意图分类和LLM工具使用中得到探索。经典的意图检测工作研究如何将话语映射到下游动作或API(Goo等人,2018 (https://arxiv.org/html/2606.28925#bib.bib3);Casanueva等人,2020 (https://arxiv.org/html/2606.28925#bib.bib4))。近期工作将这一方向扩展到多轮意图分类和意图条件对话生成(Liu等人,2024 (https://arxiv.org/html/2606.28925#bib.bib1),2025 (https://arxiv.org/html/2606.28925#bib.bib2))。与此同时,使用工具的LLM和以API为中心的系统通过要求模型在执行前选择外部工具、API或专家模型,使路由问题明确化(Schick等人,2023 (https://arxiv.org/html/2606.28925#bib.bib5);Qin等人,2024 (https://arxiv.org/html/2606.28925#bib.bib6);Patil等人,2024 (https://arxiv.org/html/2606.28925#bib.bib7);Hao等人,2023 (https://arxiv.org/html/2606.28925#bib.bib20))。诸如TaskWeaver(Qiao等人,2023 (https://arxiv.org/html/2606.28925#bib.bib8))及相关的多智能体编排系统(Wu等人,2024 (https://arxiv.org/html/2606.28925#bib.bib15);Hong等人,2024 (https://arxiv.org/html/2606.28925#bib.bib16);Qian等人,2024 (https://arxiv.org/html/2606.28925#bib.bib25))进一步激发了将智能体目录视为固定项目集、根据提示进行选择的动机。我们的工作与这些系统论文的不同之处在于,我们隔离出路由阶段,并使用基于集合的指标直接对其进行评估。

### 2.2. 捆绑/选集和集合选择

集合值输出在推荐系统中通过捆绑、购物篮和选集构建而常见。Beladev等人(Beladev等人,2016 (https://arxiv.org/html/2606.28925#bib.bib26))研究了使用协同过滤和定价信号联合优化相关性和收益的捆绑构建。这一视角直接相关,因为我们的路由器同样返回一个小集合而非单个项目。主要区别在于,我们的目标是执行成本约束下的语义充分性,而非收益或购物篮构成,但底层的决策结构仍与从固定目录中选择紧凑集合密切相关。

### 2.3. 多标签预测与会话模型

多标签预测将top-1分类推广到多个相关输出(Tsoumakas和Katakis,2007 (https://arxiv.org/html/2606.28925#bib.bib32);Zhang和Zhou,2014 (https://arxiv.org/html/2606.28925#bib.bib33))。会话推荐系统,如GRU4Rec(Hidasi等人,2016 (https://arxiv.org/html/2606.28925#bib.bib27)),在有限交互历史下建模短期上下文以预测多个可能的下一项目。依赖感知的多标签方法,如分类器链(Read等人,2011 (https://arxiv.org/html/2606.28925#bib.bib30))和ML-kNN(Zhang和Zhou,2007 (https://arxiv.org/html/2606.28925#bib.bib31)),显式建模标签相关性,这使得它们在提示可能合法激活多个智能体时成为自然的基线。因此,我们的路由任务可视为一个受控的多标签路由问题,其中每个提示隐含一小组相关的智能体,而非单个意图标签。

### 2.4. 学习排序、检索与评估方法

学习排序方法在推荐系统和检索中是优化top-N质量的标准。成对和列表式排序工作(Rendle等人,2009 (https://arxiv.org/html/2606.28925#bib.bib17);Cao等人,2007 (https://arxiv.org/html/2606.28925#bib.bib36))激发了将智能体路由视为基于分数的固定目录选择,而非纯分类问题。稠密和神经检索工作(Karpukhin等人,2020 (https://arxiv.org/html/2606.28925#bib.bib9);Khattab和Zaharia,2020 (https://arxiv.org/html/2606.28925#bib.bib12);Nogueira和Cho,2019 (https://arxiv.org/html/2606.28925#bib.bib18);Lin等人,2021 (https://arxiv.org/html/2606.28925#bib.bib19);Thakur等人,2021 (https://arxiv.org/html/2606.28925#bib.bib14))同样相关,因为我们的KNN和编码器基线依赖于语义文本表示和提示-智能体匹配,而非协同信号。Steck(Steck,2013 (https://arxiv.org/html/2606.28925#bib.bib28))表明评分预测准确率不一定与排序性能相关,而Jannach等人(Jannach等人,2010 (https://arxiv.org/html/2606.28925#bib.bib29))提供了离线评估协议和指标更广泛的指导。我们的评估遵循这一实践,使用基于集合的精确率、召回率、F1、Jaccard系数和完全匹配,而非仅点级准确率。

### 2.5. 成本感知路由与效用感知选择

当路由选择引发具有不同延迟和货币成本的检索、分析、外部调用或模型调用时,成本感知决策层非常重要。相关的对话策略和决策制定调查强调了在有用性与下游执行成本之间平衡的重要性。在LLM应用中,成本感知路由和模型选择策略已在专家选择和成本降低方面得到探索(Lu等人,2024 (https://arxiv.org/html/2606.28925#bib.bib22);Ding等人,2024 (https://arxiv.org/html/2606.28925#bib.bib23);Chen等人,2023 (https://arxiv.org/html/2606.28925#bib.bib24))。我们的WAR变体通过应用基于有序智能体等级的决定性加权后评分规则,将这种效用感知视角适配到智能体路由,从而在路由质量与执行成本之间实现可控的权衡。

### 2.6. 多智能体系统与任务分解

关于多智能体LLM系统的更广泛文献涉及任务分解、协调和执行(Wu等人,2024 (https://arxiv.org/html/2606.28925#bib.bib15);Hong等人,2024 (https://arxiv.org/html/2606.28925#bib.bib16);Qian等人,2024 (https://arxiv.org/html/2606.28925#bib.bib25))。这些系统通常将路由、规划和执行耦合在更大的编排循环中。我们则隔离出初始路由决策,并在受控基线和共享协议下进行评估。这种分解有助于在引入下游规划和执行之前,将“谁应该处理这个提示”与后续编排关注点分离,从而更清晰地诊断路由错误。

## 3. 方法

### 3.1. 问题设定与符号

设A=\{a1,...,aM}\\mathcal\{A\}=\\\{a\_\{1\},\\dots,a\_\{M\}\\\}为一个固定的智能体目录,x为输入提示。每个提示有一个黄金集合G\(x\)⊆AG\(x\)\\subseteq\\mathcal\{A\},包含一个或多个有效智能体。训练数据为D=\{\(xn,Gn\)\}n=1N\\mathcal\{D\}=\\\{\(x\_\{n\},G\_\{n\}\)\\\}\_\{n=1\}^\{N\}。路由器输出每个智能体的分数,然后输出预测集合S^\(x\)⊆A\\hat\{S\}\(x\)\\subseteq\\mathcal\{A\}。每个智能体还有一个有序成本等级c\(a\)∈\{1,2,3\}c\(a\)\\in\\\{1,2,3\\\},表示相对执行成本。目标是在控制成本的同时最大化S^\(x\)\\hat\{S\}\(x\)与G\(x\)G\(x\)的重叠。

### 3.2. 系统概览

参考图1。路由流程的部署视图。本文实现的基准直接评估路由阶段,并辅以下游能力覆盖模拟;路由图的解析(智能体ID到端点地址)和完整下游执行显示为单独的部署组件。推理时,系统嵌入提示,对每个智能体评分,并通过阈值规则(当集合为空时加上top-1回退)产生动态大小的集合S^\(x\)\\hat\{S\}\(x\)。该集合可解释为用于执行的路由智能体集。

### 3.3. 路由器内部结构

参考图2。面向集合评估的路由器内部结构。输入提示被转换为共享提示特征,并通过评估的基线进行路由。产生分数的路由器(KNN、线性ML、分类器链、ML-kNN和微调编码器)输出每个智能体的分数向量,通过阈值转换为预测集合。WAR是在约束集合选择之前应用于这些分数向量的确定性加权后评分层。零样本LLM和多数投票基线直接预测集合。所有预测集合随后使用基于集合的准确率指标和面向部署的效用度量进行评估。路由管道在各方法间共享共同的提示特征视图,但决策策略不同:多数投票输出固定的默认集合,KNN执行非参数语义匹配,ML应用独立的监督式逐个智能体评分,CC和ML-kNN添加显式的依赖感知多标签结构,微调编码器提供更强的语义评分器,零样本LLM直接从目录预测集合,而WAR在有序等级成本下作为确定性成本感知后评分层作用于产生分数的路由器之上。

### 3.4. 嵌入与智能体画像表示

一个句子变换器编码器f\(⋅\)f\(\\cdot\)将文本映射到Rd\\mathbb\{R\}^\{d\}中的向量;句子变换器风格的编码器是语义匹配和稠密检索的标准(Reimers和Gurevych,2019 (https://arxiv.org/html/2606.28925#bib.bib10)),此处的实现使用MPNet系列骨干(Song等人,2020 (https://arxiv.org/html/2606.28925#bib.bib11))。对于每个提示xx,我们计算p=f\(x\)p=f\(x\)。对于每个智能体aia\_\{i\},我们构建一个画像文本(角色描述、能力提示和意图线索),并计算vi=f\(profilei\)v\_\{i\}=f\(\\text\{profile\}\_\{i\}\)。嵌入向量经过l2\\ell\_\{2\}归一化,使得余弦相似度定义良好且在不同方法间可比较。

### 3.5. KNN基于内容基线

KNN计算每个智能体的相似度为

\(1\)scoreknn\(x,ai\)=p⊤vi‖p‖‖vi‖\.\\text\{score\}\_\{\\text\{knn\}\}\(x,a\_\{i\}\)=\\frac\{p^\{\\top\}v\_\{i\}\}\{\\\|p\\\|\\,\\\|v\_\{i\}\\\|\}.智能体按此分数排序,并在与本文其余部分相同的基于阈值的集合构建规则下转换为预测集合。KNN可解释且延迟低,但无法利用数据集特定的决策边界来处理频繁共现的标签。

### 3.6. 一对多线性SVM

我们的主要基线是训练在提示嵌入上的一对多线性SVM,用于多标签智能体预测。对于每个提示,目标是多热点向量y∈\{0,1\}My\\in\\\{0,1\\\}^\{M\},其中当ai∈G\(x\)a\_\{i\}\\in G\(x\)时yi=1y\_\{i\}=1。我们采用一对多方案为每个智能体训练一个二元线性SVM,以提示嵌入为输入,对应智能体的指示变量为目标。推理时,每个智能体获得分数si\(x\)s\_\{i\}\(x\),预测集合通过下式产生:

\(2\)S^\(x\)=\{ai\|si\(x\)≥t\},\\hat\{S\}\(x\)=\\\{a\_\{i\}\\,\|\\,s\_\{i\}\(x\)\\geq t\\\},当集合为空时使用top-1回退。

### 3.7. 依赖感知的多标签基线

我们包括两个显式建模标签结构的标准多标签基线。分类器链训练一个二元分类器序列,其中较早的标签预测作为后续标签的特征暴露,允许模型捕捉智能体共现依赖关系(Read等人,2011 (https://arxiv.org/html/2606.28925#bib.bib30))。

相似文章

从早期经验中学习智能体路由

arXiv cs.CL

本文介绍了 BoundaryRouter,这是一个无需训练的框架,通过根据早期经验将查询路由至轻量级推理或完整智能体执行来优化大型语言模型(LLM)智能体的使用。此外,本文还提出了 RouteBench,这是一个用于评估路由性能的基准,显示出在速度和准确率方面的显著提升。

COAgents:用于学习和导航路径规划问题搜索空间的多智能体框架

arXiv cs.AI

COAgents是一个合作式多智能体框架,用于解决车辆路径问题,它将搜索过程建模为图,使用专门智能体进行节点选择、移动选择和跳跃以逃离局部最优。在CVRP和VRPTW基准测试上取得了最先进的结果,相比先前的基于学习的方法,将最佳已知解差距最多缩小了44%。

企业级智能体路由的扩展:退化、诊断与恢复

arXiv cs.CL

本文研究了在企业生产力助手中,当智能体数量从10个扩展到110个时,路由准确性的退化情况,发现F1值下降了16–23个百分点。论文诊断了检索差距和混淆差距,并展示了基于嵌入的短列表方法可以恢复10–11个百分点的F1值。