企业级智能体路由的扩展:退化、诊断与恢复

arXiv cs.CL 论文

摘要

本文研究了在企业生产力助手中,当智能体数量从10个扩展到110个时,路由准确性的退化情况,发现F1值下降了16–23个百分点。论文诊断了检索差距和混淆差距,并展示了基于嵌入的短列表方法可以恢复10–11个百分点的F1值。

arXiv:2606.17519v1 Announce Type: new 摘要:生产级LLM助手将用户请求路由到不断增长的专业工具库中,但随着目录规模扩大,路由准确性如何退化?我们研究了一个已部署的企业生产力助手中110个智能体、584个工具的目录上的单步路由,评估了从10到110个智能体的三种前沿模型。在未明确指定的请求上,路由F1值在所有模型中下降了16–23个百分点。一项oracle分析将退化分解为*检索*差距(模型无法找到正确的工具)和*混淆*差距(即使检索完美,oracle上限也下降了10个百分点)。基于嵌入的短列表方法在所有三个模型和两个供应商的全规模上恢复了+10–11个百分点的F1值。一项生产标注研究(1,435个人工标注的语句,三个标注者)证实了在真实流量上恢复了+10–17个百分点,尽管绝对性能降低了10–15个百分点。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:41

# 扩展企业级智能体路由:性能下降、诊断与恢复
来源:https://arxiv.org/html/2606.17519
###### 摘要

生产级LLM助手将用户请求路由到日益庞大的专用工具库中,但随着目录规模的扩大,路由准确性会如何下降?我们基于一个已部署的企业生产力助手的110个智能体、584个工具的目录,对单步路由进行了研究,评估了三种前沿模型从10到110个智能体的表现。在需求描述不明确的请求上,各模型的路由F1分数下降了16–23个百分点。一项上限分析将性能下降分解为**检索差距**(模型无法找到正确工具)和**混淆差距**(即使在完美检索的情况下,上限准确率也下降了10个百分点)。基于嵌入的预筛选在全部规模上为所有三种模型及两家服务提供商恢复了+10–11个百分点的F1分数。一项生产环境标注研究(1,435个人工标注的语句,三位标注员)证实了在实际流量上的恢复效果,提升了+10–17个百分点,尽管绝对性能低了10–15个百分点。

扩展企业级智能体路由:性能下降、诊断与恢复

Kellen Gillespie 和 Robyn Perry
Superhuman, Inc.
{kellen.gillespie, robyn.perry}@grammarly.com

## 1 引言

基于LLM的助手越来越多地充当编排层,将用户请求路由到用于电子邮件、项目跟踪、日程安排等的专用智能体。随着组织向这些系统添加智能体,路由决策变得更加困难,模型必须从日益庞大且语义重叠的选项目录中进行选择。

这种规模化的挑战已经促使平台层面做出响应。OpenAI引入了基于命名空间的工具搜索,Anthropic提供了基于工具描述的BM25检索,而MCP服务器注册表的增长已超出了扁平工具列表所能支持的范围。先前的研究表明,工具调用性能会随着目录规模增大而下降(Kate et al., 2025),并且检索错误主导了智能体故障(Mo et al., 2025),但其机制(什么环节失效、在什么规模下失效、存在哪些调节杠杆)仍未得到充分描述。

我们针对一个已部署的企业生产力助手中源自生产环境的目录,在10到110个智能体的范围内,对单步路由准确性进行了一项受控研究。我们的分析包含两个部分:

1. **规模化诊断**(§4.1)。F1分数下降16–23个百分点,主要由召回率下降驱动。一项上限分析将此分解为**检索差距**(模型无法找到正确工具)和**混淆差距**(上限准确率从79%下降到69%)。混淆差距在企业生产力领域被放大,因为功能相似的工具(用于电子邮件的Gmail/Outlook,用于写作的Improve/Paraphraser/Proofreader,用于项目管理的Jira/Asana)会随着目录自然增长(Qin et al., 2024; Shi et al., 2025; Patil et al., 2025)。
2. **作为干预措施的预筛选**(§5, §5.3)。基于嵌入的预筛选在全部规模上为来自两家服务提供商的三种模型恢复了+10–11个百分点的F1分数。该恢复效果在1,435个人工标注的生产语句上得以保持(+10–17个百分点)。工具级别的检索比所有包级别的方案(分层LLM路由、包级别嵌入、平台工具搜索)高出2–4个百分点。一项错误构成分析(§5.5)显示,预筛选将路由遗漏从31%降低到10%,但代价是稳定的9%预筛选器遗漏率。

## 2 相关工作

#### 工具数量扩展。

Kate等人(2025)在49到741个工具范围内对工具调用进行压力测试,报告性能下降7–85%。LiveMCPBench(Mo等人,2025)发现,在527个工具中,检索错误约占智能体故障的50%。Toolshed(Lumer等人,2025b)、ScaleMCP(Lumer等人,2025a)、MonoScale(Shao等人,2026)和RAG-MCP(Gan and Sun, 2025)记录了随着工具和智能体池的增长,性能出现崩溃。我们在这项工作中增加了精确率/召回率的分解以及受控缓解措施。

#### 工具检索与选择。

Toolformer(Schick等人,2023)教导语言模型在生成过程中插入工具调用。先检索后路由的方法包括:对API目录进行文档检索(Patil等人,2024;Qin等人,2024)、微调检索器(Shi等人,2025;Zheng等人,2026)、重排序和查询重写(Zheng等人,2024;Chen等人,2024),以及令牌级工具编码(Hao等人,2023;Wang等人,2025)。基准测试和数据生成流程(Liu等人,2024;Wu等人,2024;Lu等人,2025)通过评估方法对此进行了补充。ToolScope(Liu等人,2026)通过合并目录中相似的工具来解决语义重叠问题。我们表明,密集嵌入检索在无需LLM调用的情况下,优于平台方法和微调检索器(Shi等人,2025)。

#### 智能体系统扩展。

Kim等人(2026)研究多智能体协调何时优于单智能体,而AgentArch(Bogavelli等人,2025)则在固定工具集上改变智能体架构。HuggingGPT(Shen等人,2023)和AnyTool(Du等人,2024)分别通过模型层级和API层级的层次化调度进行路由。ScaleCall(Osuagwu等人,2025)评估了用于企业工具选择的混合检索。我们保持架构不变,改变目录规模,比较层次化调度与扁平嵌入检索。

## 3 实验设置

### 3.1 智能体目录

我们的目录包含来自一个已部署的企业生产力助手的110个智能体和584个独立工具,范围从单一用途的智能体(天气、谷歌翻译)到多工具套件(具有15+个操作的Gmail,具有20+个操作的Jira)。该目录具有自然的语义重叠(多个邮件客户端、写作工具、项目跟踪器和文档编辑器),这造成了在以API为中心的基准测试中不常见的路由歧义(Qin等人,2024;Shi等人,2025;Patil等人,2025)。我们评估了**最小**(名称和描述)和**丰富**(名称、描述、示例、语义标签、扩充描述)元数据变体。

### 3.2 评估数据

#### 合成查询。

由GPT-4o生成的4,105个查询,涵盖不同难度级别:**显式**(命名工具:“发送一封Gmail”)和**隐式**(描述需求但不命名:“给团队发邮件关于周一的截止日期”)。每个查询都有一个目标工具和**也有效**标签,从而能够动态调整真实标注以适配每个采样的工具集。路由模型(GPT-5.x, Sonnet)与生成模型不同,尽管GPT-4o和GPT-5.x共享同一提供商,这造成了潜在分布亲和性。与Sonnet的跨提供商重复实验以及基于人类编写语句的生产验证(§5.3)缓解了这一担忧。

#### 生产查询。

从已部署系统的生产流量中采样的1,435条语句,按有足够流量的智能体进行分层(每个智能体上限100条语句),并进行质量过滤(语言、安全)。三位经过培训的语言学家独立标注每条语句,使用来自一个基于LLM的预筛选器(GPT-5.4)的前5个候选,该预筛选器独立于§5中评估的嵌入检索器。每位标注员将每个候选评为**最佳选项**、**也有效**或**不适用**,并且可以提名预筛选集合之外的工具;不到1%的黄金标签(13例)需要池外提名。黄金标签采用多数投票(≥2/3标注员)。每个候选的Krippendorff's α = 0.68(顺序尺度),反映了目录的语义重叠:标注员在哪些工具相关上意见一致,但在近等效工具中哪个是**最佳**上常常存在分歧。在项目层面,94%的语句在标注员之间至少有一个共享的有效工具。所有生产查询都是隐式的。

#### 隐式查询作为主要指标。

显式查询在所有规模上都接近上限(>90% F1)。我们全文报告隐式查询的结果,因为它们代表了用户不命名目标工具的现实生产流量。

### 3.3 模型与路由

我们评估来自两家服务提供商的三种前沿模型:GPT-5.1和GPT-5.4(OpenAI,通过Responses API进行函数调用)以及Claude Sonnet 4.5(Anthropic,原生工具使用)。所有这些都使用函数调用接口,其中工具目录作为可调用的函数定义提供。

### 3.4 规模点与采样

我们在10、20、30、40、60、80、100和110个智能体(51–584个工具)的规模点进行评估。在每个非端点规模,我们采样k=3个智能体子集(折),并报告折平均值指标,附带bootstrap 95%置信区间。110个智能体的端点即是完整目录(单一子集),因此那里的置信区间仅基于查询级别。基础智能体(通用助手、知识搜索、网页搜索)始终存在。

### 3.5 指标

多标签精确率、召回率和F1分数,按查询针对动态有效集合(目标工具加上当前折中存在的任何也有效工具)计算。

## 4 路由如何在扩展时降级

### 4.1 扩展曲线

图1显示了当目录规模从51个工具增长到584个工具时,隐式查询的路由F1分数。扁平工具级别路由(GPT-5.4)从58.2%下降到42.1%。性能下降是**召回率驱动**的:精确率适度下降(68%→60%),而召回率下降速度快一倍以上(55%→37%)。随着目录增长,模型遗漏有效工具的频率远高于选择无效工具的频率。一个在每个规模点都存在的固定731个查询队列显示出相同的下降幅度(14.9个百分点),这证实了下降是由目录增长而非查询构成驱动的(附录D)。

#### 双组件分解。

一个上限预筛选器(所有动态有效工具加上随机干扰项以填满20个槽位)建立了在完美检索下路由可以达到的上限。该上限从79.0%下降到68.8%,即使正确工具始终存在,也下降了10个百分点。这揭示了两个独立的性能下降来源:(a) **检索差距**,即在大规模下,上限与实际预筛选之间16个百分点的差异,可通过更好的检索器弥补;以及(b) **混淆差距**,即上限本身下降的10个百分点。这种下降既反映了不断增长的等价类覆盖不完整(查询的有效集合规模从1.6个工具增加到3.2个工具),也反映了真正的工具间混淆。有效集合的增长影响召回率但不影响精确率,因此8个百分点的精确率下降(68%→60%)证实了独立于覆盖效应的混淆。实践中有效的混淆差距可能大于10个百分点,因为上限的随机干扰项比真实检索器的语义相似候选更难混淆。

#### 跨模型可重复性。

所有三种模型都表现出相同的召回率驱动下降模式,在40–60个智能体处有一个拐点(附录A)。GPT-5.4在不同规模上比GPT-5.1高出4–8个百分点。Sonnet起始更高(51个工具时66.3%),但下降更快(-20个百分点 vs. GPT-5.4的-16个百分点)。较强的模型提供了恒定的偏移量,但遵循相同的曲线。

#### 元数据与工具搜索。

丰富的元数据(示例、标签、扩充描述)在智能体级别提供了随规模递增的益处(20个时+1.2pp,110个时+4.2pp),但在工具级别效果近乎为零( <1pp)。元数据质量补充架构变化,但不能替代。OpenAI的基于命名空间的工具搜索在中等规模下提供了部分缓解,但在更大的目录下趋于平稳(§5.4)。

参见图注图1:跨目录规模的路由F1分数(隐式查询,GPT-5.4)。阴影带:折标准差。扁平路由从58%降至42%。嵌入预筛选(k=20)在全部规模上恢复了+10个百分点。上限(虚线)下降10个百分点,表明存在独立于检索质量的混淆。工具搜索在约180个工具以上有帮助但趋于平稳。

## 5 跨规模的预筛选

我们探究预先过滤目录到一个小的候选列表是否能够弥合导致大部分扩展损失的检索差距。

### 5.1 预筛选比较

图1比较了在51–584个工具范围内的四种方法。嵌入预筛选(text-embedding-3-large, k=20个工具)在每个规模点上都优于扁平路由(+6–11个百分点,配对bootstrap p < 0.01在每个点),并且在整个过程中与平台工具搜索相当或更好。我们根据敏感性分析(附录C)固定k=20,该分析显示F1在k ≥ 10时趋于平稳,并且k=20到k=50之间在统计上无显著差异。在584个工具时,嵌入预筛选达到52.5%,而工具搜索达到50.3%,扁平路由(无预筛选)达到42.1%。

在大规模下,嵌入预筛选与上限之间16个百分点的差距反映了检索质量,因为嵌入返回的语义相似干扰项对路由器来说比随机干扰项更难处理。在各种方法中,即使上限的召回率也下降了15个百分点(图3,附录A)。

### 5.2 跨模型可重复性

表1显示了各模型和提供商的预筛选恢复效果。尽管基线不同(GPT-5.4: 42.1%, GPT-5.1: 40.6%, Sonnet: 45.9%),所有三种模型在全部规模下都收敛到约+10个百分点。Sonnet在120个工具时较小的增量(+2.7个百分点)反映了其更强的基线,留下更少的召回率需要恢复。随着Sonnet的基线在更大的目录下下降,预筛选的益处增长,在全部规模下与GPT模型相匹配。

表1:跨模型预筛选恢复(隐式查询的F1分数)。GPT-5.4在325个工具时是折平均值(k=3, σ=2.0);所有其他条目是折0的结果。Sonnet仅限折0(API成本)。全规模增量的配对bootstrap 95%置信区间:GPT-5.4 [9.2, 11.5], GPT-5.1 [10.1, 12.5], Sonnet [8.9, 11.1];所有区间均不包含零。
### 5.3 生产环境验证

表2验证了合成发现的

相似文章

从早期经验中学习智能体路由

arXiv cs.CL

本文介绍了 BoundaryRouter,这是一个无需训练的框架,通过根据早期经验将查询路由至轻量级推理或完整智能体执行来优化大型语言模型(LLM)智能体的使用。此外,本文还提出了 RouteBench,这是一个用于评估路由性能的基准,显示出在速度和准确率方面的显著提升。

面向企业应用的多智能体系统可扩展定制与部署

arXiv cs.CL

本文提出一个统一框架,用于在企业环境中定制和部署基于LLM的多智能体系统,结合了持续预训练、微调和偏好优化的模型定制,以及使用推测解码和FP8量化的推理优化。在保持企业工作负载性能的同时,实现了4.48倍的吞吐量提升。

Salesforce运行自家AI Agents基准测试,你看到了吗?

Reddit r/ArtificialInteligence

讨论Salesforce的CRMArena-Pro基准测试,结果显示代理在单轮任务中成功率为58%,在多轮任务中骤降至35%;并给出实用建议:将代理工作流拆分为狭窄阶段,以减少错误累积。