路由高原:理解并突破LLM路由器的精度极限
摘要
本文识别了一种'路由高原'现象,即多种LLM路由方法收敛到相似的精度,远低于理想路由器,原因是存在一个可预测性瓶颈,限制了针对特定查询的路由。随后,本文展示了更大的数据集、更强的编码器和微调有助于突破这一高原。
arXiv:2606.07587v1 Announce Type: new
摘要:LLM路由已成为一种流行的方法,通过动态选择每个查询对应的模型来改善LLM服务的成本-质量权衡。最近的工作探索了广泛的路由方法,包括基于聚类的路由器、学习分类器、成对排序和基于置信度的方法。我们对五个基准测试中的21种路由方法进行了广泛研究,发现了一种一致现象,我们称之为路由高原:包括kNN在内的许多方法实现了非常相似的精度,并收敛到一个狭窄的性能范围,远远低于理想路由器。我们的研究表明,这一高原很大程度上是由可预测性瓶颈引起的:当前的路由器主要学习全局平均模型性能趋势,而不是细粒度的查询特定路由信号。因此,它们解决了重叠的简单查询,但集体失败于需要实例特定路由决策的困难查询。我们进一步研究了如何突破这一高原,发现更大的训练数据集、更强的编码器和端到端微调可以进一步提高路由精度。这些发现表征了当前路由方法的共同局限性,并为社区构建更有效的路由系统提供了见解和可操作的方向。
查看缓存全文
缓存时间: 2026/06/09 08:47
# 路由平台:理解并突破LLM路由器的精度极限 来源:https://arxiv.org/html/2606.07587 易凡·陆¹、齐月·张¹、申润·张¹、智博·于¹、庄·王²、翰捷·陈¹、家荣·邢¹ ¹莱斯大学²亚马逊 \{yifan.lu, jxing\}@rice.edu ###### 摘要 LLM路由已成为一种流行方法,通过为每个查询动态选择模型来改善LLM服务的成本-质量权衡。近期工作探索了广泛的路由方法,包括基于聚类的路由器、学习分类器、成对排序和基于置信度的方法。我们对五种基准测试中21种路由方法的广泛研究揭示了一个一致的现象,我们称之为**路由平台**(图1 (https://arxiv.org/html/2606.07587#S0.F1)):*许多方法,包括kNN,都实现了非常相似的精度,并收敛到一个狭窄的性能范围,这仍然远低于神谕路由器。* 我们的调查表明,这个平台在很大程度上是由**可预测性瓶颈**引起的:当前的路由器主要学习全局平均的模型性能趋势,而不是细粒度的查询特定路由信号。因此,它们解决了重叠的简单查询,但在需要实例级路由决策的困难查询上共同失败。我们进一步研究如何超越这个平台,发现更大的训练数据集、更强的编码器和端到端微调可以进一步提高路由精度。这些发现表征了当前路由方法的共同限制,并为社区构建更有效的路由系统提供了见解和可行的方向。 参见图注图1:路由精度与归一化推理成本。来自异构方法族的所有路由器都坍缩到一个狭窄的**平台**(红色带)上,远低于逐查询神谕(绿色虚线)。 ## 1 引言 跨模型查询路由已成为改善LLM服务成本-质量权衡的一种有前景的方法。LLM路由器为每个查询动态选择合适的模型,将较简单的查询路由到较小、较便宜或更专门的模型,同时将较难的查询保留给昂贵的前沿模型[22 (https://arxiv.org/html/2606.07587#bib.bib8),53 (https://arxiv.org/html/2606.07587#bib.bib20),42 (https://arxiv.org/html/2606.07587#bib.bib6),69 (https://arxiv.org/html/2606.07587#bib.bib21)]。近期工作提出了广泛的路由方法,包括对训练示例进行相似性搜索[37 (https://arxiv.org/html/2606.07587#bib.bib13),53 (https://arxiv.org/html/2606.07587#bib.bib20)]、用于模型正确性预测的学习分类器或回归器[42 (https://arxiv.org/html/2606.07587#bib.bib6),51 (https://arxiv.org/html/2606.07587#bib.bib16),36 (https://arxiv.org/html/2606.07587#bib.bib19),41 (https://arxiv.org/html/2606.07587#bib.bib2)]、成对模型排序[18 (https://arxiv.org/html/2606.07587#bib.bib15),75 (https://arxiv.org/html/2606.07587#bib.bib12)]以及基于置信度或预判的方法[15 (https://arxiv.org/html/2606.07587#bib.bib17),66 (https://arxiv.org/html/2606.07587#bib.bib11),74 (https://arxiv.org/html/2606.07587#bib.bib3)]。每种新的路由方法通常在其自己的实验设置下报告相对于先前路由器的优势,表明路由器设计的稳步进展。然而,由于这些研究通常在模型池、基准测试、训练数据和评估协议上存在差异[38 (https://arxiv.org/html/2606.07587#bib.bib1)],目前尚不清楚这些报告中的增益是否反映了路由能力的根本性改进,还是评估设置的产物。 在本文中,我们在五种代表性路由基准上评估了21种路由方法。我们的研究揭示了一个我们称之为**路由平台**的现象:*尽管设计多样,许多路由器(包括kNN风格的路由器)收敛到相同的精度上限,该上限仍远低于神谕路由器*[29 (https://arxiv.org/html/2606.07587#bib.bib22)]。我们通过三个更具体的实证观察来解析这个平台。 (1) **相似的顶级精度**:尽管少数强路由器优于其他方法,它们的精度高度相似,收敛到一个狭窄的性能带。例如,在RouterBench上,前15个路由器的精度仅相差0.23个百分点(pp)。 (2) **强大的kNN风格路由器**:简单的基于相似性的方法(如kNN)在各种基准测试中始终与更复杂的路由器保持竞争力。例如,kNN在所有五个基准测试中均排名前2。 (3) **持续存在的神谕差距**:所有现有路由器仍远低于神谕路由器,表明关键挑战是从查询中识别正确的模型。例如,最佳路由器在五个基准测试中落后神谕10–30 pp。 我们的进一步分析表明,这个平台源于一个根本的**正确性预测瓶颈**:路由器必须学会推断哪些模型可能正确回答给定的查询,但当前的方法往往无法从可用数据和查询表示中可靠地学习这一信号。具体来说,当前路由器倾向于学习模型能力的粗粒度全局模式,而不是细粒度的实例级正确性差异。然而,对于许多查询,产生正确答案的模型集合以不一定与整体模型能力一致的方式变化,即,平均性能更高的模型并不总是在每个实例上都最可靠。因此,尽管路由器可能在个别路由决策上有所不同,但它们对全局模型能力信号的共同依赖导致它们收敛到一个远低于神谕路由器的狭窄精度上限。这也解释了为什么kNN风格的路由器仍然具有竞争力:简单的基于相似性的方法已经能够捕捉到这种粗粒度的路由信号中的大部分。 最后,我们探索了超越当前路由平台的方向。我们研究可能提高路由器学习细粒度、查询特定路由信号能力的三个因素:更大的训练集、更强的查询编码器以及端到端微调[8 (https://arxiv.org/html/2606.07587#bib.bib9),17 (https://arxiv.org/html/2606.07587#bib.bib10)]。通过将路由训练集从3万扩展到30万查询,将查询编码器从ModernBERT-base(约1.1亿参数)升级到ModernBERT-large(约3.4亿参数),并对路由器进行端到端微调,我们获得了高达2.13个百分点的组合精度增益,缩小了14.6%的神谕差距。尽管如此,仍然存在显著的差距,这表明未来的进展可能需要更丰富的监督、模型池感知的目标函数以及超越静态查询表示的信号。 总之,本文做出以下贡献: - • 我们在统一的实验设置下评估了五个基准上的21种LLM路由方法,揭示了路由平台现象。 - • 我们发现了该平台背后的正确性预测瓶颈:当前路由器倾向于学习模型能力的粗粒度全局模式,而不是细粒度的路由信号。 - • 我们构建了一个新的具有30万查询和280万查询-模型正确性标签的大规模路由训练数据集。我们用它来研究超越平台的三个方向:扩展训练数据、增强查询编码器和端到端微调。 - • 综合起来,我们的发现揭示了当前路由方法的结构性限制,并为构建更强大的下一代LLM路由器指明了道路。 ## 2 相关工作 #### LLM路由方法。 近期的路由器可分为几个设计族:预测每个模型正确性的**分类器风格**预测器[42 (https://arxiv.org/html/2606.07587#bib.bib6),51 (https://arxiv.org/html/2606.07587#bib.bib16),36 (https://arxiv.org/html/2606.07587#bib.bib19),41 (https://arxiv.org/html/2606.07587#bib.bib2)]、复制训练中最优邻居的**检索**路由器[37 (https://arxiv.org/html/2606.07587#bib.bib13),53 (https://arxiv.org/html/2606.07587#bib.bib20)]、**成对排序**路由器[18 (https://arxiv.org/html/2606.07587#bib.bib15),75 (https://arxiv.org/html/2606.07587#bib.bib12)]、**隐因子**和**IRT**模型[78 (https://arxiv.org/html/2606.07587#bib.bib4),55 (https://arxiv.org/html/2606.07587#bib.bib5)],以及将查询推向正确回答它的模型的**对比**路由器[8 (https://arxiv.org/html/2606.07587#bib.bib9),29 (https://arxiv.org/html/2606.07587#bib.bib22)]。级联、编排和赌博机风格的路由器[15 (https://arxiv.org/html/2606.07587#bib.bib17),73 (https://arxiv.org/html/2606.07587#bib.bib14),74 (https://arxiv.org/html/2606.07587#bib.bib3),66 (https://arxiv.org/html/2606.07587#bib.bib11),32 (https://arxiv.org/html/2606.07587#bib.bib18)]处于单次设置边缘,并作为参考点。每种新方法通常在其自己的编码器和实验设置下,在一个单一基准上针对一小部分基线进行评估。 #### 路由基准和分析。 有几个公开基准可用:RouterBench[22 (https://arxiv.org/html/2606.07587#bib.bib8)]、EmbedLLM[78 (https://arxiv.org/html/2606.07587#bib.bib4)]、R2-Bench[69 (https://arxiv.org/html/2606.07587#bib.bib21)]、CARROT/SPROUT[53 (https://arxiv.org/html/2606.07587#bib.bib20)]、RouterArena[38 (https://arxiv.org/html/2606.07587#bib.bib1)]和LLMRouterBench[31 (https://arxiv.org/html/2606.07587#bib.bib23)]。在分析方面,Lai和Ye [29 (https://arxiv.org/html/2606.07587#bib.bib22)] 表明训练过的路由器倾向于坍缩到一小部分首选模型上;Li等人[31 (https://arxiv.org/html/2606.07587#bib.bib23)] 报告许多近期甚至商业路由器无法可靠地击败一个简单基线;而Li [33 (https://arxiv.org/html/2606.07587#bib.bib24)] 认为一个良好调整的冻结嵌入kNN已经在各种任务上匹配了最先进的学习路由器。我们的工作对路由平台进行了更深入的分析,理解了其原因并确定了潜在的前进路径。 ## 3 预备知识和问题设置 #### 路由实例。 一个路由实例是一对 \((Q, P)\),其中 \(Q\) 是一个查询分布,\(P = \{1, \ldots, K\}\) 是一个固定的包含 \(K\) 个候选LLM的池。每个 \((q_i, m) \in Q \times P\) 关联一个二元正确性标签 \(Y_{i,m} \in \{0,1\}\) 和一个实值每次调用成本 \(c_{i,m} \geq 0\)。 #### 路由器。 路由器是一个函数 \(r\),它将一个查询映射到池中的单个模型,\(\hat{m}_i = r(q_i) \in P\)。路由器在有标签的训练集上拟合,并在不重叠的测试集上评估。我们评估的大多数路由器分解为一个**预测器**(产生分数 \(\hat{p}_{i,m} \in \mathbb{R}\) 近似 \(\Pr(Y_{i,m}=1 \mid q_i)\))和一个**选择器**(返回 \(\hat{m}_i = \arg\max_m \hat{p}_{i,m}\))。 #### 成本感知效用。 对于 \(\lambda \in [0,1]\),在查询 \(q_i\) 上选择模型 \(m\) 的成本效用标量化为 \(U(\lambda; q_i, m) = (1-\lambda) \hat{p}_{i,m} - \lambda \tilde{c}_{i,m}\),这泛化了RouterBench和R2-Bench[22 (https://arxiv.org/html/2606.07587#bib.bib8),69 (https://arxiv.org/html/2606.07587#bib.bib21)]中使用的度量。\(\lambda=0\) 恢复纯精度最大化;\(\lambda=1\) 是纯成本最小化。在本文中,评估单元由三元组 \((Q, P, \lambda)\) 索引。 #### 路由精度和神谕。 路由器 \(r\) 在大小为 \(N\) 的测试集 \(Q_{\mathrm{test}}\) 上的精度为 \(A_r = \frac{1}{N} \sum_{i=1}^{N} Y_{i, r(q_i)}\)。如果一个路由器在选择之前可以看到每个模型的正确性标签,它会选择一个正确的模型,给出 \(A_{\mathrm{oracle}} = \frac{1}{N} \sum_{i=1}^{N} \max_{m \in P} Y_{i,m}\)。\(A_{\mathrm{oracle}}\) 仅取决于 \((Q, P)\),而与使用哪个路由器无关。它由真实路由器在决策时从未见过的标签计算得出,因此它作为一个上界,而不是部署系统可以匹配的目标。 ## 4 跨路由器和基准的路由平台 在本节中,我们通过一项涵盖21种路由方法和五种代表性基准的大规模实证研究来刻画路由平台。 ### 4.1 路由器、基准和评估方法 #### 路由方法和编码器。 我们总共评估了21个路由器,包括覆盖从2023年到2026年主要设计族的18种方法:分类器风格路由器[42 (https://arxiv.org/html/2606.07587#bib.bib6),51 (https://arxiv.org/html/2606.07587#bib.bib16),36 (https://arxiv.org/html/2606.07587#bib.bib19),41 (https://arxiv.org/html/2606.07587#bib.bib2)]、检索路由器[37 (https://arxiv.org/html/2606.07587#bib.bib13),53 (https://arxiv.org/html/2606.07587#bib.bib20)]、排序和成对路由器[18 (https://arxiv.org/html/2606.07587#bib.bib15),75 (https://arxiv.org/html/2606.07587#bib.bib12)]、隐因子和IRT路由器[55 (https://arxiv.org/html/2606.07587#bib.bib5),78 (https://arxiv.org/html/2606.07587#bib.bib4)]、对比路由器[8 (https://arxiv.org/html/2606.07587#bib.bib9),29 (https://arxiv.org/html/2606.07587#bib.bib22)]、专家编排和级联路由器[74 (https://arxiv.org/html/2606.07587#bib.bib3),73 (https://arxiv.org/html/2606.07587#bib.bib14),15 (https://arxiv.org/html/2606.07587#bib.bib17),66 (https://arxiv.org/html/2606.07587#bib.bib11)]以及赌博机/成本感知路由器[32 (https://arxiv.org/html/2606.07587#bib.bib18)]。我们还包括了三个经典基线(mlp_cn[22 (https://arxiv.org/html/2606.07587#bib.bib8)], knn[22 (https://arxiv.org/html/2606.07587#bib.bib8)], kmeans[25 (https://arxiv.org/html/2606.07587#bib.bib25)]),使用相同的查询嵌入。我们在三个层级上使用六个查询编码器:sentence-transformer编码器(MiniLM-L6[61 (https://arxiv.org/html/2606.07587#bib.bib27)], MPNet-base[54 (https://arxiv.org/html/2606.07587#bib.bib28)])、BERT族编码器(BGE-base[68 (https://arxiv.org/html/2606.07587#bib.bib29)], ModernBERT-base和ModernBERT-large[63 (https://arxiv.org/html/2606.07587#bib.bib30)])以及一个仅解码器LLM编码器(Qwen2.5-0.5B[45 (https://arxiv.org/html/2606.07587#bib.bib31)])。六个编码器的输出维度从384到1024,参数数量跨三个数量级。在冻结编码器设置中,嵌入为每个(编码器,数据集)计算一次,并在所有方法之间共享。实验细节附录E (https://arxiv.org/html/2606.07587#A5) 中展开。 #### 基准测试。 我们在五个基准上评估路由器。其中四个是公开的LLM路由基准:RouterBench[22 (https://arxiv.org/html/2606.07587#bib.bib8)]、R2-Bench[69 (https://arxiv.org/html/2606.07587#bib.bib21)]、EmbedLLM[78 (https://arxiv.org/html/2606.07587#bib.bib4)]和CARROT/SPROUT[53 (https://arxiv.org/html/2606.07587#bib.bib20)]。它们足够大,可以训练一个冻结嵌入预测头,但对于可靠的数据缩放分析或端到端编码器微调来说太小了。为了弥补这一差距,我们构建了一个新的基准,包含两个配对子集。Nine-by-30k(3万个查询,带有9个模型的标签)与先前工作的规模相匹配,并支持头对头方法比较。Nine-by-300k将训练集增加了一个数量级,并支持数据缩放和编码器微调。相似文章
RouteProfile:阐明用于路由的LLM配置文件的设计空间
本文介绍了RouteProfile,这是一个用于路由系统中LLM配置文件的设计空间,证明了结构化配置文件和查询级信号能够提高路由性能以及对新模型的泛化能力。
@amitiitbhu: 新文章:LLM 路由,阅读链接:https://outcomeschool.com/blog/llm-routing…
一篇教程博客文章,介绍 LLM 路由——即根据成本、延迟和质量,将用户查询定向到最合适的 LLM 的实践方法。涵盖路由策略、LLM 路由器的结构解析,以及与混合专家模型(Mixture of Experts)的对比。
从早期经验中学习智能体路由
本文介绍了 BoundaryRouter,这是一个无需训练的框架,通过根据早期经验将查询路由至轻量级推理或完整智能体执行来优化大型语言模型(LLM)智能体的使用。此外,本文还提出了 RouteBench,这是一个用于评估路由性能的基准,显示出在速度和准确率方面的显著提升。
@heyshrutimishra: 大多数LLM路由器都是静态规则;OrcaRouter 是一个会学习的路由器。它嵌入每个提示,根据过去的…
OrcaRouter 是一个基于学习的LLM路由器,能够根据质量、成本、速度和可靠性动态地将提示路由到合适的模型,并随着生产流量的增加而持续改进。
UCCI: 校准不确定性实现成本最优的LLM级联路由
UCCI提出了一种校准优先的路由器,用于LLM级联,它使用等渗回归将令牌级别的边际不确定性映射到错误概率,在生产级NER任务中实现了31%的成本降低,同时保持微F1=0.91,并将期望校准误差从0.12降至0.03。