从采样结果到能力分布：重新思考LLM路由的监督

arXiv cs.LG 2026/06/08 04:00 论文

摘要

本文提出DARS，一个从模型行为的分布视角构建路由监督的框架，旨在解决LLM路由中单次标签不可靠的问题。

arXiv:2606.06924v1 公告类型：新摘要：现有的LLM路由方法通常将模型对查询的单个响应视为其能力标签，用于训练路由器。然而，由于LLM生成本质上是随机的，这种单次监督只能提供查询-模型对行为的噪声观察，而非可靠的能力估计。我们证明，这一假设给路由监督引入了系统性噪声，使得学习到的路由策略可靠性降低。为解决这一问题，我们提出DARS（Distribution-Aware Routing Supervision，分布感知路由监督），这是一个从模型行为的分布视角构建路由监督的框架。DARS不依赖于单个生成响应，而是考虑输入侧和输出侧的不确定性，捕获语义等价的查询表述和随机生成如何影响模型性能。基于这些分布感知的观察，DARS构建了更可靠的路由监督信号。跨多个任务的实验表明，单次标签可能误导模型选择，而分布感知监督提供了更稳定的标签并改善了学习到的路由行为。我们的结果表明，可靠的LLM路由应超越单次响应观察，并以查询级别的模型能力分布为基础。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:19

# 从采样结果到能力分布：重新审视LLM路由的监督信号  
来源：https://arxiv.org/html/2606.06924  
赖冠男¹²，胡浩然¹²，陈龙³，李振国³⁴，叶瀚嘉¹²\(🖂\)  
¹南京大学人工智能学院  
²南京大学软件新技术国家重点实验室  
³香港科技大学  
⁴前沿机器人  
\{laign,yehj\}@lamda\.nju\.edu\.cn, huhr@smail\.nju\.edu\.cn, longchen@ust\.hk, zhenguol@gmail\.com  
![[无标题图片]](https://arxiv.org/html/2606.06924v1/x1.png)  
数据集 (https://huggingface.co/datasets/AIGNLAI/DARS)  
![[无标题图片]](https://arxiv.org/html/2606.06924v1/x2.png)  
源代码 (https://github.com/AIGNLAI/DARS)  

###### 摘要  
现有的大语言模型（LLM）路由方法通常将模型对查询的单次响应作为训练路由器的能力标签。然而，由于LLM生成过程本质上是随机的，这种单次监督仅提供了查询-模型对行为的噪声观测，而非可靠的能力估计。我们证明，这一假设会向路由监督中引入系统性噪声，导致学习到的路由策略可靠性降低。为解决这一问题，我们提出**DARS**（分布感知路由监督，Distribution-Aware Routing Supervision），一种从模型行为的分布视角构建路由监督的框架。DARS不依赖于单次生成响应，而是同时考虑输入侧和输出侧的不确定性，捕捉语义等价的查询变体和随机生成如何影响模型性能。基于这些分布感知的观测，DARS构建出更可靠的路由监督信号。跨多种任务的实验表明，单次标签可能会误导模型选择，而少量的分布观测即可产生更稳定的标签，并改善学习到的路由行为。我们的结果表明，可靠的LLM路由应超越单次响应观测，并建立在查询级模型能力分布之上。  

从采样结果到能力分布：重新审视LLM路由的监督信号  
赖冠男¹²，胡浩然¹²，陈龙³，李振国³⁴，叶瀚嘉¹²\(🖂\)  
¹南京大学人工智能学院  
²南京大学软件新技术国家重点实验室  
³香港科技大学  
⁴前沿机器人  
\{laign,yehj\}@lamda\.nju\.edu\.cn, huhr@smail\.nju\.edu\.cn, longchen@ust\.hk, zhenguol@gmail\.com  
![[无标题图片]](https://arxiv.org/html/2606.06924v1/x3.png)  
数据集 (https://huggingface.co/datasets/AIGNLAI/DARS)  
![[无标题图片]](https://arxiv.org/html/2606.06924v1/x4.png)  
源代码 (https://github.com/AIGNLAI/DARS)  

## 1 引言  
参考图注  
图1：LLM路由中单次标签问题的示意图。彩色区域代表查询-行为空间中不同模型偏好的部分。对于同一原始查询，重复生成可能导致这些区域中出现多个观测结果，而单次监督仅观测到一个采样结果，因此可能产生不稳定的路由标签。  

大语言模型（LLM）越来越多地被部署为异构模型池，而非孤立的单一系统。在实践中，不同模型展现出不同的优势：轻量模型通常能处理简单指令或事实性查询，而更大或更专业的模型可能适用于复杂推理、数学问题求解、生物医学问答或长上下文理解。这些模型在推理成本、延迟、上下文长度和可用性方面也存在显著差异。因此，**LLM路由**已成为一种实现成本效益部署的重要机制：给定一个输入查询，路由器从候选池中选择合适的模型，旨在平衡响应质量和服务成本。近期的路由方法和基准在学查询依赖的模型选择策略方面取得了显著进展（Chen等，2023 (https://arxiv.org/html/2606.06924#bib.bib140)；Ong等，2025 (https://arxiv.org/html/2606.06924#bib.bib131)；Hu等，2024 (https://arxiv.org/html/2606.06924#bib.bib148)；Huang等，2025 (https://arxiv.org/html/2606.06924#bib.bib168)）。尽管取得了这些进展，大多数路由监督仍用单个生成响应及其分数来表示每个查询-模型对。这种点估计视角对于确定性预测或封闭式分类可能足够，但与自由形式的LLM生成并不一致，因为输出本质上是随机的。先前关于不确定性估计和幻觉检测的工作表明，LLM生成对采样随机性敏感，并在表面形式和语义内容上可能变化（Kuhn等，2023 (https://arxiv.org/html/2606.06924#bib.bib163)；Manakul等，2023 (https://arxiv.org/html/2606.06924#bib.bib164)；Farquhar等，2024 (https://arxiv.org/html/2606.06924#bib.bib167)）。如图1 (https://arxiv.org/html/2606.06924#S1.F1) 所示，即使对于同一原始查询，不同的采样结果可能指示不同的模型偏好。这为LLM路由提出了一个基本问题：单个采样响应能否可靠地作为模型选择的监督信号？这种不匹配可能会传递到整个路由管道。模型采样响应的变异性可能改变其观测分数；观测分数的变化可能改变对于某一查询哪个模型更优的结论；而在这种样本依赖标签上训练的路由器可能学到反映偶然生成噪声而非模型能力稳定差异的策略。这些问题催生了一种分布感知的路由监督视角，其中标签基于查询-模型行为的重复观测而非孤立的采样输出构建。  

本文中，我们提出**DARS**（分布感知路由监督，Distribution-Aware Routing Supervision），一个为LLM路由构建分布感知监督信号的框架。DARS同时考虑输入侧和输出侧的不确定性：通过语义保持的提示改写捕捉对查询表述的敏感性，并通过重复解码捕捉生成中的随机变化。基于这些观测，DARS构建更可靠的路由标签，这些标签反映查询级的模型行为而非孤立输出。我们在多项任务上评估DARS，包括多项选择科学推理、数学问题求解和阅读理解，使用包含六个LLM的异构池。我们的分析表明，单次标签在模型选择中可能不稳定且具有误导性，而少量的分布观测即可产生更可靠的监督。进一步实验表明，使用DARS监督训练的路由器比使用单次响应标签训练的路由器实现更稳定、更有效的路由行为。我们的贡献包括三个方面：  
- • 我们识别并系统分析了LLM路由中的**单次标签假设**，表明用单个生成响应表示查询-模型行为会引入不稳定且含噪声的路由监督。  
- • 我们引入了**DARS**，一个分布感知的路由监督框架，通过提示改写和重复解码同时考虑输入侧和输出侧的不确定性。  
- • 我们在不同数据集和模型上的实验证明，与单次响应监督相比，分布感知监督能产生更可靠的路由标签并改善学习到的路由策略。  

## 2 相关工作  

#### LLM路由。  
LLM路由旨在为每个输入查询从异构模型池中选择合适的模型，通常平衡响应质量和推理成本。早期工作研究了成本感知的模型选择和级联策略，表明自适应地使用多个LLM可以在维持甚至提升性能的同时降低推理成本（Chen等，2023 (https://arxiv.org/html/2606.06924#bib.bib140)；Zhang等，2023 (https://arxiv.org/html/2606.06924#bib.bib139)；Aggarwal等，2024 (https://arxiv.org/html/2606.06924#bib.bib102)；Yue等，2023 (https://arxiv.org/html/2606.06924#bib.bib159)；Lai和Ye，2026 (https://arxiv.org/html/2606.06924#bib.bib3)）。近期方法进一步通过不同的监督和建模策略学习查询依赖的路由策略。例如，Hybrid LLM和BEST-Route研究质量-成本约束下的自适应路由（Ding等，2024 (https://arxiv.org/html/2606.06924#bib.bib130)，2025 (https://arxiv.org/html/2606.06924#bib.bib106)）；RouteLLM从偏好数据学习路由（Ong等，2025 (https://arxiv.org/html/2606.06924#bib.bib131)）；TensorOpera Router、EmbedLLM、IRT-Router、GraphRouter和因果路由分别基于回归、表示学习、项目反应理论、图建模或遗憾最小化发展不同的学习路由（Stripeliset等，2024 (https://arxiv.org/html/2606.06924#bib.bib132)；Zhuang等，2024 (https://arxiv.org/html/2606.06924#bib.bib152)；Song等，2025 (https://arxiv.org/html/2606.06924#bib.bib169)；Feng等，2025 (https://arxiv.org/html/2606.06924#bib.bib127)；Tsiourvas等，2025 (https://arxiv.org/html/2606.06924#bib.bib161)；Ma等，2026 (https://arxiv.org/html/2606.06924#bib.bib86)）。其他研究探讨了无需训练、基于检索、可控制或偏好感知的路由策略（Zhao等，2024 (https://arxiv.org/html/2606.06924#bib.bib138)；Li，2025 (https://arxiv.org/html/2606.06924#bib.bib150)；Mei等，2025 (https://arxiv.org/html/2606.06924#bib.bib89)；Piskala等，2025 (https://arxiv.org/html/2606.06924#bib.bib104)）。RouterBench和RouterEval等基准为多LLM路由提供了系统的评估设置（Hu等，2024 (https://arxiv.org/html/2606.06924#bib.bib148)；Huang等，2025 (https://arxiv.org/html/2606.06924#bib.bib168)）。与这些工作不同，我们不专注于设计新的路由器架构；相反，我们重新审视用于训练或评估路由器的监督信号。  

#### 不确定性感知和高效的LLM推理。  
有几类工作通过估计不确定性、决定何时应交给更强模型或自适应分配计算资源来提高LLM推理效率。例如，基于不确定性的两级选择以及相关的缓存或蒸馏策略，通过识别何时便宜模型已足够，减少昂贵的模型调用（Ramírez等，2024 (https://arxiv.org/html/2606.06924#bib.bib100)，2023 (https://arxiv.org/html/2606.06924#bib.bib101)）。其他工作研究预算和质量可控路由、服务质量感知路由或在部署约束下的动态路由（Mei等，2025 (https://arxiv.org/html/2606.06924#bib.bib89)；Yang等，2025b (https://arxiv.org/html/2606.06924#bib.bib90)；Wang等，2025 (https://arxiv.org/html/2606.06924#bib.bib134)）。近期研究还考察了路由的鲁棒性和脆弱性，表明路由策略在分布偏移、对抗设置或生命周期变化下可能很脆弱（Shafran等，2025 (https://arxiv.org/html/2606.06924#bib.bib91)；Lin等，2025 (https://arxiv.org/html/2606.06924#bib.bib144)；Kassem等，2025 (https://arxiv.org/html/2606.06924#bib.bib145)）。这些工作强调了可靠模型选择的重要性，但它们通常假设查询-模型对的观测分数是合适的监督信号。相反，DARS认为这些观测本身是随机的，应被视为潜在能力分布的样本。  

#### 语言模型生成中的不确定性和鲁棒性。  
我们的工作还与LLM生成的不确定性估计和鲁棒性分析相关。先前研究表明，LLM输出在采样随机性下可能显著变化，且生成间的不一致性可以揭示不确定性或幻觉风险（Kuhn等，2023 (https://arxiv.org/html/2606.06924#bib.bib163)；Manakul等，2023 (https://arxiv.org/html/2606.06924#bib.bib164)；Farquhar等，2024 (https://arxiv.org/html/2606.06924#bib.bib167)）。另一类研究探讨了提示的鲁棒性，表明语义相似或对抗性扰动的提示可能导致不同的模型预测（Gan和Mori，2023 (https://arxiv.org/html/2606.06924#bib.bib165)；Zhu等，2023 (https://arxiv.org/html/2606.06924#bib.bib166)）。这些发现表明，模型对查询的行为不能仅由单个生成响应充分表征。DARS将这一见解引入LLM路由：不通过孤立的采样结果构建路由标签，而是利用查询改写和重复随机解码来估计每个查询-模型对的分布感知能力信号。  

## 3 预备知识  

### 3.1 LLM路由的单次监督  
LLM路由考虑候选模型池 $\mathcal{M}=\{m_1,\ldots,m_K\}$，目标是为每个输入查询 $x$ 选择合适的模型。给定路由函数 $r(\cdot)$，所选模型为 $r(x) \in \mathcal{M}$。目标是在响应质量和推理成本之间实现有利的权衡：路由器应在必要时将困难查询分配给更强大的模型，同时避免对可由更便宜替代模型处理的查询不必要地使用昂贵模型。  

在典型的路由设置中，每个模型 $m$ 为查询 $x$ 生成一个响应 $y$。响应沿两个维度进行评估。首先，任务特定的性能函数 $s(\cdot)$ 衡量响应质量，例如多项选择或数学任务的准确率，或阅读理解的F1值。其次，成本函数 $\kappa(\cdot)$ 衡量产生响应的推理成本，该成本可能取决于模型、查询、输出长度和解码过程。因此，对于查询-模型对 $(x_i, m)$，生成的响应同时带来性能观测和成本观测。  

大多数现有路由数据集的监督来自每个查询-模型对的单个观测响应。具体来说，对于每个查询 $x_i$ 和模型 $m$，生成一个响应：  
$y_{i,m}^{\mathrm{single}} \sim P(y \mid x_i, m)$，  
并记录相应的单次观测：  
$q_{i,m}^{\mathrm{single}} = s(y_{i,m}^{\mathrm{single}}, x_i), \quad c_{i,m}^{\mathrm{single}} = \kappa(y_{i,m}^{\mathrm{single}}, x_i, m)$。  
此处，$q_{i,m}^{\mathrm{single}}$ 表示模型 $m$ 在查询 $x_i$ 上的观测性能，而 $c_{i,m}^{\mathrm{single}}$ 表示该次生成的观测成本。重要的是，成本不一定是模型级的常数：即使对于同一模型，由于提示长度、补全长度和生成行为的差异，成本也可能在不同的查询和采样输出中变化。  

给定数据集 $\mathcal{D}=\{x_i\}_{i=1}^N$ 和成本预算 $C_{\max}$，路由目标可表述为约束优化问题：  
$\max_{r} \frac{1}{N} \sum_{i=1}^N q_{i,r(x_i)}^{\mathrm{single}} \quad \mathrm{s.t.} \quad \frac{1}{N} \sum_{i=1}^N c_{i,r(x_i)}^{\mathrm{single}} \leq C_{\max}$。  
即，路由器旨在最大化平均性能，同时将平均推理成本保持在规定预算内。

从采样结果到能力分布：重新思考LLM路由的监督

相似文章

动态潜路由

RouteProfile：阐明用于路由的LLM配置文件的设计空间

从早期经验中学习智能体路由

@lateinteraction: 你可能错过了：阅读关于Pedagogical RL的博客，与其盲目地从你的LLM中采样，不如利用用于RLVR的标签！学习…

通过强化学习将分布感知注入多模态大语言模型以应对深度不平衡回归

提交意见反馈