HyDRA: 面向异构LLM池的混合动态路由架构

arXiv cs.CL 论文

摘要

HyDRA是一种面向异构LLM池的混合动态路由架构,能够预测每个查询的细粒度能力需求,并通过不足匹配选择最便宜且能力满足需求的模型,在保持质量的同时实现高达72.5%的成本节省。该架构已部署于GitHub Copilot的VS Code Chat自动模式,并将路由与模型目录解耦,模型变更时无需重新训练。

arXiv:2605.17106v1 公告类型: 新 摘要: 生产级LLM部署越来越多地维护着异构模型池,其成本差异可达数量级。现有路由器采用二元强-弱决策,并将学习参数与特定模型身份耦合,模型目录变更时需重新训练。我们提出HyDRA(混合动态路由架构),一种预测每个查询的细粒度、多维能力需求,并通过不足匹配算法将其与配置定义的模型配置文件相匹配的框架。HyDRA使用一个带有K=4个独立sigmoid头的ModernBERT编码器,从推理、代码生成、调试和工具使用四个维度对每个查询进行评分;随后不足匹配算法选择能力满足预测需求的最便宜模型。部署后的预测器在生产环境中的CPU推理中位延迟为86毫秒,且与模型目录完全解耦——添加或移除模型仅需更改配置,无需重新训练。在SWE-Bench Verified上(5模型池:GPT-5.4-mini、Claude Haiku 4.5、GPT-5.3 Codex、Claude Sonnet 4.6、GPT-5.4),HyDRA的可调不足阈值覆盖三个区域:峰值质量超过始终采用强模型Claude Sonnet 4.6的基线(解决率75.4%对比74.2%),成本节省12.9%;等质量在成本节省54.1%时与Sonnet持平,较之前内部二元路由器的9.1%改进达6倍;激进模式在牺牲3.2个百分点的质量下将节省推至72.5%。结果在LiveCodeBench、BigCodeBench和tau-bench上具有泛化性。HyDRA已部署至GitHub Copilot的VS Code Chat自动模式的所有用户,并且——据我们所知,在LLM路由文献中首次——展示了跨中、日、韩、欧洲及其他文字家族的语言无关路由。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:38

# 异构大语言模型池的混合动态路由架构 来源:https://arxiv.org/html/2605.17106 Aashna GargSiddharth Singha RoyJinu Jang Federico BrancasiShengyu Fu Microsoft \{aashnagarg, ssingharoy, jinujang, fbrancasi, shengyfu\}@microsoft\.com ###### 摘要 生产环境中的 LLM 部署越来越多地维护着异构模型池,其成本可能相差一个数量级。现有的路由器做出二元的强 vs 弱决策,并将学习到的参数耦合到特定的模型身份上,每当模型目录发生变化时都需要重新训练。我们提出 HyDRA(混合动态路由架构),这是一种框架,它预测每个查询所需的细粒度、多维能力要求,并通过缺口匹配算法将这些要求与配置文件定义的模型画像进行匹配。一个 ModernBERT 编码器配备 K=4 个独立的 sigmoid 头,沿着*推理*、*代码生成*、*调试*和*工具使用*四个维度对每个查询进行评分;然后一个缺口匹配算法选择满足预测要求的最便宜模型。选择 ModernBERT 是因为其 CPU 推理成本低:部署的预测器在生产环境中的 CPU 上运行时,ModernBERT 推理中位延迟为 86 毫秒(表 14 (https://arxiv.org/html/2605.17106#A1.T14)),确保路由开销相对于 LLM 调用延迟可忽略不计。关键在于,预测器与模型目录完全解耦——添加或移除模型只需修改配置,无需重新训练。在 SWE-Bench Verified(5 模型池:GPT-5.4-mini、Claude Haiku 4.5、GPT-5.3 Codex、Claude Sonnet 4.6、GPT-5.4)上,HyDRA 的可调缺口阈值涵盖了三个有用的区域:在最高质量设置下,它*超过*了始终使用强模型 Claude Sonnet 4.6 的基线(75.4% vs. 74.2% 解决率),同时节省 12.9% 的成本;在等质量设置下,它匹配 Sonnet 的同时实现了 54.1% 的成本节省,相比我们之前的内部二元路由器(9.1%)提升了 6 倍;在激进设置下,它将节省推高至 72.5%,质量损失 3.2 个百分点。结果在 LiveCodeBench、BigCodeBench 和 τ-bench 上具有泛化性。HyDRA 已部署到 GitHub Copilot 的 VS Code Chat 自动模式中供所有用户使用,并且——据我们所知,首次在 LLM 路由文献中——展示了跨 CJK、欧洲及其他文字家族的语言不变路由。 HyDRA: 异构大语言模型池的混合动态路由架构 Aashna Garg Siddharth Singha Roy Jinu JangFederico BrancasiShengyu FuMicrosoft\{aashnagarg, ssingharoy, jinujang, fbrancasi, shengyfu\}@microsoft\.com ## 1 引言 服务数百万用户的生产系统——代码助手、对话代理、搜索助手——现在维护着由 10-15 个 LLM 组成的池,从每次查询成本低至几美分的轻量级模型到价格高出 10-50 倍的 frontier 推理模型。路由问题很直接:对于每个传入的查询,选择能够产生满意响应的最便宜模型。尽管具有实际重要性,路由仍然出人意料地未被充分探索。目前主流的部署方法是基础设施层面的负载均衡——完全不了解用户在问什么(GitHub,2025 (https://arxiv.org/html/2605.17106#bib.bib5))。最近的学习型路由器(Ong 等人,2024 (https://arxiv.org/html/2605.17106#bib.bib16);Ding 等人,2024 (https://arxiv.org/html/2605.17106#bib.bib4);Lu 等人,2024 (https://arxiv.org/html/2605.17106#bib.bib12))有所改进,但存在两个共同局限。 **现有路由器与模型耦合。** 它们学习 f(query) → model_id,其中模型身份嵌入在训练标签中。当模型被添加、退役或重新定价——这每月都会发生——路由器必须重新训练。 **现有路由器将异构的能力要求压缩成单一轴。** 需要深度多步推理但代码输出简单的查询,与需要复杂代码生成但无需推理的查询,或者主要由工具使用编排主导的查询,本质上是不同的。二元路由器(Ong 等人,2024 (https://arxiv.org/html/2605.17106#bib.bib16))和标量难度估计器(Chen 等人,2023 (https://arxiv.org/html/2605.17106#bib.bib3))将这种区别压缩成一个单一的强 vs 弱分数。在像 SWE-Bench 这样的单一任务基准测试中,几乎每个查询在推理和代码方面的权重比例相似,这种压缩的成本很小(附录 D (https://arxiv.org/html/2605.17106#A4),表 17 (https://arxiv.org/html/2605.17106#A4.T17))。但随着工作负载异构性的增加,成本会增长:这在工具密集型调试对话、在复杂性与其表面形式解耦的多语言流量中,以及——最重要的是——在*目录异构性*中显现出来,此时一个只知道查询“有多强”的路由器无法利用一个恰好在一维上表现最佳的中档模型(例如,一个小的代码调优模型,或一个专注于调试的模型),即使它被添加到池中。标量路由器要么忽略该模型,要么必须重新训练;而多维路由器会在该模型擅长的维度上路由给它,从第一天起就是如此。 **现有路由器未解决语言不变性问题。** 生产级代码助手服务全球用户,但已发布的学习型路由器(Ong 等人,2024 (https://arxiv.org/html/2605.17106#bib.bib16);Ding 等人,2024 (https://arxiv.org/html/2605.17106#bib.bib4);Lu 等人,2024 (https://arxiv.org/html/2605.17106#bib.bib12);Zhang 等人,2025 (https://arxiv.org/html/2605.17106#bib.bib25))仅在英文基准测试(Chatbot Arena、MT-Bench、SWE-Bench、MMLU)上训练和报告,同时期的多轮(Zhang 等人,2026b (https://arxiv.org/html/2605.17106#bib.bib26),a (https://arxiv.org/html/2605.17106#bib.bib23))和预路由(Liu 等人,2026 (https://arxiv.org/html/2605.17106#bib.bib11);Varshney 等人,2026 (https://arxiv.org/html/2605.17106#bib.bib20);Madeyski,2026 (https://arxiv.org/html/2605.17106#bib.bib14))系统也没有评估跨语言行为。最近使用“多语言路由”一词的类似工作(Bandarkar 等人,2026 (https://arxiv.org/html/2605.17106#bib.bib1))研究的是单一 MoE 模型*内部*的 token 级专家路由,而不是跨独立定价 LLM 池的选择;Routesplain(Štorek 等人,2025 (https://arxiv.org/html/2605.17106#bib.bib18))路由“多语言”软件任务,但这里指的是编程语言,而非自然语言。路由必须是语言不变的:应该是任务复杂度,而非输入的自然语言,决定模型选择。据我们所知,没有先前的 LLM 池路由系统明确评估过跨自然语言文字家族的路由一致性。 我们提出 HyDRA,基于三个思路: 1. 1. **多维能力预测。** 一个轻量级编码器为每个查询预测 K=4 个独立的得分:推理、代码生成、调试、工具使用。 2. 2. **配置解耦的模型匹配。** 模型能力存在于 YAML 文件中,而非学习到的权重中。路由器通过缺口匹配选择覆盖预测要求的最便宜模型。 3. 3. **语言不变的多语言路由。** 在覆盖 CJK、欧洲及其他文字家族的 21 种语言上进行训练,确保路由决策取决于任务复杂度,而非语言。 实际后果:向目录添加模型只需编辑一个 YAML 文件。无需重新训练,无需重新部署。 HyDRA 是我们已部署路由系统的第二次迭代。第一次迭代——一个内部的二元强 vs 弱 ModernBERT 分类器(二元路由器)——于 2026 年初投入生产,并作为本文最具有操作意义的基线。它同样受上述两个局限性(模型耦合、维度贫乏)的困扰,这直接推动了 HyDRA 的重新设计,我们将在 §7 (https://arxiv.org/html/2605.17106#S7) 和 §8 (https://arxiv.org/html/2605.17106#S8) 中针对已部署的前身进行量化评估。我们为服务于数千万开发者的商业 AI 代码助手开发了 HyDRA。我们的贡献如下: 1. 1. **通过缺口匹配实现能力解耦路由**(§3 (https://arxiv.org/html/2605.17106#S3),§3.3 (https://arxiv.org/html/2605.17106#S3.SS3))。据我们所知,这是第一个完全将学习到的预测器与模型目录解耦的路由器:预测是在 K=4 个能力维度上的查询*要求*,模型选择是通过配置驱动的缺口匹配算法实现的。添加、移除或重新定价模型只需编辑 YAML 文件——无需重新训练,无需重新部署。 2. 2. **具有结构化标注管道的多维能力预测**(§4 (https://arxiv.org/html/2605.17106#S4))。单次 ModernBERT 前向传播产生 K 个独立的能力要求得分,在 50,016 个双模型 LLM 评判标签上训练,并采用位置交换去偏。 3. 3. **跨 21 种语言和 3 个文字家族的语言不变路由**(§5 (https://arxiv.org/html/2605.17106#S5))。据我们所知,这是第一个已部署的多语言 LLM 路由器,在 CJK、欧洲及其他文字家族之间报告了每种语言的质量和成本均等性。 4. 4. **在 GitHub Copilot 中的生产集成**(§10 (https://arxiv.org/html/2605.17106#S10)):会话粘性路由、图像硬门控、健康感知过滤,以及在 GitHub Copilot API(CAPI)基础设施上的零停机模型生命周期管理。 5. 5. **端到端实证验证**(§7 (https://arxiv.org/html/2605.17106#S7)):在 SWE-Bench Verified 上的成本-质量帕累托扫描(在节省 54.1% 成本的情况下实现与始终使用强模型基线等质量),跨基准泛化到 LiveCodeBench、BigCodeBench 和 τ-bench,一个受控的 50/50 A/B 实验(§8.2 (https://arxiv.org/html/2605.17106#S8.SS2)),以及一个两周的生产记分卡(§8.2 (https://arxiv.org/html/2605.17106#S8.SS2.SSSx1))。 ##### 关于本预印本版本的说明。 此 v1 版完整报告了离线基准测试、竞争比较、可移植性和消融实验结果。生产遥测表(表 10 (https://arxiv.org/html/2605.17106#S8.T10),11 (https://arxiv.org/html/2605.17106#S8.T11))、§9 (https://arxiv.org/html/2605.17106#S9) 中的维度权重数值以及附录 F (https://arxiv.org/html/2605.17106#A6) 中的每种语言细分将推迟到 v2 版发布,等待下一次评估执行环境运行和生产遥测审批;受影响的单元格用长破折号(—)标记。周围文字中的定性声明作为设计陈述保留,在 v2 版发布之前应视为前瞻性陈述。 ## 2 相关工作 ##### LLM 路由。 RouteLLM (Ong 等人, 2024 (https://arxiv.org/html/2605.17106#bib.bib16)) 在 Chatbot Arena 偏好数据上训练分类器,用于二元强 vs 弱路由。他们的矩阵分解方法联合嵌入查询和模型,将路由器与训练时的身份耦合在一起。Hybrid LLM (Ding 等人, 2024 (https://arxiv.org/html/2605.17106#bib.bib4)) 使用 BERT 难度预测器进行二元路由。两者都是二元的且与模型耦合。ZOOTER (Lu 等人, 2024 (https://arxiv.org/html/2605.17106#bib.bib12)) 通过奖励模型对每个候选者进行评分,需要 N 次前向传播。HyDRA 使用单次前向传播,预测多维*要求*(而非偏好),并将模型能力存储在配置中。 ##### 级联与验证。 FrugalGPT (Chen 等人, 2023 (https://arxiv.org/html/2605.17106#bib.bib3)) 按最便宜优先的顺序级联模型,在升级前进行验证。AutoMix (Madaan 等人, 2024 (https://arxiv.org/html/2605.17106#bib.bib13)) 增加了自我验证。两者都会增加与级联深度成正比的延迟,并丢弃部分生成结果。EcoAssistant (Zhang 等人, 2024 (https://arxiv.org/html/2605.17106#bib.bib24)) 结合了级联与解决方案级别的缓存。HyDRA 是预路由:在生成之前选择模型,仅增加编码器延迟(40–80ms)。 ##### 集成与 MoE。 LLM-Blender (Jiang 等人, 2023 (https://arxiv.org/html/2605.17106#bib.bib9)) 融合来自多个模型的响应(N× 成本)。Mixture-of-Experts (Jiang 等人, 2024 (https://arxiv.org/html/2605.17106#bib.bib8)) 在一个模型内路由 token;HyDRA 在多个不同模型之间路由查询。 ##### 同时期的多轮路由。 MTRouter (Zhang 等人, 2026b (https://arxiv.org/html/2605.17106#bib.bib26)) 将交互历史和候选模型编码成联合嵌入,从记录的轨迹中学习结果估计器,用于逐轮模型选择。DialRouter (Zhang 等人, 2026a (https://arxiv.org/html/2605.17106#bib.bib23)) 使用 MCTS 探索对话分支,并从搜索衍生的数据中训练一个轻量级路由策略。两者都是模型耦合的(模型身份嵌入到学习到的参数中),并且需要昂贵的轨迹收集。HyDRA 的置信门控粘性路由以零计算成本实现了多轮感知。 ##### 同时期的预路由方法。 TRouter (Liu 等人, 2026 (https://arxiv.org/html/2605.17106#bib.bib11)) 通过潜在任务类型变量对查询条件化的成本和性能进行建模,通过合成数据解决冷启动场景。LLM Router (Varshney 等人, 2026 (https://arxiv.org/html/2605.17106#bib.bib20)) 使用内部预填充激活作为路由信号,需要开放权重编码器访问。Triage (Madeyski, 2026 (https://arxiv.org/html/2605.17106#bib.bib14)) 通过代码健康指标路由软件工程任务。所有这些仍然是与模型耦合且单维的。HyDRA 是唯一结合了多维预测与完全模型解耦的系统。 ##### 对抗鲁棒性。 R2A (Tang 等人, 2026 (https://arxiv.org/html/2605.17106#bib.bib19)) 证明对抗后缀优化可以操纵成本感知的路由器选择昂贵的模型,为已部署的路由系统暴露了一个安全面。我们将在 §局限 (https://arxiv.org/html/2605.17106#Sx1) 中讨论对 HyDRA 的影响。 ### 2.1 竞争分析 表 1 (https://arxiv.org/html/2605.17106#S2.T1) 将 HyDRA 与已发布的路由系统在关键设计维度上进行了比较。 表 1:LLM 路由系统的竞争分析。HyDRA 是唯一一个完全模型解耦(目录变更无需重新训练)、使用多维能力预测,并且——据我们所知——首个提供跨 21 种语言多语言路由的系统。已部署的预测器仅消耗当前用户消息加上一个粗略的轮次计数信号;会话级别的连续性由粘性路由策略(§10.2 (https://arxiv.org/html/2605.17106#S10.SS2))提供,而非预测器。 ## 3 架构 HyDRA 包含三个组件:一个能力要求预测器(§3.1 (https://arxiv.org/html/2605.17106#S3.SS1))、模型能力画像(§3.2 (https://arxiv.org/html/2605.17106#S3.SS2))和缺口匹配(§3.3 (https://arxiv.org/html/2605.17106#S3.SS3))。图 1 (https://arxiv.org/html/2605.17106#S3.F1) 展示了端到端流程。 输入构造 信号前缀 TC,ERR,FILE,URL,CMD,CODE,SHORT 当前用户消息 全文,单轮 token 化,512 token 上限 能力预测器 ModernBERT-base 1.49 亿参数,ONNX 动态 INT8(跳跃注意力) [CLS] → Dropout(0.1) K=4 Sigmoid 头 σ(w₁ᵀh+b₁) σ(w₂ᵀh+b₂) σ(w₃ᵀh+b₃) σ(w₄ᵀh+b₄) r̂₁=0.91 r̂₂=0.45 r̂₃=0.88 r̂₄=0.35 推理 代码生成 调试 工具使用 缺口匹配 模型能力画像 外部可配置

相似文章

动态潜路由

Hugging Face Daily Papers

动态潜路由(DLR)让LLM通过搜索组合子策略来学习自己的内心独白,其灵感来源于语言的组合性。在低数据微调场景中,DLR达到或优于标准的监督微调。

提示引导的多样化策略优化用于LLM推理

arXiv cs.CL

本文介绍了提示引导的多样化策略优化(HDPO),这是一个两阶段强化学习框架,鼓励LLMs首先生成多个候选解决方案大纲(提示),然后选择最可靠的一个进行详细推理,从而提升推理的多样性和可靠性。