IR3DE: 一种面向大语言模型的线性路由器
摘要
IR3DE 是一种基于岭回归的路由器,可为不同任务选择领域专家大语言模型,在实现具有竞争力的性能的同时,还支持动态添加或移除专家而无需重新训练。
查看缓存全文
缓存时间: 2026/06/10 09:43
论文页面 - IR3DE:大语言模型的线性路由器
来源:https://huggingface.co/papers/2606.06098
摘要
一种基于岭回归的路由方法,在为不同任务选择领域专家大语言模型方面取得了具有竞争力的性能,同时支持动态添加/移除专家模型而无需重新训练。
基础大语言模型在广泛的一般任务上展现出熟练能力,并通过领域专家大语言模型在各类专业任务上取得了显著成果。随着可用大语言模型列表的不断增长,推理路由器被提出用于为每个提示选择最合适的大语言模型。然而,现有路由方法要么在弱到强通用大语言模型之间优化成本,要么需要大量训练来支持领域专业知识路由。本文提出 IR3DE,一种基于岭回归的领域专家路由器,为每个提示提供廉价且快速的路由决策。我们在两种因果语言建模设置(其中所有领域的任务都是下一个词元预测)和一种推理设置(每个领域有其独特的推理任务)中评估了 IR3DE。尽管是一个线性路由器,IR3DE 在两种因果语言建模设置中均达到了与其他基线相当的性能,并在推理设置中超越了它们,归一化性能达到 98.4%。此外,IR3DE 支持添加或移除新的领域专家模型,而无需从头重新训练路由器,从而允许以最小中断服务动态的大语言模型集合。我们的代码位于:github.com/gensyn-ai/IR3DE。
查看 arXiv 页面 (https://arxiv.org/abs/2606.06098) 查看 PDF (https://arxiv.org/pdf/2606.06098) 项目页面 (https://blog.gensyn.ai/look-beyond-one-size-fits-all-llms-with-ir3de/) GitHub2 (https://github.com/gensyn-ai/IR3DE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06098)
在你的智能体中获取这篇论文:
hf papers read 2606.06098
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.06098 以从此页面链接。
引用该论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.06098 以从此页面链接。
引用该论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.06098 以从此页面链接。
包含该论文的收藏集1
相似文章
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
动态潜路由
动态潜路由(DLR)让LLM通过搜索组合子策略来学习自己的内心独白,其灵感来源于语言的组合性。在低数据微调场景中,DLR达到或优于标准的监督微调。
使用流形幂迭代重新设计混合专家路由器
研究人员提出了一种针对混合专家模型的新型路由器重新设计,利用流形幂迭代将路由器行与主奇异方向对齐,从而提升模型效果。
混合专家语言模型中机器遗忘的路由感知专家校准
论文提出TRACE,一种用于混合专家语言模型中机器遗忘的方法,通过重新加权词元级保留损失来校准保留正则化,以解决遗忘-保留路由不匹配问题。实验表明,在多个MoE大语言模型上改善了遗忘-效用权衡。
RouteProfile:阐明用于路由的LLM配置文件的设计空间
本文介绍了RouteProfile,这是一个用于路由系统中LLM配置文件的设计空间,证明了结构化配置文件和查询级信号能够提高路由性能以及对新模型的泛化能力。