使用流形幂迭代重新设计混合专家路由器

Hugging Face Daily Papers 2026/06/10 00:00 论文

摘要

研究人员提出了一种针对混合专家模型的新型路由器重新设计，利用流形幂迭代将路由器行与主奇异方向对齐，从而提升模型效果。

路由器是混合专家模型的核心组件。作为专家代理，路由器矩阵的行计算与MoE输入的相似度，以决定激活哪一组专家。理想情况下，每个路由器行被设计为将专家矩阵编码到这个代表性向量中，从而使其与token的点积能更好地反映token与专家之间的亲和力。然而，目前尚无设计原则来强制执行这种压缩。在本文中，我们提出将每个路由器行与相关专家的主奇异方向对齐，因为该方向对矩阵提供了最具表现力的数学描述。基于这一原则，我们提出了使用流形幂迭代（MPI）的路由器重新设计。具体来说，它引入了一种“先幂迭代后收缩”的范式，先对路由器权重执行幂迭代步骤，然后通过收缩施加范数约束，以确保效率和稳定性。理论上，我们证明MPI驱动路由器行收敛到相关专家的主奇异方向。实验上，我们预训练了从1B到11B参数规模的MoE模型，以确认这种对齐有助于更有效的MoE模型。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:38

论文页面 - 利用流形幂迭代重新设计混合专家模型的路由器

来源：https://huggingface.co/papers/2606.12397

摘要

研究人员提出了一种新颖的混合专家模型路由器重新设计方案，通过使用流形幂迭代将路由行与专家矩阵的主奇异方向对齐，从而提升模型有效性。

路由器（https://huggingface.co/papers?q=Router）是混合专家（https://huggingface.co/papers?q=Mixture-of-Experts）模型的核心组件。作为专家代理（https://huggingface.co/papers?q=expert%20proxies），路由器矩阵（https://huggingface.co/papers?q=router%20matrix）的各行计算其与MoE输入的相似度，以决定激活哪个专家子集。理想情况下，每条路由器（https://huggingface.co/papers?q=router）行被设计为将专家矩阵（https://huggingface.co/papers?q=expert%20matrix）编码成这个代表性向量，使其与token的点积能更好地反映token-专家亲和度。然而，目前尚无设计原则来强制实现这种压缩。在本文中，我们提出将每条路由器（https://huggingface.co/papers?q=router）行与对应专家的主奇异方向（https://huggingface.co/papers?q=principal%20singular%20direction）对齐，因为该方向提供了矩阵最具表现力的数学描述。基于这一原则，我们提出了一种基于流形幂迭代（https://huggingface.co/papers?q=Manifold%20Power%20Iteration）（MPI）的路由器（https://huggingface.co/papers?q=router）重新设计方案。具体来说，它引入了一种“幂迭代后回缩”（Power-then-Retract）范式：首先对路由器（https://huggingface.co/papers?q=router）权重执行幂迭代（https://huggingface.co/papers?q=power%20iteration）步骤，然后通过回缩（https://huggingface.co/papers?q=retraction）施加范数约束，以确保效率和稳定性。理论上，我们证明MPI能够驱动路由器（https://huggingface.co/papers?q=router）行收敛到对应专家的主奇异方向（https://huggingface.co/papers?q=principal%20singular%20direction）。实验上，我们预训练了从1B到11B参数规模的MoE模型，证实这种对齐有助于实现更有效的MoE模型。

查看arXiv页面（https://arxiv.org/abs/2606.12397）查看PDF（https://arxiv.org/pdf/2606.12397）GitHub1（https://github.com/ericshwu/Router-with-Manifold-Power-Iteration）添加至收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.12397）

在您的智能体中获取此论文：

hf papers read 2606\.12397

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

请在模型README.md中引用arxiv.org/abs/2606.12397以从本页面链接。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集README.md中引用arxiv.org/abs/2606.12397以从本页面链接。

引用此论文的Space0

没有Space链接到此论文

请在Space README.md中引用arxiv.org/abs/2606.12397以从本页面链接。

使用流形幂迭代重新设计混合专家路由器

论文页面 - 利用流形幂迭代重新设计混合专家模型的路由器

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏1

相似文章

通过有限专家库实现通信高效的专家路由

如何扩展混合专家模型：从muP到最大化尺度稳定参数化

混合专家语言模型中机器遗忘的路由感知专家校准

将混合专家模型剪枝与蒸馏为稠密语言模型

Mix-MoE：通过混合专家混合提升大语言模型的多语言机器翻译

提交意见反馈