使用流形幂迭代重新设计混合专家路由器

Hugging Face Daily Papers 论文

摘要

研究人员提出了一种针对混合专家模型的新型路由器重新设计,利用流形幂迭代将路由器行与主奇异方向对齐,从而提升模型效果。

路由器是混合专家模型的核心组件。作为专家代理,路由器矩阵的行计算与MoE输入的相似度,以决定激活哪一组专家。理想情况下,每个路由器行被设计为将专家矩阵编码到这个代表性向量中,从而使其与token的点积能更好地反映token与专家之间的亲和力。然而,目前尚无设计原则来强制执行这种压缩。在本文中,我们提出将每个路由器行与相关专家的主奇异方向对齐,因为该方向对矩阵提供了最具表现力的数学描述。基于这一原则,我们提出了使用流形幂迭代(MPI)的路由器重新设计。具体来说,它引入了一种“先幂迭代后收缩”的范式,先对路由器权重执行幂迭代步骤,然后通过收缩施加范数约束,以确保效率和稳定性。理论上,我们证明MPI驱动路由器行收敛到相关专家的主奇异方向。实验上,我们预训练了从1B到11B参数规模的MoE模型,以确认这种对齐有助于更有效的MoE模型。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:38

论文页面 - 利用流形幂迭代重新设计混合专家模型的路由器

来源:https://huggingface.co/papers/2606.12397

摘要

研究人员提出了一种新颖的混合专家模型路由器重新设计方案,通过使用流形幂迭代将路由行与专家矩阵的主奇异方向对齐,从而提升模型有效性。

路由器(https://huggingface.co/papers?q=Router)是混合专家(https://huggingface.co/papers?q=Mixture-of-Experts)模型的核心组件。作为专家代理(https://huggingface.co/papers?q=expert%20proxies),路由器矩阵(https://huggingface.co/papers?q=router%20matrix)的各行计算其与MoE输入的相似度,以决定激活哪个专家子集。理想情况下,每条路由器(https://huggingface.co/papers?q=router)行被设计为将专家矩阵(https://huggingface.co/papers?q=expert%20matrix)编码成这个代表性向量,使其与token的点积能更好地反映token-专家亲和度。然而,目前尚无设计原则来强制实现这种压缩。在本文中,我们提出将每条路由器(https://huggingface.co/papers?q=router)行与对应专家的主奇异方向(https://huggingface.co/papers?q=principal%20singular%20direction)对齐,因为该方向提供了矩阵最具表现力的数学描述。基于这一原则,我们提出了一种基于流形幂迭代(https://huggingface.co/papers?q=Manifold%20Power%20Iteration)(MPI)的路由器(https://huggingface.co/papers?q=router)重新设计方案。具体来说,它引入了一种“幂迭代后回缩”(Power-then-Retract)范式:首先对路由器(https://huggingface.co/papers?q=router)权重执行幂迭代(https://huggingface.co/papers?q=power%20iteration)步骤,然后通过回缩(https://huggingface.co/papers?q=retraction)施加范数约束,以确保效率和稳定性。理论上,我们证明MPI能够驱动路由器(https://huggingface.co/papers?q=router)行收敛到对应专家的主奇异方向(https://huggingface.co/papers?q=principal%20singular%20direction)。实验上,我们预训练了从1B到11B参数规模的MoE模型,证实这种对齐有助于实现更有效的MoE模型。

查看arXiv页面(https://arxiv.org/abs/2606.12397)查看PDF(https://arxiv.org/pdf/2606.12397)GitHub1(https://github.com/ericshwu/Router-with-Manifold-Power-Iteration)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12397)

在您的智能体中获取此论文:

hf papers read 2606\.12397

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

请在模型README.md中引用arxiv.org/abs/2606.12397以从本页面链接。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集README.md中引用arxiv.org/abs/2606.12397以从本页面链接。

引用此论文的Space0

没有Space链接到此论文

请在Space README.md中引用arxiv.org/abs/2606.12397以从本页面链接。

包含此论文的收藏1

相似文章

通过有限专家库实现通信高效的专家路由

arXiv cs.LG

本文提出了一种针对稀疏混合专家(MoE)模型中通信高效专家路由的信息论框架,将门控机制视为随机信道,并推导实用的互信息估计器以分析有限专家库上的准确率-速率权衡。

混合专家语言模型中机器遗忘的路由感知专家校准

arXiv cs.CL

论文提出TRACE,一种用于混合专家语言模型中机器遗忘的方法,通过重新加权词元级保留损失来校准保留正则化,以解决遗忘-保留路由不匹配问题。实验表明,在多个MoE大语言模型上改善了遗忘-效用权衡。