使用流形幂迭代重新设计混合专家路由器
摘要
研究人员提出了一种针对混合专家模型的新型路由器重新设计,利用流形幂迭代将路由器行与主奇异方向对齐,从而提升模型效果。
查看缓存全文
缓存时间: 2026/06/11 13:38
论文页面 - 利用流形幂迭代重新设计混合专家模型的路由器
来源:https://huggingface.co/papers/2606.12397
摘要
研究人员提出了一种新颖的混合专家模型路由器重新设计方案,通过使用流形幂迭代将路由行与专家矩阵的主奇异方向对齐,从而提升模型有效性。
路由器(https://huggingface.co/papers?q=Router)是混合专家(https://huggingface.co/papers?q=Mixture-of-Experts)模型的核心组件。作为专家代理(https://huggingface.co/papers?q=expert%20proxies),路由器矩阵(https://huggingface.co/papers?q=router%20matrix)的各行计算其与MoE输入的相似度,以决定激活哪个专家子集。理想情况下,每条路由器(https://huggingface.co/papers?q=router)行被设计为将专家矩阵(https://huggingface.co/papers?q=expert%20matrix)编码成这个代表性向量,使其与token的点积能更好地反映token-专家亲和度。然而,目前尚无设计原则来强制实现这种压缩。在本文中,我们提出将每条路由器(https://huggingface.co/papers?q=router)行与对应专家的主奇异方向(https://huggingface.co/papers?q=principal%20singular%20direction)对齐,因为该方向提供了矩阵最具表现力的数学描述。基于这一原则,我们提出了一种基于流形幂迭代(https://huggingface.co/papers?q=Manifold%20Power%20Iteration)(MPI)的路由器(https://huggingface.co/papers?q=router)重新设计方案。具体来说,它引入了一种“幂迭代后回缩”(Power-then-Retract)范式:首先对路由器(https://huggingface.co/papers?q=router)权重执行幂迭代(https://huggingface.co/papers?q=power%20iteration)步骤,然后通过回缩(https://huggingface.co/papers?q=retraction)施加范数约束,以确保效率和稳定性。理论上,我们证明MPI能够驱动路由器(https://huggingface.co/papers?q=router)行收敛到对应专家的主奇异方向(https://huggingface.co/papers?q=principal%20singular%20direction)。实验上,我们预训练了从1B到11B参数规模的MoE模型,证实这种对齐有助于实现更有效的MoE模型。
查看arXiv页面(https://arxiv.org/abs/2606.12397)查看PDF(https://arxiv.org/pdf/2606.12397)GitHub1(https://github.com/ericshwu/Router-with-Manifold-Power-Iteration)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12397)
在您的智能体中获取此论文:
hf papers read 2606\.12397
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
请在模型README.md中引用arxiv.org/abs/2606.12397以从本页面链接。
引用此论文的数据集0
没有数据集链接到此论文
请在数据集README.md中引用arxiv.org/abs/2606.12397以从本页面链接。
引用此论文的Space0
没有Space链接到此论文
请在Space README.md中引用arxiv.org/abs/2606.12397以从本页面链接。
包含此论文的收藏1
相似文章
通过有限专家库实现通信高效的专家路由
本文提出了一种针对稀疏混合专家(MoE)模型中通信高效专家路由的信息论框架,将门控机制视为随机信道,并推导实用的互信息估计器以分析有限专家库上的准确率-速率权衡。
如何扩展混合专家模型:从muP到最大化尺度稳定参数化
本文为混合专家(MoE)架构提出了一套具有理论基础的缩放理论,引入了最大化尺度稳定参数化(MSSP),确保在宽度、深度、专家宽度和专家数量上的稳定训练和超参数迁移,并通过实验验证。
混合专家语言模型中机器遗忘的路由感知专家校准
论文提出TRACE,一种用于混合专家语言模型中机器遗忘的方法,通过重新加权词元级保留损失来校准保留正则化,以解决遗忘-保留路由不匹配问题。实验表明,在多个MoE大语言模型上改善了遗忘-效用权衡。
将混合专家模型剪枝与蒸馏为稠密语言模型
一个系统框架通过专家评分、选择、分组和知识蒸馏将混合专家模型转换为稠密架构,相比传统剪枝方法实现了更优的性能和效率。
Mix-MoE:通过混合专家混合提升大语言模型的多语言机器翻译
Mix-MoE提出了一种混合专家混合框架,通过专门的专家组和傅里叶变换增强的路由机制来缓解多语言机器翻译中的参数干扰,相比基线方法取得了显著改进。