DOT-MoE:面向MoE化的可微最优传输
摘要
DOT-MoE将密集层分解形式化为可微最优传输问题,能够高效训练稀疏MoE模型,在将活跃参数减少50%的同时保留原始模型90%的性能。
查看缓存全文
缓存时间: 2026/06/02 19:33
论文页面 - DOT-MoE:基于可微最优输运的MoE化方法
来源: https://huggingface.co/papers/2606.01666
摘要
DOT-MoE 将稠密层分解建模为一个可微最优输运问题,从而能够高效训练稀疏 MoE 模型,并更好地保留原有性能。
大规模语言模型(LLMs)的扩展带来了显著的性能提升,但同时也造成了推理效率方面的重大挑战。虽然混合专家(Mixture of Experts (https://huggingface.co/papers?q=Mixture%20of%20Experts),MoE)架构通过将模型大小与推理成本解耦来解决这一问题,但从头训练 MoE 往往不稳定且计算密集。将预训练的稠密模型转换为稀疏 MoE 已成为一种替代方案;然而,现有方法通常依赖于启发式神经元聚类或随机拆分(random splitting (https://huggingface.co/papers?q=random%20splitting))来划分前馈网络(Feed-Forward Network (https://huggingface.co/papers?q=Feed-Forward%20Network),FFN)中的专家。在这项工作中,我们提出了 DOT-MoE,这是一个新颖的框架,将稠密层的分解建模为一个可微最优输运(Differentiable Optimal Transport (https://huggingface.co/papers?q=Optimal%20Transport),DOT)问题。我们不再采用静态启发式方法,而是将神经元分配(neuron assignment (https://huggingface.co/papers?q=neuron%20assignment))建模为一个平衡输运问题,利用可微 Sinkhorn-Knopp 迭代(differentiable Sinkhorn-Knopp iterations (https://huggingface.co/papers?q=differentiable%20Sinkhorn-Knopp%20iterations))来强制执行严格的专家容量约束(expert capacity constraints (https://huggingface.co/papers?q=expert%20capacity%20constraints))。此外,我们利用直通估计器(Straight-Through Estimators (https://huggingface.co/papers?q=Straight-Through%20Estimators),STE)来联合学习离散的神经元到专家的分配以及令牌到专家的路由(token-to-expert routing (https://huggingface.co/papers?q=token-to-expert%20routing))策略的端到端训练。在多种架构和基准测试上的广泛实验表明,DOT-MoE 显著优于结构化剪枝(structured pruning (https://huggingface.co/papers?q=structured%20pruning))、启发式聚类(heuristic clustering (https://huggingface.co/papers?q=heuristic%20clustering))和随机拆分基线,在将活跃参数减少 50% 的同时,保留了原始稠密模型 90% 的性能。
查看 arXiv 页面 (https://arxiv.org/abs/2606.01666) 查看 PDF (https://arxiv.org/pdf/2606.01666) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01666)
在你的智能体中获取此论文:
hf papers read 2606\.01666
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.01666 以从此页面链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.01666 以从此页面链接。
引用此论文的空间0
没有空间关联此论文
在空间的 README.md 中引用 arxiv.org/abs/2606.01666 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
MobileMoE:扩展端侧混合专家模型
MobileMoE 引入了高效的端侧混合专家语言模型,参数规模低于十亿,在性能和效率上均优于密集基线模型和现有的 MoE 模型。这些模型在开源数据集上训练,并在商用智能手机上展现出显著的加速效果。
除了更快之外,MoE 模型的意义何在?
讨论混合专家(MoE)模型在速度之外相对于密集模型的优势,考虑内存限制和扩展限制。
DisagMoE:通过解耦 AF-Pipe 并行实现计算与通信重叠的 MoE 训练
本文介绍了 DisagMoE,一种 MoE 训练系统,通过将注意力层和前馈网络(FFN)层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现,通过解决节点间通信瓶颈,在 H800 集群上实现了高达 1.8 倍的加速。
一个基于最优传输理论的在线增量学习潜在空间培育方法
本文介绍了MMOT,一种基于最优传输理论的在线混合模型学习框架,通过动态质心更新和改进的类别相似性估计来应对分布漂移下的增量学习。该方法包含一种动态保持策略,用于缓解灾难性遗忘并在潜在空间中维持类别可分离性。
通过自蒸馏,后训练MoE可跳过一半专家
ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。