DOT-MoE:面向MoE化的可微最优传输

Hugging Face Daily Papers 论文

摘要

DOT-MoE将密集层分解形式化为可微最优传输问题,能够高效训练稀疏MoE模型,在将活跃参数减少50%的同时保留原始模型90%的性能。

大型语言模型(LLMs)的扩展带来了显著的性能提升,但也造成了推理效率方面的巨大挑战。虽然混合专家(MoEs)架构通过将模型规模与推理成本解耦来解决这一问题,但从头训练MoEs往往不稳定且计算密集。将预训练的密集模型转换为稀疏MoE已成为一种替代方案;然而,现有方法通常依赖启发式神经元聚类或随机分割来将前馈网络(FFN)划分为专家。在这项工作中,我们提出了DOT-MoE,一个新颖的框架,它将密集层的分解形式化为可微最优传输(DOT)问题。不同于静态启发式方法,我们将神经元分配建模为平衡传输问题,利用可微的Sinkhorn-Knopp迭代来强制执行严格的专家容量约束。此外,我们利用直通估计器(STE)以端到端方式联合学习离散的神经元到专家分配以及令牌到专家的路由策略。跨多个架构和基准的大量实验表明,DOT-MoE显著优于结构化剪枝、启发式聚类和随机划分基线,在将活跃参数减少50%的同时保留了原始密集模型90%的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/02 19:33

论文页面 - DOT-MoE:基于可微最优输运的MoE化方法

来源: https://huggingface.co/papers/2606.01666

摘要

DOT-MoE 将稠密层分解建模为一个可微最优输运问题,从而能够高效训练稀疏 MoE 模型,并更好地保留原有性能。

大规模语言模型(LLMs)的扩展带来了显著的性能提升,但同时也造成了推理效率方面的重大挑战。虽然混合专家(Mixture of Experts (https://huggingface.co/papers?q=Mixture%20of%20Experts),MoE)架构通过将模型大小与推理成本解耦来解决这一问题,但从头训练 MoE 往往不稳定且计算密集。将预训练的稠密模型转换为稀疏 MoE 已成为一种替代方案;然而,现有方法通常依赖于启发式神经元聚类或随机拆分(random splitting (https://huggingface.co/papers?q=random%20splitting))来划分前馈网络(Feed-Forward Network (https://huggingface.co/papers?q=Feed-Forward%20Network),FFN)中的专家。在这项工作中,我们提出了 DOT-MoE,这是一个新颖的框架,将稠密层的分解建模为一个可微最优输运(Differentiable Optimal Transport (https://huggingface.co/papers?q=Optimal%20Transport),DOT)问题。我们不再采用静态启发式方法,而是将神经元分配(neuron assignment (https://huggingface.co/papers?q=neuron%20assignment))建模为一个平衡输运问题,利用可微 Sinkhorn-Knopp 迭代(differentiable Sinkhorn-Knopp iterations (https://huggingface.co/papers?q=differentiable%20Sinkhorn-Knopp%20iterations))来强制执行严格的专家容量约束(expert capacity constraints (https://huggingface.co/papers?q=expert%20capacity%20constraints))。此外,我们利用直通估计器(Straight-Through Estimators (https://huggingface.co/papers?q=Straight-Through%20Estimators),STE)来联合学习离散的神经元到专家的分配以及令牌到专家的路由(token-to-expert routing (https://huggingface.co/papers?q=token-to-expert%20routing))策略的端到端训练。在多种架构和基准测试上的广泛实验表明,DOT-MoE 显著优于结构化剪枝(structured pruning (https://huggingface.co/papers?q=structured%20pruning))、启发式聚类(heuristic clustering (https://huggingface.co/papers?q=heuristic%20clustering))和随机拆分基线,在将活跃参数减少 50% 的同时,保留了原始稠密模型 90% 的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01666) 查看 PDF (https://arxiv.org/pdf/2606.01666) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01666)

在你的智能体中获取此论文:

hf papers read 2606\.01666

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.01666 以从此页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.01666 以从此页面链接。

引用此论文的空间0

没有空间关联此论文

在空间的 README.md 中引用 arxiv.org/abs/2606.01666 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

MobileMoE:扩展端侧混合专家模型

Hugging Face Daily Papers

MobileMoE 引入了高效的端侧混合专家语言模型,参数规模低于十亿,在性能和效率上均优于密集基线模型和现有的 MoE 模型。这些模型在开源数据集上训练,并在商用智能手机上展现出显著的加速效果。

一个基于最优传输理论的在线增量学习潜在空间培育方法

Hugging Face Daily Papers

本文介绍了MMOT,一种基于最优传输理论的在线混合模型学习框架,通过动态质心更新和改进的类别相似性估计来应对分布漂移下的增量学习。该方法包含一种动态保持策略,用于缓解灾难性遗忘并在潜在空间中维持类别可分离性。

通过自蒸馏,后训练MoE可跳过一半专家

Hugging Face Daily Papers

ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。