dMoE: 具有可学习块专家的扩散大语言模型

arXiv cs.CL 论文

摘要

dMoE 提出了用于扩散大语言模型的块级专家路由,将唯一激活的专家数量从 69.5 降至 14.6,同时保留了 99.11% 的性能,并实现了 76-80% 的内存减少和 1.14-1.66 倍的加速。

arXiv:2605.30876v1 公告类型: 新论文 摘要:扩散大语言模型(dLLMs)最近已成为自回归模型的一种有前途的替代方案,在自然支持并行解码的同时提供了具有竞争力的性能。然而,随着 dLLMs 越来越多地与混合专家(MoE)架构集成以扩展模型容量,块并行解码与 token 级专家选择之间出现了根本性的不匹配。具体来说,每次 dLLM 前向传播处理多个具有双向依赖关系的 token,而传统的 MoE 层则独立地对每个 token 进行路由。这种不匹配显著增加了唯一激活的专家数量,使推理变得越来越受内存限制。为了解决这个问题,我们提出了 dMoE,一个简单而有效的块级 MoE 框架。dMoE 的核心思想是将每个块内的 token 级专家分布聚合为统一的块级专家分布,然后用它来以更连贯的方式指导专家路由。通过这种方式,dMoE 在保持性能的同时大幅减少推理过程中唯一激活的专家数量,从而缓解了内存瓶颈。在各种基准上的大量实验证明了 dMoE 的有效性。平均而言,dMoE 将唯一激活的专家数量从 69.5 降至 14.6,同时保留了原始性能的 99.11%。同时,它将内存使用量减少了 76.64% 至 79.84%,并实现了 1.14 倍至 1.66 倍的端到端延迟加速。代码可在以下网址获取:https://github.com/fscdc/dMoE
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:30

# dMoE:具有可学习块专家的扩散大语言模型
来源:https://arxiv.org/html/2605.30876
Sicheng Feng, Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang 新加坡国立大学 fengsicheng@u\.nus\.edu, xinchao@nus\.edu\.sg

###### 摘要

扩散大语言模型(dLLMs)近年来作为自回归模型的一种有前景的替代方案出现,在自然支持并行解码的同时展现出竞争性性能。然而,随着dLLMs越来越多地与混合专家(MoE)架构结合以扩展模型容量,块级并行解码与标记级专家选择之间出现了一个根本性不匹配。具体而言,每次dLLM前向传播会处理具有双向依赖关系的多个标记,而传统的MoE层则独立地为每个标记路由。这种不匹配显著增加了唯一激活专家的数量,使得推理过程愈发受限于内存带宽。为了解决这一问题,我们提出了dMoE,一种简单而有效的块级MoE框架。dMoE的核心思想是将每个块内的标记级专家分布聚合成一个统一的块级专家分布,然后以此为指导,以连贯的方式执行块专家路由。通过这种方式,dMoE在不牺牲性能的前提下大幅减少了推理过程中的唯一激活专家数量,从而缓解了内存带宽瓶颈。我们在多个基准上进行了广泛实验,证明了dMoE的有效性。平均而言,dMoE将唯一激活专家数量从69.5减少到14.6,同时保留了原始性能的99.11%。与此同时,它减少了76.64%到79.84%的内存使用,并实现了1.14倍到1.66倍的端到端延迟加速。代码已在以下地址开源:https://github.com/fscdc/dMoE。

参见图注
图1:原始LLaDA2.0-mini与我们提出的dMoE之间的对比。与MoE dLLMs中原始的标记级专家路由不同,我们的dMoE用块级路由取代了标记级路由,在保持性能的同时显著减少了唯一专家数量。

## 1 引言

近年来,扩散大语言模型(dLLMs)(yi2024diffusion, (https://arxiv.org/html/2605.30876#bib.bib1);zhang2025survey, (https://arxiv.org/html/2605.30876#bib.bib2);nie2025large, (https://arxiv.org/html/2605.30876#bib.bib3);ye2025dream, (https://arxiv.org/html/2605.30876#bib.bib4);yu2025dimple, (https://arxiv.org/html/2605.30876#bib.bib5))已成为自回归LLMs(achiam2023gpt, (https://arxiv.org/html/2605.30876#bib.bib6);bai2023qwen, (https://arxiv.org/html/2605.30876#bib.bib7);dubey2024llama, (https://arxiv.org/html/2605.30876#bib.bib8))的有力竞争者,在开源和闭源场景中均表现出强劲性能(song2025seed, (https://arxiv.org/html/2605.30876#bib.bib9);khanna2025mercury, (https://arxiv.org/html/2605.30876#bib.bib10))。通过逐步利用掩码-去掩码过程细化掩码标记,dLLMs天然支持并行解码,不受自回归模型从左到右生成顺序的限制,从而在测试时提供了更大的灵活性和效率潜力。为了进一步扩展模型容量,同时保持活跃参数数量可控,近期dLLMs(bie2025llada2, (https://arxiv.org/html/2605.30876#bib.bib11);bie2026llada21speedingtextdiffusion, (https://arxiv.org/html/2605.30876#bib.bib12);zhu2025lladamoe, (https://arxiv.org/html/2605.30876#bib.bib13);cheng2025sdar, (https://arxiv.org/html/2605.30876#bib.bib14);ni2025openmoe2, (https://arxiv.org/html/2605.30876#bib.bib15))越来越多地采用混合专家(MoE)架构,使得MoE成为该范式下一个日益增长的设计趋势。

虽然MoE架构通过稀疏激活增加了模型容量,提供了一种有效的扩展策略,但也引入了一个根本性的效率挑战。在MoE dLLMs中,现有的MoE路由仍然沿用自回归模型中继承的标记级专家选择范式,为每个标记独立选择专家。然而,dLLMs在单次前向传播中处理多个标记(例如,块扩散解码(arriola2025block, (https://arxiv.org/html/2605.30876#bib.bib16))中的整个标记块)。结果,在一次前向传播中,唯一激活的专家数量可能急剧增长,使得内存访问成为主要的推理瓶颈。第3节(https://arxiv.org/html/2605.30876#S3)中的实验进一步支持了我们的论断,显示MoE延迟主导了端到端推理延迟,并且与唯一激活专家数量呈线性增长关系。

大量先前的工作研究了高效的MoE策略,主要针对自回归模型。现有方法大致可分为两类:执行前压缩,如专家剪枝(liu2024efficient, (https://arxiv.org/html/2605.30876#bib.bib17);chen2022task, (https://arxiv.org/html/2605.30876#bib.bib18);chowdhury2024provably, (https://arxiv.org/html/2605.30876#bib.bib19);guo2025cluster, (https://arxiv.org/html/2605.30876#bib.bib20);song2025blockffn, (https://arxiv.org/html/2605.30876#bib.bib21))和专家合并(he2023merging, (https://arxiv.org/html/2605.30876#bib.bib22);park2024learning, (https://arxiv.org/html/2605.30876#bib.bib23);li2026sub, (https://arxiv.org/html/2605.30876#bib.bib24));以及运行时自适应执行,如专家跳过(lu2024not, (https://arxiv.org/html/2605.30876#bib.bib25);huang2025modes, (https://arxiv.org/html/2605.30876#bib.bib26);aghdam2024moe, (https://arxiv.org/html/2605.30876#bib.bib27))、自适应专家选择(chen2025eac, (https://arxiv.org/html/2605.30876#bib.bib28))和专家复用(tan2025rexmoe, (https://arxiv.org/html/2605.30876#bib.bib29);oncescu2025opportunistic, (https://arxiv.org/html/2605.30876#bib.bib30))。然而,dLLMs中的MoE效率问题仍然很大程度上未被充分探索。与自回归解码不同,dLLMs在每个去噪步骤中并行生成和细化标记,使得专家激活模式和效率瓶颈存在根本性差异。最近的一些研究开始探索这一场景。EC-DLM(zhang2026expert, (https://arxiv.org/html/2605.30876#bib.bib31))用专家选择路由取代了标记选择路由,并通过动态调整专家容量改善了负载均衡。TEAM(wei2026team, (https://arxiv.org/html/2605.30876#bib.bib32))利用路由中的时间和空间一致性来跨去噪步骤复用专家,从而减少推理过程中的总体专家激活。DES(chen2026dynamic, (https://arxiv.org/html/2605.30876#bib.bib33))通过一种候选约束路由策略,明确针对由过度专家激活引起的内存开销。

我们提出dMoE,一种简单而有效的策略,用于压缩MoE dLLMs中的唯一专家。我们的设计基于两个关键观察。首先,标记级专家分数提供了专家重要性的信息信号。其次,专家集中程度在不同去噪步骤和块之间变化显著。具体而言,我们首先聚合标记级专家分数以形成块级专家分数,然后利用这些块级分数指导原始路由过程,从而控制唯一激活专家的数量。通过这种方式,dMoE可以在不改变每个标记所选专家数量的情况下,大幅减少唯一专家数量。此外,dMoE通过一个top-p准则动态控制唯一专家数量,使其能够更好地适应不同去噪步骤和块之间的路由特性变化。在训练阶段,我们采用自蒸馏范式,在前向传播中使用相同的路由过程。

我们选择LLaDA2.0-mini(一种最先进的开源dLLM)作为基本模型进行微调和评估。我们在四个基准上评估dMoE,包括MATH500(lightman2023let, (https://arxiv.org/html/2605.30876#bib.bib34))、GSM8K(cobbe2021gsm8k, (https://arxiv.org/html/2605.30876#bib.bib35))、ARC-C(clark2018think, (https://arxiv.org/html/2605.30876#bib.bib36))和MMLU(hendryckstest2021, (https://arxiv.org/html/2605.30876#bib.bib37))。结果表明,dMoE一致地实现了显著的高专家压缩,且性能无下降(如图1(https://arxiv.org/html/2605.30876#S0.F1)所示)。平均而言,dMoE将唯一激活专家数量减少了4.77倍,同时保留了原始性能的99.11%。此外,与原始模型相比,它减少了76.64%到79.84%的内存使用,并提供了1.14倍到1.66倍的端到端延迟加速。与基线相比,我们的dMoE还实现了更优的性能-效率权衡。此外,我们的dMoE是可调节的,允许根据不同的应用需求调整激活专家数量。

总体而言,我们引入了dMoE,一种用于MoE dLLMs的块级专家路由的新型可学习策略。dMoE的核心思想是将标记级专家分数聚合成块级专家分数,然后利用这些块级分数动态指导原始路由过程。大量实验证明了我们方法的有效性。这项工作为MoE dLLMs中的块级路由建立了强有力的基线。

## 2 相关工作

扩散语言模型概述。基于扩散的生成建模在连续模态中已取得了显著成功,包括图像(rombach2022high, (https://arxiv.org/html/2605.30876#bib.bib38);peebles2023scalable, (https://arxiv.org/html/2605.30876#bib.bib39))、视频(ho2022video, (https://arxiv.org/html/2605.30876#bib.bib40);brooks2024video, (https://arxiv.org/html/2605.30876#bib.bib41))和音频(liu2023audioldm, (https://arxiv.org/html/2605.30876#bib.bib42);evans2024fast, (https://arxiv.org/html/2605.30876#bib.bib43)),这一切都建立在扩散模型的广泛基础之上(ho2020denoising, (https://arxiv.org/html/2605.30876#bib.bib44);song2019generative, (https://arxiv.org/html/2605.30876#bib.bib45);song2020denoising, (https://arxiv.org/html/2605.30876#bib.bib46))。然而,将这一框架扩展到语言领域并非易事,因为文本本质上是离散的。为了解决这一挑战,越来越多的工作直接在标记空间中制定扩散模型(austin2021structured, (https://arxiv.org/html/2605.30876#bib.bib47);sahoo2024simple, (https://arxiv.org/html/2605.30876#bib.bib48);lou2023discrete, (https://arxiv.org/html/2605.30876#bib.bib49);zheng2024masked, (https://arxiv.org/html/2605.30876#bib.bib50);cheng2025sdar, (https://arxiv.org/html/2605.30876#bib.bib14);nie2025large, (https://arxiv.org/html/2605.30876#bib.bib3)),通常通过掩码标记去噪实现,这支持了并行生成,并放宽了自回归解码的严格从左到右依赖。基于这一公式,dLLMs(nie2025large, (https://arxiv.org/html/2605.30876#bib.bib3);ye2025dream, (https://arxiv.org/html/2605.30876#bib.bib4);khanna2025mercury, (https://arxiv.org/html/2605.30876#bib.bib10);song2025seed, (https://arxiv.org/html/2605.30876#bib.bib9);bie2025llada2, (https://arxiv.org/html/2605.30876#bib.bib11))在十亿参数规模上展现出越来越有竞争力的性能,表明扩散正成为语言生成的一个实用替代方案。近期的进展也表明,dLLMs中出现了明确的稀疏扩展趋势,越来越多的代表性模型采用MoE架构来扩展整体模型容量,同时保持每个去噪步骤中活跃参数数量相对较少(zhu2025lladamoe, (https://arxiv.org/html/2605.30876#bib.bib13);bie2025llada2, (https://arxiv.org/html/2605.30876#bib.bib11);bie2026llada21speedingtextdiffusion, (https://arxiv.org/html/2605.30876#bib.bib12))。除了通用文本生成,基于扩散的语言建模现在正被扩展到更具挑战性的场景,包括推理(zhu2025llada, (https://arxiv.org/html/2605.30876#bib.bib51);zhao2025d1, (https://arxiv.org/html/2605.30876#bib.bib52);tang2025wd1, (https://arxiv.org/html/2605.30876#bib.bib53);lin2025boundary, (https://arxiv.org/html/2605.30876#bib.bib54);feng2026dvoting, (https://arxiv.org/html/2605.30876#bib.bib55);feng2025efficient, (https://arxiv.org/html/2605.30876#bib.bib56))、多模态生成(yang2025mmada, (https://arxiv.org/html/2605.30876#bib.bib57);li2025lavida, (https://arxiv.org/html/2605.30876#bib.bib58);yu2025dimple, (https://arxiv.org/html/2605.30876#bib.bib5);you2025llada, (https://arxiv.org/html/2605.30876#bib.bib59))和代码合成(gong2025diffucoder, (https://arxiv.org/html/2605.30876#bib.bib60);khanna2025mercury, (https://arxiv.org/html/2605.30876#bib.bib10);pengcontributors, (https://arxiv.org/html/2605.30876#bib.bib61)),凸显了这一研究方向的快速扩展和日益成熟(yu2025discrete, (https://arxiv.org/html/2605.30876#bib.bib62);li2025survey, (https://arxiv.org/html/2605.30876#bib.bib63);chen2026dmax, (https://arxiv.org/html/2605.30876#bib.bib64))。

高效混合专家策略。在自回归模型中,该设置下的大多数现有研究旨在减少标记级专家计算或服务开销,因此主要针对从左到右解码进行定制。广义上,这些方法可分为两类。第一类关注执行前压缩,即在推理前减少模型端的开销,例如通过专家剪枝(liu2024efficient, (https://arxiv.org/html/2605.30876#bib.bib17);chen2022task, (https://arxiv.org/html/2605.30876#bib.bib18);chowdhury2024provably, (https://arxiv.org/html/2605.30876#bib.bib19);guo2025cluster, (https://arxiv.org/html/2605.30876#bib.bib20);song2025blockffn, (https://arxiv.org/html/2605.30876#bib.bib21))和专家合并(he2023merging, (https://arxiv.org/html/2605.30876#bib.bib22);park2024learning, (https://arxiv.org/html/2605.30876#bib.bib23);li2026sub, (https://arxiv.org/html/2605.30876#bib.bib24))。第二类关注运行时自适应执行,即通过在推理过程中根据当前输入动态控制专家激活来提高效率,例如专家跳过(lu2024not, (https://arxiv.org/html/2605.30876#bib.bib25);huang2025modes, (https://arxiv.org/html/2605.30876#bib.bib26);aghdam2024moe, (https://arxiv.org/html/2605.30876#bib.bib27))、自适应专家选择(chen2025eac, (https://arxiv.org/html/2605.30876#bib.bib28))和专家复用(tan2025rexmoe, (https://arxiv.org/html/2605.30876#bib.bib29);oncescu2025opportunistic, (https://arxiv.org/html/2605.30876#bib.bib30))。除了这些算法层面的策略,另一个重要方向在于系统级优化(sarkar2023edge, (https://arxiv.org/html/2605.30876#bib.bib65);he2022fastermoe, (https://arxiv.org/html/2605.30876#bib.bib66)),即从通信和内存的角度改进MoE效率。

然而,dLLMs中的MoE效率问题仍然很大程度上未被充分探索。近期一些研究提供了初步证据,展示了其潜力。EC-DLM(zhang2026expert, (https://arxiv.org/html/2605.30876#bib.bib31))用专家选择路由取代了传统的标记选择路由,并通过动态调整不同去噪步骤的专家容量进一步改善了负载均衡。TEAM(wei2026team, (https://arxiv.org/html/2605.30876#bib.bib32))利用专家路由中的时间和空间一致性来跨去噪步骤复用专家,从而减少推理过程中激活的专家总数。DES(chen2026dynamic, (https://arxiv.org/html/2605.30876#bib.bib33))

相似文章

DLLG:LLM专家的动态Logit级门控机制

arXiv cs.CL

DLLG(动态Logit级门控)是一种新颖的框架,通过轻量级可学习门控模块,在token级别的logit空间中动态融合多个专门化LLM,在推理和代码基准测试中超越了路由、启发式集成和参数合并等基线方法。该方法仅需稀疏的响应级监督信号,且在无需重新训练的情况下保留了专家模块的独立性。

通过自蒸馏,后训练MoE可跳过一半专家

Hugging Face Daily Papers

ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。

通过有限专家库实现通信高效的专家路由

arXiv cs.LG

本文提出了一种针对稀疏混合专家(MoE)模型中通信高效专家路由的信息论框架,将门控机制视为随机信道,并推导实用的互信息估计器以分析有限专家库上的准确率-速率权衡。