dMoE: 具有可学习块级专家的dLLMs
摘要
本文提出了dMoE,一种用于扩散大语言模型的块级混合专家框架,该框架将词元级专家分布聚合成块级路由,在保持性能的同时减少激活的专家数量和内存使用。
查看缓存全文
缓存时间: 2026/06/01 03:17
论文页面 - dMoE: 具备可学习块专家的扩散大语言模型
来源:https://huggingface.co/papers/2605.30876
摘要
扩散大语言模型与混合专家架构相结合时,面临块并行解码与令牌级专家选择之间的不匹配问题。dMoE 通过将令牌级分布聚合为块级路由来解决这一问题,从而减少激活的专家数量并提升效率。
扩散大语言模型(https://huggingface.co/papers?q=Diffusion%20Large%20Language%20Models)(dLLMs)近期作为一种有前景的自回归模型(https://huggingface.co/papers?q=autoregressive%20models)替代方案出现,在保持竞争力的同时天然支持并行解码(https://huggingface.co/papers?q=parallel%20decoding)。然而,随着 dLLMs 越来越多地与混合专家(https://huggingface.co/papers?q=Mixture-of-Experts)(MoE)架构集成以扩展模型容量,块并行解码(https://huggingface.co/papers?q=block%20parallel%20decoding)与令牌级专家选择(https://huggingface.co/papers?q=token-level%20expert%20selection)之间出现了根本性不匹配。具体而言,每次 dLLM 前向传播会处理多个具有双向依赖关系的令牌,而传统 MoE 层则独立地为每个令牌进行路由。这种不匹配显著增加了唯一激活专家的数量,使推理过程愈发受内存限制。为解决此问题,我们提出 dMoE,一种简单而有效的块级 MoE 框架。dMoE 的核心思想是将每个块内的令牌级专家分布聚合成统一的块级专家分布(https://huggingface.co/papers?q=block-level%20expert%20distribution),并以此更协调地指导专家路由(https://huggingface.co/papers?q=expert%20routing)。通过这种方式,dMoE 在保持性能的前提下,大幅减少了推理过程中唯一激活专家的数量,从而缓解了内存瓶颈(https://huggingface.co/papers?q=memory-bound%20bottleneck)。在多种基准测试上的大量实验证明了 dMoE 的有效性。平均而言,dMoE 将唯一激活专家数量从 69.5 降至 14.6,同时保留了原始性能的 99.11%。此外,它减少了 76.64% 至 79.84% 的内存使用,并实现了 1.14 倍至 1.66 倍的端到端延迟(https://huggingface.co/papers?q=end-to-end%20latency)加速。代码地址:https://github.com/fscdc/dMoE
查看 arXiv 页面(https://arxiv.org/abs/2605.30876)查看 PDF(https://arxiv.org/pdf/2605.30876)项目页面(https://fscdc.github.io/dMoE/)GitHub(https://github.com/fscdc/dMoE)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.30876)
在你的 agent 中获取此论文:
hf papers read 2605\.30876
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.30876 即可从此页面建立链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.30876 即可从此页面建立链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.30876 即可从此页面建立链接。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到一个收藏集(https://huggingface.co/new-collection)即可从此页面建立链接。
相似文章
少即是MoE:裁剪领域专用语言模型中的专家
本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。
面向混合专家模型路由一致量化的价值与结构对齐
本文提出VSRAQ,一种针对混合专家模型的训练后量化方法,通过对齐路由相关logits和专家排序来保持专家选择行为,从而减少量化引起的性能下降,且无推理开销。
proveKV – 诚实的36倍无损(vs f32,18倍 vs fp16)KV缓存压缩用于LLM(零PPL回归)
一个开源仓库proveKV展示了一种可复现的KV缓存压缩技术,在SmolLM2-1.7B上实现了36倍无损(vs f32)和68倍有损内存减少,且PPL回归为零,包括Rust示例和审计管道。
Nemotron 3 Ultra。5500亿参数,550亿活跃参数,100万token上下文窗口
NVIDIA发布Nemotron 3 Ultra,一个庞大的5500亿参数混合专家模型,具有550亿活跃参数和100万token的上下文窗口。
nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face
NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。