dMoE: 具有可学习块级专家的dLLMs

Hugging Face Daily Papers 论文

摘要

本文提出了dMoE,一种用于扩散大语言模型的块级混合专家框架,该框架将词元级专家分布聚合成块级路由,在保持性能的同时减少激活的专家数量和内存使用。

扩散大语言模型(dLLMs)最近已成为自回归模型的一种有前途的替代方案,在保持竞争力的同时自然支持并行解码。然而,随着dLLMs越来越多地与混合专家(MoE)架构集成以扩展模型容量,块并行解码与词元级专家选择之间出现了根本性的不匹配。具体来说,每次dLLM前向传播处理多个具有双向依赖关系的词元,而传统的MoE层则独立路由每个词元。这种不匹配显著增加了唯一激活的专家数量,使得推理越来越受内存限制。为了解决这个问题,我们提出了dMoE,一个简单而有效的块级MoE框架。dMoE的核心思想是将每个块内的词元级专家分布聚合为统一的块级专家分布,然后用于以更一致的方式指导专家路由。通过这种方式,dMoE在不牺牲性能的情况下显著减少了推理过程中唯一激活的专家数量,从而缓解了内存限制瓶颈。在多种基准上的大量实验证明了dMoE的有效性。平均而言,dMoE将唯一激活的专家数量从69.5减少到14.6,同时保留了99.11%的原始性能。同时,它将内存使用量减少了76.64%至79.84%,并实现了1.14倍至1.66倍的端到端延迟加速。代码可在 https://github.com/fscdc/dMoE 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/01 03:17

论文页面 - dMoE: 具备可学习块专家的扩散大语言模型

来源:https://huggingface.co/papers/2605.30876

摘要

扩散大语言模型与混合专家架构相结合时,面临块并行解码与令牌级专家选择之间的不匹配问题。dMoE 通过将令牌级分布聚合为块级路由来解决这一问题,从而减少激活的专家数量并提升效率。

扩散大语言模型(https://huggingface.co/papers?q=Diffusion%20Large%20Language%20Models)(dLLMs)近期作为一种有前景的自回归模型(https://huggingface.co/papers?q=autoregressive%20models)替代方案出现,在保持竞争力的同时天然支持并行解码(https://huggingface.co/papers?q=parallel%20decoding)。然而,随着 dLLMs 越来越多地与混合专家(https://huggingface.co/papers?q=Mixture-of-Experts)(MoE)架构集成以扩展模型容量,块并行解码(https://huggingface.co/papers?q=block%20parallel%20decoding)与令牌级专家选择(https://huggingface.co/papers?q=token-level%20expert%20selection)之间出现了根本性不匹配。具体而言,每次 dLLM 前向传播会处理多个具有双向依赖关系的令牌,而传统 MoE 层则独立地为每个令牌进行路由。这种不匹配显著增加了唯一激活专家的数量,使推理过程愈发受内存限制。为解决此问题,我们提出 dMoE,一种简单而有效的块级 MoE 框架。dMoE 的核心思想是将每个块内的令牌级专家分布聚合成统一的块级专家分布(https://huggingface.co/papers?q=block-level%20expert%20distribution),并以此更协调地指导专家路由(https://huggingface.co/papers?q=expert%20routing)。通过这种方式,dMoE 在保持性能的前提下,大幅减少了推理过程中唯一激活专家的数量,从而缓解了内存瓶颈(https://huggingface.co/papers?q=memory-bound%20bottleneck)。在多种基准测试上的大量实验证明了 dMoE 的有效性。平均而言,dMoE 将唯一激活专家数量从 69.5 降至 14.6,同时保留了原始性能的 99.11%。此外,它减少了 76.64% 至 79.84% 的内存使用,并实现了 1.14 倍至 1.66 倍的端到端延迟(https://huggingface.co/papers?q=end-to-end%20latency)加速。代码地址:https://github.com/fscdc/dMoE

查看 arXiv 页面(https://arxiv.org/abs/2605.30876)查看 PDF(https://arxiv.org/pdf/2605.30876)项目页面(https://fscdc.github.io/dMoE/)GitHub(https://github.com/fscdc/dMoE)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.30876)

在你的 agent 中获取此论文:

hf papers read 2605\.30876

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30876 即可从此页面建立链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30876 即可从此页面建立链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.30876 即可从此页面建立链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到一个收藏集(https://huggingface.co/new-collection)即可从此页面建立链接。

相似文章

少即是MoE:裁剪领域专用语言模型中的专家

arXiv cs.LG

本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

Reddit r/LocalLLaMA

NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。