多块扩散语言模型

Hugging Face Daily Papers 2026/06/30 00:00 论文

diffusion language-models multi-block text-generation decoding training inference

摘要

本文提出多块扩散语言模型（MBD-LMs），将单块扩散扩展为并发多块解码，并采用优化训练策略如多块教师强制（Multi-block Teacher Forcing）和优化的块缓冲区解码算法。实验表明，每次前向传递的令牌数增加，基准测试准确率提升。

块扩散语言模型（BD-LMs）通过KV缓存和灵活长度生成改进了基于扩散的文本生成。一个自然的下一步是将它们从单块扩散（SingleBD）扩展到多块扩散（MultiBD），其中对一组连续的块进行并发解码以实现块间并行性。然而，现有的BD-LMs大多在教师强制下训练，模型仅观察一个以干净前缀为条件的噪声块。虽然最近的扩散强制策略引入了多个噪声块之间的可见性，但其训练状态仍与MultiBD推理不同，后者在具有异构槽位噪声模式的有限运行集上解码。为弥合这一差距，我们提出多块扩散语言模型（MBD-LMs），通过多块教师强制（MultiTF）对BD-LMs进行后训练。MultiTF通过在以干净前缀为条件的有限噪声组上进行训练，并结合随机化噪声调度器，更好地匹配MultiBD推理状态，从而整合了教师强制和扩散强制。为使MultiBD可实际执行，我们进一步引入了一种基于块缓冲区机制的优化解码算法，该算法保留前缀缓存重用，保持输入形状静态，并将增加的解码并行性转化为墙钟加速。实验上，MBD-LLaDA2-Mini将平均每次前向传递令牌数（TPF）从3.47提升至6.19，平均准确率从79.95%提升至81.03%；与DMax结合时，MBD-LLaDA2-Mini-DMax在数学和代码基准测试中仅下降1.02%准确率的情况下，实现了平均TPF为9.34。

查看原文

查看缓存全文

缓存时间: 2026/07/01 07:41

论文页面 - 多块扩散语言模型

来源：https://huggingface.co/papers/2606.29215 作者：

，

摘要

多块扩散语言模型将单块扩散扩展到并发块解码，并采用改进的训练策略和优化的解码算法。

块扩散语言模型 (https://huggingface.co/papers?q=Block%20Diffusion%20Language%20Models)（BD-LM）通过KV缓存和可变长度生成改进了基于扩散的文本生成 (https://huggingface.co/papers?q=diffusion-based%20text%20generation)。一个自然的下一步是将它们从单块扩散 (SingleBD) 扩展到多块扩散 (https://huggingface.co/papers?q=Multi-Block%20Diffusion) (MultiBD)，其中一组连续的块被并发解码以实现块间并行性 (https://huggingface.co/papers?q=inter-block%20parallelism)。然而，现有的BD-LM大多是在教师强制 (https://huggingface.co/papers?q=teacher%20forcing) 下训练的，模型仅观察到以清洁前缀为条件的单个噪声块。虽然最近的扩散强制 (https://huggingface.co/papers?q=diffusion%20forcing) 策略引入了多个噪声块之间的可见性，但其训练状态仍与MultiBD推理不同，后者解码操作在具有异质槽位噪声模式的有限运行集上。为弥合这一差距，我们提出了多块扩散 (https://huggingface.co/papers?q=Multi-Block%20Diffusion) 语言模型 (MBD-LM)，通过多块教师强制 (https://huggingface.co/papers?q=Multi-block%20Teacher%20Forcing) (MultiTF) 对BD-LM进行后训练得到。MultiTF 通过在以清洁前缀为条件的有限噪声组上进行训练，并采用随机化的噪声调度策略 (https://huggingface.co/papers?q=noise-schedulers) 来更好地匹配MultiBD推理状态，从而将教师强制 (https://huggingface.co/papers?q=teacher%20forcing) 和扩散强制 (https://huggingface.co/papers?q=diffusion%20forcing) 整合在一起。为了使MultiBD可实际执行，我们进一步引入了一种基于块缓冲区机制 (https://huggingface.co/papers?q=Block%20Buffer%20mechanism) 的优化解码算法，该算法保留了前缀缓存重用 (https://huggingface.co/papers?q=prefix-cache%20reuse)，保持输入形状静态，并将增加的解码并行性转化为实际时间加速 (https://huggingface.co/papers?q=wall-clock%20acceleration)。实验上，MBD-LLaDA2-Mini 将平均每次前向传播的 Token 数 (https://huggingface.co/papers?q=Tokens%20Per%20Forward%20pass) (TPF) 从 3.47 提高到 6.19，并将平均准确率从 79.95% 提升至 81.03%；当与 DMax 结合时，MBD-LLaDA2-Mini-DMax 在数学和代码基准测试中平均 TPF 达到 9.34，准确率仅下降 1.02%。

查看 arXiv 页面 (https://arxiv.org/abs/2606.29215)查看 PDF (https://arxiv.org/pdf/2606.29215)项目页面 (https://sjtu-deng-lab.github.io/mbd-lms)GitHub15 (https://github.com/SJTU-DENG-Lab/mbd-lms)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29215)

在您的代理中获取此论文：

hf papers read 2606\.29215

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 8

SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-16B 16B• 更新于约2小时前 • 19 (https://huggingface.co/SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-16B)

SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-DMax-16B 16B• 更新于约2小时前 • 21 (https://huggingface.co/SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-DMax-16B)

SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-DMax-16B 16B• 更新于约2小时前 • 10 (https://huggingface.co/SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-DMax-16B)

SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-16B 16B• 更新于约2小时前 • 110 (https://huggingface.co/SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-16B)

浏览引用此论文的 8 个模型 (https://huggingface.co/models?other=arxiv:2606.29215)## 引用此论文的数据集 1

SJTU-DENG-Lab/MBD-LMs-MultiTF-Datasets 预览• 更新于约2小时前 • 42 (https://huggingface.co/datasets/SJTU-DENG-Lab/MBD-LMs-MultiTF-Datasets)

引用此论文的 Space 0

没有与此论文链接的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.29215 以从此页面链接。

多块扩散语言模型

论文页面 - 多块扩散语言模型

摘要

引用此论文的模型 8

SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-16B 16B• 更新于约2小时前 • 19 (https://huggingface.co/SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-16B)

SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-DMax-16B 16B• 更新于约2小时前 • 21 (https://huggingface.co/SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-DMax-16B)

SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-DMax-16B 16B• 更新于约2小时前 • 10 (https://huggingface.co/SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-DMax-16B)

SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-16B 16B• 更新于约2小时前 • 110 (https://huggingface.co/SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-16B)

SJTU-DENG-Lab/MBD-LMs-MultiTF-Datasets 预览• 更新于约2小时前 • 42 (https://huggingface.co/datasets/SJTU-DENG-Lab/MBD-LMs-MultiTF-Datasets)

引用此论文的 Space 0

包含此论文的收藏 1

相似文章

BitLM：利用位级连续扩散解锁多 Token 语言生成

扩散语言模型的动态分块

Dynamic-dLLM：动态缓存预算与自适应并行解码，实现扩散大语言模型的无训练加速

基于时空并行解码与置信度外推的高效扩散LLMs

PerceptionDLM: 基于多模态扩散语言模型的并行区域感知

提交意见反馈