多块扩散语言模型

Hugging Face Daily Papers 论文

摘要

本文提出多块扩散语言模型(MBD-LMs),将单块扩散扩展为并发多块解码,并采用优化训练策略如多块教师强制(Multi-block Teacher Forcing)和优化的块缓冲区解码算法。实验表明,每次前向传递的令牌数增加,基准测试准确率提升。

块扩散语言模型(BD-LMs)通过KV缓存和灵活长度生成改进了基于扩散的文本生成。一个自然的下一步是将它们从单块扩散(SingleBD)扩展到多块扩散(MultiBD),其中对一组连续的块进行并发解码以实现块间并行性。然而,现有的BD-LMs大多在教师强制下训练,模型仅观察一个以干净前缀为条件的噪声块。虽然最近的扩散强制策略引入了多个噪声块之间的可见性,但其训练状态仍与MultiBD推理不同,后者在具有异构槽位噪声模式的有限运行集上解码。为弥合这一差距,我们提出多块扩散语言模型(MBD-LMs),通过多块教师强制(MultiTF)对BD-LMs进行后训练。MultiTF通过在以干净前缀为条件的有限噪声组上进行训练,并结合随机化噪声调度器,更好地匹配MultiBD推理状态,从而整合了教师强制和扩散强制。为使MultiBD可实际执行,我们进一步引入了一种基于块缓冲区机制的优化解码算法,该算法保留前缀缓存重用,保持输入形状静态,并将增加的解码并行性转化为墙钟加速。实验上,MBD-LLaDA2-Mini将平均每次前向传递令牌数(TPF)从3.47提升至6.19,平均准确率从79.95%提升至81.03%;与DMax结合时,MBD-LLaDA2-Mini-DMax在数学和代码基准测试中仅下降1.02%准确率的情况下,实现了平均TPF为9.34。
查看原文
查看缓存全文

缓存时间: 2026/07/01 07:41

论文页面 - 多块扩散语言模型

来源:https://huggingface.co/papers/2606.29215 作者:

摘要

多块扩散语言模型将单块扩散扩展到并发块解码,并采用改进的训练策略和优化的解码算法。

块扩散语言模型 (https://huggingface.co/papers?q=Block%20Diffusion%20Language%20Models)(BD-LM)通过KV缓存和可变长度生成改进了基于扩散的文本生成 (https://huggingface.co/papers?q=diffusion-based%20text%20generation)。一个自然的下一步是将它们从单块扩散 (SingleBD) 扩展到多块扩散 (https://huggingface.co/papers?q=Multi-Block%20Diffusion) (MultiBD),其中一组连续的块被并发解码以实现块间并行性 (https://huggingface.co/papers?q=inter-block%20parallelism)。然而,现有的BD-LM大多是在教师强制 (https://huggingface.co/papers?q=teacher%20forcing) 下训练的,模型仅观察到以清洁前缀为条件的单个噪声块。虽然最近的扩散强制 (https://huggingface.co/papers?q=diffusion%20forcing) 策略引入了多个噪声块之间的可见性,但其训练状态仍与MultiBD推理不同,后者解码操作在具有异质槽位噪声模式的有限运行集上。为弥合这一差距,我们提出了多块扩散 (https://huggingface.co/papers?q=Multi-Block%20Diffusion) 语言模型 (MBD-LM),通过多块教师强制 (https://huggingface.co/papers?q=Multi-block%20Teacher%20Forcing) (MultiTF) 对BD-LM进行后训练得到。MultiTF 通过在以清洁前缀为条件的有限噪声组上进行训练,并采用随机化的噪声调度策略 (https://huggingface.co/papers?q=noise-schedulers) 来更好地匹配MultiBD推理状态,从而将教师强制 (https://huggingface.co/papers?q=teacher%20forcing) 和扩散强制 (https://huggingface.co/papers?q=diffusion%20forcing) 整合在一起。为了使MultiBD可实际执行,我们进一步引入了一种基于块缓冲区机制 (https://huggingface.co/papers?q=Block%20Buffer%20mechanism) 的优化解码算法,该算法保留了前缀缓存重用 (https://huggingface.co/papers?q=prefix-cache%20reuse),保持输入形状静态,并将增加的解码并行性转化为实际时间加速 (https://huggingface.co/papers?q=wall-clock%20acceleration)。实验上,MBD-LLaDA2-Mini 将平均每次前向传播的 Token 数 (https://huggingface.co/papers?q=Tokens%20Per%20Forward%20pass) (TPF) 从 3.47 提高到 6.19,并将平均准确率从 79.95% 提升至 81.03%;当与 DMax 结合时,MBD-LLaDA2-Mini-DMax 在数学和代码基准测试中平均 TPF 达到 9.34,准确率仅下降 1.02%。

查看 arXiv 页面 (https://arxiv.org/abs/2606.29215)查看 PDF (https://arxiv.org/pdf/2606.29215)项目页面 (https://sjtu-deng-lab.github.io/mbd-lms)GitHub15 (https://github.com/SJTU-DENG-Lab/mbd-lms)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29215)

在您的代理中获取此论文:

hf papers read 2606\.29215

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 8

SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-16B 16B• 更新于约2小时前 • 19 (https://huggingface.co/SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-16B)

SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-DMax-16B 16B• 更新于约2小时前 • 21 (https://huggingface.co/SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-DMax-16B)

SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-DMax-16B 16B• 更新于约2小时前 • 10 (https://huggingface.co/SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-DMax-16B)

SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-16B 16B• 更新于约2小时前 • 110 (https://huggingface.co/SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-16B)

浏览引用此论文的 8 个模型 (https://huggingface.co/models?other=arxiv:2606.29215)## 引用此论文的数据集 1

SJTU-DENG-Lab/MBD-LMs-MultiTF-Datasets 预览• 更新于约2小时前 • 42 (https://huggingface.co/datasets/SJTU-DENG-Lab/MBD-LMs-MultiTF-Datasets)

引用此论文的 Space 0

没有与此论文链接的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.29215 以从此页面链接。

包含此论文的收藏 1

相似文章

扩散语言模型的动态分块

arXiv cs.CL

本文介绍了扩散语言模型的动态分块(DCDM),该方法使用可微分的Chunking Attention机制,用内容定义的语义块替换块离散扩散中的固定位置块,在高达1.5B参数规模上实现了一致的改进。

基于时空并行解码与置信度外推的高效扩散LLMs

arXiv cs.CL

本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。

PerceptionDLM: 基于多模态扩散语言模型的并行区域感知

Hugging Face Daily Papers

PerceptionDLM 提出了一种多模态扩散语言模型,通过结构化注意力掩码和高效提示实现并行区域感知,在不牺牲字幕质量的情况下实现更快的推理。实验表明,在多区域感知任务中,性能具有竞争力且速度大幅提升。