多块扩散语言模型
摘要
本文提出多块扩散语言模型(MBD-LMs),将单块扩散扩展为并发多块解码,并采用优化训练策略如多块教师强制(Multi-block Teacher Forcing)和优化的块缓冲区解码算法。实验表明,每次前向传递的令牌数增加,基准测试准确率提升。
查看缓存全文
缓存时间: 2026/07/01 07:41
论文页面 - 多块扩散语言模型
来源:https://huggingface.co/papers/2606.29215 作者:
,
,
,
,
,
,
,
,
,
摘要
多块扩散语言模型将单块扩散扩展到并发块解码,并采用改进的训练策略和优化的解码算法。
块扩散语言模型 (https://huggingface.co/papers?q=Block%20Diffusion%20Language%20Models)(BD-LM)通过KV缓存和可变长度生成改进了基于扩散的文本生成 (https://huggingface.co/papers?q=diffusion-based%20text%20generation)。一个自然的下一步是将它们从单块扩散 (SingleBD) 扩展到多块扩散 (https://huggingface.co/papers?q=Multi-Block%20Diffusion) (MultiBD),其中一组连续的块被并发解码以实现块间并行性 (https://huggingface.co/papers?q=inter-block%20parallelism)。然而,现有的BD-LM大多是在教师强制 (https://huggingface.co/papers?q=teacher%20forcing) 下训练的,模型仅观察到以清洁前缀为条件的单个噪声块。虽然最近的扩散强制 (https://huggingface.co/papers?q=diffusion%20forcing) 策略引入了多个噪声块之间的可见性,但其训练状态仍与MultiBD推理不同,后者解码操作在具有异质槽位噪声模式的有限运行集上。为弥合这一差距,我们提出了多块扩散 (https://huggingface.co/papers?q=Multi-Block%20Diffusion) 语言模型 (MBD-LM),通过多块教师强制 (https://huggingface.co/papers?q=Multi-block%20Teacher%20Forcing) (MultiTF) 对BD-LM进行后训练得到。MultiTF 通过在以清洁前缀为条件的有限噪声组上进行训练,并采用随机化的噪声调度策略 (https://huggingface.co/papers?q=noise-schedulers) 来更好地匹配MultiBD推理状态,从而将教师强制 (https://huggingface.co/papers?q=teacher%20forcing) 和扩散强制 (https://huggingface.co/papers?q=diffusion%20forcing) 整合在一起。为了使MultiBD可实际执行,我们进一步引入了一种基于块缓冲区机制 (https://huggingface.co/papers?q=Block%20Buffer%20mechanism) 的优化解码算法,该算法保留了前缀缓存重用 (https://huggingface.co/papers?q=prefix-cache%20reuse),保持输入形状静态,并将增加的解码并行性转化为实际时间加速 (https://huggingface.co/papers?q=wall-clock%20acceleration)。实验上,MBD-LLaDA2-Mini 将平均每次前向传播的 Token 数 (https://huggingface.co/papers?q=Tokens%20Per%20Forward%20pass) (TPF) 从 3.47 提高到 6.19,并将平均准确率从 79.95% 提升至 81.03%;当与 DMax 结合时,MBD-LLaDA2-Mini-DMax 在数学和代码基准测试中平均 TPF 达到 9.34,准确率仅下降 1.02%。
查看 arXiv 页面 (https://arxiv.org/abs/2606.29215)查看 PDF (https://arxiv.org/pdf/2606.29215)项目页面 (https://sjtu-deng-lab.github.io/mbd-lms)GitHub15 (https://github.com/SJTU-DENG-Lab/mbd-lms)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29215)
在您的代理中获取此论文:
hf papers read 2606\.29215
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 8
SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-16B 16B• 更新于约2小时前 • 19 (https://huggingface.co/SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-16B)
SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-DMax-16B 16B• 更新于约2小时前 • 21 (https://huggingface.co/SJTU-DENG-Lab/MBD-Math-LLaDA2-mini-DMax-16B)
SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-DMax-16B 16B• 更新于约2小时前 • 10 (https://huggingface.co/SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-DMax-16B)
SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-16B 16B• 更新于约2小时前 • 110 (https://huggingface.co/SJTU-DENG-Lab/MBD-Code-LLaDA2-mini-16B)
浏览引用此论文的 8 个模型 (https://huggingface.co/models?other=arxiv:2606.29215)## 引用此论文的数据集 1
SJTU-DENG-Lab/MBD-LMs-MultiTF-Datasets 预览• 更新于约2小时前 • 42 (https://huggingface.co/datasets/SJTU-DENG-Lab/MBD-LMs-MultiTF-Datasets)
引用此论文的 Space 0
没有与此论文链接的 Space
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.29215 以从此页面链接。
包含此论文的收藏 1
相似文章
BitLM:利用位级连续扩散解锁多 Token 语言生成
本文介绍了 BitLM,一种利用位级连续扩散并行生成多个 Token 的语言模型,旨在克服传统自回归生成的顺序瓶颈,同时保留因果结构。
扩散语言模型的动态分块
本文介绍了扩散语言模型的动态分块(DCDM),该方法使用可微分的Chunking Attention机制,用内容定义的语义块替换块离散扩散中的固定位置块,在高达1.5B参数规模上实现了一致的改进。
Dynamic-dLLM:动态缓存预算与自适应并行解码,实现扩散大语言模型的无训练加速
本文提出 Dynamic-dLLM,一种无训练框架,通过动态分配缓存更新预算和校准解码阈值来加速扩散大语言模型,在 LLaDA 和 Dream 等模型上实现超过 3 倍的加速,同时保持性能。
基于时空并行解码与置信度外推的高效扩散LLMs
本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。
PerceptionDLM: 基于多模态扩散语言模型的并行区域感知
PerceptionDLM 提出了一种多模态扩散语言模型,通过结构化注意力掩码和高效提示实现并行区域感知,在不牺牲字幕质量的情况下实现更快的推理。实验表明,在多区域感知任务中,性能具有竞争力且速度大幅提升。