DFlash:用于快速投机解码的块扩散
摘要
DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。
查看缓存全文
缓存时间: 2026/05/08 08:32
论文页面 - DFlash:用于快速投机解码的块扩散模型
来源:https://huggingface.co/papers/2602.06036
摘要
DFlash 是一个投机解码框架,使用轻量级块扩散模型进行并行 token 起草,在保持高质量输出的同时,比现有的自回归方法实现了显著的速度提升。
自回归大型语言模型(https://huggingface.co/papers?q=Autoregressive%20large%20language%20models)(LLMs)表现出色,但其解码过程本质上是顺序的,导致推理延迟高且 GPU 利用率低。投机解码(https://huggingface.co/papers?q=Speculative%20decoding)通过使用快速起草模型来缓解这一瓶颈,其输出由目标 LLM 并行验证;然而,现有方法仍依赖自回归起草,这仍然是顺序的,限制了实际加速效果。扩散 LLMs(https://huggingface.co/papers?q=Diffusion%20LLMs)通过启用并行生成(https://huggingface.co/papers?q=parallel%20generation)提供了一种有前景的替代方案,但当前的扩散模型通常不如自回归模型表现好。在本文中,我们介绍了 DFlash,一个投机解码(https://huggingface.co/papers?q=speculative%20decoding)框架,采用轻量级块扩散模型(https://huggingface.co/papers?q=block%20diffusion%20model)进行并行起草。通过在单次前向传播中生成起草 token(https://huggingface.co/papers?q=draft%20tokens),并将起草模型的条件基于从目标模型提取的上下文特征(https://huggingface.co/papers?q=context%20features),DFlash 实现了高效起草,输出质量高且接受率(https://huggingface.co/papers?q=acceptance%20rates)更高。实验表明,DFlash 在各种模型和任务上实现了超过 6 倍的无损加速(https://huggingface.co/papers?q=lossless%20acceleration),比最先进的投机解码(https://huggingface.co/papers?q=speculative%20decoding)方法 EAGLE-3(https://huggingface.co/papers?q=EAGLE-3)的速度提升高出 2.5 倍。
查看 arXiv 页面(https://arxiv.org/abs/2602.06036)查看 PDF(https://arxiv.org/pdf/2602.06036)项目页面(https://z-lab.ai/projects/dflash/)GitHub 3.55k(https://github.com/z-lab/dflash)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2602.06036)
社区
我可以将 ParoQuant 与 DFlash 一起使用吗?
·
是的,DFlash 与量化模型兼容,包括使用 ParoQuant 量化的模型。
伙计,我爱死你们的工作了!你们能为 122B 的那个做个 DFlash 吗?难吗?
通过拖入文本输入框、粘贴或点击此处上传图像、音频和视频。
在此处点击或粘贴以上传图片
在您的代理中获取这篇论文:
hf papers read 2602\.06036
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 54
z-lab/Qwen3.6-27B-DFlash 文本生成 • 2B • 11 天前更新 • 30.5k • 263(https://huggingface.co/z-lab/Qwen3.6-27B-DFlash)
z-lab/Qwen3.6-35B-A3B-DFlash 文本生成 • 0.5B • 12 天前更新 • 58.9k • 214(https://huggingface.co/z-lab/Qwen3.6-35B-A3B-DFlash)
z-lab/Qwen3.5-27B-DFlash 文本生成 • 2B • 约 1 个月前更新 • 23.6k • 107(https://huggingface.co/z-lab/Qwen3.5-27B-DFlash)
spiritbuun/Qwen3.6-27B-DFlash-GGUF 2B • 14 天前更新 • 27.2k • 56(https://huggingface.co/spiritbuun/Qwen3.6-27B-DFlash-GGUF)
浏览引用此论文的 54 个模型(https://huggingface.co/models?other=arxiv:2602.06036)## 引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2602.06036 以从本页面链接。
引用此论文的 Spaces 3
包含此论文的集合 10
浏览包含此论文的 10 个集合(https://huggingface.co/collections?paper=2602.06036)
相似文章
@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash
DFlash 是一个用于投机解码的轻量级块扩散模型,现已支持 Qwen 和 Gemma 等各种大语言模型并投入生产环境使用。
@charles_irl: dflash 高速运转
NVIDIA 宣布推出 DFlash,一种用于推测解码的开源块扩散模型,在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升,同时保持交互性。
DFlash与Spec V2解码(14分钟阅读)
Z Lab、SGLang和Modal发布DFlash,这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型,采用块扩散和KV注入技术,相较于基线实现超过4倍吞吐量提升,相较于原生MTP实现1.5倍提升。
z-lab/dflash
DFlash 引入了一种用于 Flash 投机解码的块扩散方法,以提高大语言模型的推理速度。
@charles_irl:推测就是一切。在这篇博客中,我们宣布与Z Lab共同发布六款最新的DFla…
Modal和Z Lab发布了六款新的DFlash推测解码草稿模型,用于Qwen 3.x,在B200上实现了每秒超过1000个token,并认为推测解码是最有影响力的推理优化。