DFlash:用于快速投机解码的块扩散

Papers with Code Trending 论文

摘要

DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。

自回归大型语言模型(LLMs)表现出色,但其固有的顺序解码特性导致推理延迟高且 GPU 利用率低下。投机解码通过使用快速起草模型来缓解这一瓶颈,起草模型的输出由目标 LLM 并行验证;然而,现有方法仍依赖于自回归起草,这仍然是顺序的,限制了实际的加速效果。扩散式 LLM 提供了一种有前景的替代方案,通过实现并行生成来解决问题,但当前的扩散模型通常表现不如自回归模型。在本文中,我们介绍了 DFlash,这是一种投机解码框架,它采用轻量级的块扩散模型进行并行起草。通过在单次前向传播中生成起草标记,并将起草模型的条件设置为从目标模型提取的上下文特征,DFlash 实现了高效的起草,同时保持高质量的输出和更高的接受率。实验表明,DFlash 在一系列模型和任务上实现了超过 6 倍的无损加速,相比最先进的投机解码方法 EAGLE-3,速度提升最高可达 2.5 倍。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:32

论文页面 - DFlash:用于快速投机解码的块扩散模型

来源:https://huggingface.co/papers/2602.06036

摘要

DFlash 是一个投机解码框架,使用轻量级块扩散模型进行并行 token 起草,在保持高质量输出的同时,比现有的自回归方法实现了显著的速度提升。

自回归大型语言模型(https://huggingface.co/papers?q=Autoregressive%20large%20language%20models)(LLMs)表现出色,但其解码过程本质上是顺序的,导致推理延迟高且 GPU 利用率低。投机解码(https://huggingface.co/papers?q=Speculative%20decoding)通过使用快速起草模型来缓解这一瓶颈,其输出由目标 LLM 并行验证;然而,现有方法仍依赖自回归起草,这仍然是顺序的,限制了实际加速效果。扩散 LLMs(https://huggingface.co/papers?q=Diffusion%20LLMs)通过启用并行生成(https://huggingface.co/papers?q=parallel%20generation)提供了一种有前景的替代方案,但当前的扩散模型通常不如自回归模型表现好。在本文中,我们介绍了 DFlash,一个投机解码(https://huggingface.co/papers?q=speculative%20decoding)框架,采用轻量级块扩散模型(https://huggingface.co/papers?q=block%20diffusion%20model)进行并行起草。通过在单次前向传播中生成起草 token(https://huggingface.co/papers?q=draft%20tokens),并将起草模型的条件基于从目标模型提取的上下文特征(https://huggingface.co/papers?q=context%20features),DFlash 实现了高效起草,输出质量高且接受率(https://huggingface.co/papers?q=acceptance%20rates)更高。实验表明,DFlash 在各种模型和任务上实现了超过 6 倍的无损加速(https://huggingface.co/papers?q=lossless%20acceleration),比最先进的投机解码(https://huggingface.co/papers?q=speculative%20decoding)方法 EAGLE-3(https://huggingface.co/papers?q=EAGLE-3)的速度提升高出 2.5 倍。

查看 arXiv 页面(https://arxiv.org/abs/2602.06036)查看 PDF(https://arxiv.org/pdf/2602.06036)项目页面(https://z-lab.ai/projects/dflash/)GitHub 3.55k(https://github.com/z-lab/dflash)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2602.06036)

社区

我可以将 ParoQuant 与 DFlash 一起使用吗?

·

是的,DFlash 与量化模型兼容,包括使用 ParoQuant 量化的模型。

伙计,我爱死你们的工作了!你们能为 122B 的那个做个 DFlash 吗?难吗?

通过拖入文本输入框、粘贴或点击此处上传图像、音频和视频。

在此处点击或粘贴以上传图片

在您的代理中获取这篇论文:

hf papers read 2602\.06036

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 54

z-lab/Qwen3.6-27B-DFlash 文本生成 • 2B • 11 天前更新 • 30.5k • 263(https://huggingface.co/z-lab/Qwen3.6-27B-DFlash)

z-lab/Qwen3.6-35B-A3B-DFlash 文本生成 • 0.5B • 12 天前更新 • 58.9k • 214(https://huggingface.co/z-lab/Qwen3.6-35B-A3B-DFlash)

z-lab/Qwen3.5-27B-DFlash 文本生成 • 2B • 约 1 个月前更新 • 23.6k • 107(https://huggingface.co/z-lab/Qwen3.5-27B-DFlash)

spiritbuun/Qwen3.6-27B-DFlash-GGUF 2B • 14 天前更新 • 27.2k • 56(https://huggingface.co/spiritbuun/Qwen3.6-27B-DFlash-GGUF)

浏览引用此论文的 54 个模型(https://huggingface.co/models?other=arxiv:2602.06036)## 引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2602.06036 以从本页面链接。

引用此论文的 Spaces 3

包含此论文的集合 10

浏览包含此论文的 10 个集合(https://huggingface.co/collections?paper=2602.06036)

相似文章

@charles_irl: dflash 高速运转

X AI KOLs Timeline

NVIDIA 宣布推出 DFlash,一种用于推测解码的开源块扩散模型,在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升,同时保持交互性。

DFlash与Spec V2解码(14分钟阅读)

TLDR AI

Z Lab、SGLang和Modal发布DFlash,这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型,采用块扩散和KV注入技术,相较于基线实现超过4倍吞吐量提升,相较于原生MTP实现1.5倍提升。

z-lab/dflash

GitHub Trending (daily)

DFlash 引入了一种用于 Flash 投机解码的块扩散方法,以提高大语言模型的推理速度。