DFlash：用于快速投机解码的块扩散

Papers with Code Trending 2026/02/05 18:59 论文

摘要

DFlash 是一种新的投机解码框架，它使用轻量级的块扩散模型进行并行标记起草，与自回归方法相比，实现了超过 6 倍的加速。在保持高输出质量的同时，其性能显著优于现有的最先进方法（如 EAGLE-3）。

自回归大型语言模型（LLMs）表现出色，但其固有的顺序解码特性导致推理延迟高且 GPU 利用率低下。投机解码通过使用快速起草模型来缓解这一瓶颈，起草模型的输出由目标 LLM 并行验证；然而，现有方法仍依赖于自回归起草，这仍然是顺序的，限制了实际的加速效果。扩散式 LLM 提供了一种有前景的替代方案，通过实现并行生成来解决问题，但当前的扩散模型通常表现不如自回归模型。在本文中，我们介绍了 DFlash，这是一种投机解码框架，它采用轻量级的块扩散模型进行并行起草。通过在单次前向传播中生成起草标记，并将起草模型的条件设置为从目标模型提取的上下文特征，DFlash 实现了高效的起草，同时保持高质量的输出和更高的接受率。实验表明，DFlash 在一系列模型和任务上实现了超过 6 倍的无损加速，相比最先进的投机解码方法 EAGLE-3，速度提升最高可达 2.5 倍。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:32

论文页面 - DFlash：用于快速投机解码的块扩散模型

来源：https://huggingface.co/papers/2602.06036

摘要

DFlash 是一个投机解码框架，使用轻量级块扩散模型进行并行 token 起草，在保持高质量输出的同时，比现有的自回归方法实现了显著的速度提升。

自回归大型语言模型（https://huggingface.co/papers?q=Autoregressive%20large%20language%20models）（LLMs）表现出色，但其解码过程本质上是顺序的，导致推理延迟高且 GPU 利用率低。投机解码（https://huggingface.co/papers?q=Speculative%20decoding）通过使用快速起草模型来缓解这一瓶颈，其输出由目标 LLM 并行验证；然而，现有方法仍依赖自回归起草，这仍然是顺序的，限制了实际加速效果。扩散 LLMs（https://huggingface.co/papers?q=Diffusion%20LLMs）通过启用并行生成（https://huggingface.co/papers?q=parallel%20generation）提供了一种有前景的替代方案，但当前的扩散模型通常不如自回归模型表现好。在本文中，我们介绍了 DFlash，一个投机解码（https://huggingface.co/papers?q=speculative%20decoding）框架，采用轻量级块扩散模型（https://huggingface.co/papers?q=block%20diffusion%20model）进行并行起草。通过在单次前向传播中生成起草 token（https://huggingface.co/papers?q=draft%20tokens），并将起草模型的条件基于从目标模型提取的上下文特征（https://huggingface.co/papers?q=context%20features），DFlash 实现了高效起草，输出质量高且接受率（https://huggingface.co/papers?q=acceptance%20rates）更高。实验表明，DFlash 在各种模型和任务上实现了超过 6 倍的无损加速（https://huggingface.co/papers?q=lossless%20acceleration），比最先进的投机解码（https://huggingface.co/papers?q=speculative%20decoding）方法 EAGLE-3（https://huggingface.co/papers?q=EAGLE-3）的速度提升高出 2.5 倍。

查看 arXiv 页面（https://arxiv.org/abs/2602.06036）查看 PDF（https://arxiv.org/pdf/2602.06036）项目页面（https://z-lab.ai/projects/dflash/）GitHub 3.55k（https://github.com/z-lab/dflash）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2602.06036）

社区

我可以将 ParoQuant 与 DFlash 一起使用吗？

是的，DFlash 与量化模型兼容，包括使用 ParoQuant 量化的模型。

伙计，我爱死你们的工作了！你们能为 122B 的那个做个 DFlash 吗？难吗？

通过拖入文本输入框、粘贴或点击此处上传图像、音频和视频。

在此处点击或粘贴以上传图片

在您的代理中获取这篇论文：

hf papers read 2602\.06036

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 54

z-lab/Qwen3.6-27B-DFlash 文本生成 • 2B • 11 天前更新 • 30.5k • 263（https://huggingface.co/z-lab/Qwen3.6-27B-DFlash）

z-lab/Qwen3.6-35B-A3B-DFlash 文本生成 • 0.5B • 12 天前更新 • 58.9k • 214（https://huggingface.co/z-lab/Qwen3.6-35B-A3B-DFlash）

z-lab/Qwen3.5-27B-DFlash 文本生成 • 2B • 约 1 个月前更新 • 23.6k • 107（https://huggingface.co/z-lab/Qwen3.5-27B-DFlash）

spiritbuun/Qwen3.6-27B-DFlash-GGUF 2B • 14 天前更新 • 27.2k • 56（https://huggingface.co/spiritbuun/Qwen3.6-27B-DFlash-GGUF）

浏览引用此论文的 54 个模型（https://huggingface.co/models?other=arxiv:2602.06036）## 引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2602.06036 以从本页面链接。

引用此论文的 Spaces 3

包含此论文的集合 10

浏览包含此论文的 10 个集合（https://huggingface.co/collections?paper=2602.06036）

DFlash：用于快速投机解码的块扩散

论文页面 - DFlash：用于快速投机解码的块扩散模型

摘要

社区

引用此论文的模型 54

z-lab/Qwen3.6-27B-DFlash 文本生成 • 2B • 11 天前更新 • 30.5k • 263（https://huggingface.co/z-lab/Qwen3.6-27B-DFlash）

z-lab/Qwen3.6-35B-A3B-DFlash 文本生成 • 0.5B • 12 天前更新 • 58.9k • 214（https://huggingface.co/z-lab/Qwen3.6-35B-A3B-DFlash）

z-lab/Qwen3.5-27B-DFlash 文本生成 • 2B • 约 1 个月前更新 • 23.6k • 107（https://huggingface.co/z-lab/Qwen3.5-27B-DFlash）

spiritbuun/Qwen3.6-27B-DFlash-GGUF 2B • 14 天前更新 • 27.2k • 56（https://huggingface.co/spiritbuun/Qwen3.6-27B-DFlash-GGUF）

引用此论文的 Spaces 3

包含此论文的集合 10

相似文章

@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash

@charles_irl: dflash 高速运转

DFlash与Spec V2解码（14分钟阅读）

z-lab/dflash

@charles_irl：推测就是一切。在这篇博客中，我们宣布与Z Lab共同发布六款最新的DFla…

提交意见反馈