@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…
摘要
关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。
查看缓存全文
缓存时间: 2026/06/15 17:04
新博客:下一代推测解码——DFlash 与 Spec V2
DFlash + Spec V2 在 LLM 推理中实现 >4.3 倍基准吞吐量,现已作为 SGLang 默认推测解码引擎!与 @modal 及 http://z-lab.ai 合作,我们联合发布的 DFlash 草稿模型(适用于 Qwen 3.5 397B-A17B)在测试的所有场景中,均同时击败了基准方案和原生 MTP:
- 在并发数为 1、HumanEval 基准测试、8×B200 环境下,实现 >4.3 倍基准吞吐量及 1.5 倍原生 MTP 吞吐量
- 块扩散草稿模型:一次前向传播即可生成完整词块
- KV 注入:将目标模型的特征输入每一草稿层的 KV 缓存,提高接受率
- Spec V2 重叠调度器:端到端性能提升 33%
阅读代码、部署 DFlash 服务器,立即开始实验!
Z Lab
来源:https://z-lab.ai/
我们专注于通过全栈创新,让 AI 更小、更快、更高效:
- 🧠 算法:设计高效的模型架构与近似方法(如稀疏化、压缩)。
- ⚙️ 系统:构建硬件感知的系统支持,加速新兴 AI 工作负载。
- 🚀 应用:在生成式 AI、机器人学与科学发现领域探索真实用例。
我们是加州大学圣地亚哥分校机器学习系统组(https://mlsys-ucsd.org/)与视觉计算中心(https://viscomp.ucsd.edu/)的一部分。
新闻动态
- 2026年1月:ParoQuant(https://z-lab.ai/projects/paroquant/)被 ICLR 2026 接收!ParoQuant 通过成对旋转量化实现高效推理型 LLM 推理。
- 2026年1月:DFlash(https://z-lab.ai/projects/dflash/)发布!DFlash 利用块扩散实现推测解码,支持高效、高质量的并行草稿生成。
- 2025年6月:SparseVILA(https://z-lab.ai/projects/sparsevila/)被 ICCV 2025 接收!SparseVILA 通过解耦视觉令牌稀疏性,实现高效的视觉-语言模型推理。
- 2025年6月:SparseLoRA(https://z-lab.ai/projects/sparselora/)被 ICML 2025 接收!SparseLoRA 在微调过程中应用上下文稀疏性以跳过不必要的计算,实现高达 2.2 倍的计算量削减。
亮点展示
相似文章
@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。
@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作,将 DFlash 规范集成到 @sgl_project,并通过重叠加速……
Modal 与 LMSys 和 Z Lab 合作,将 DFlash 推测解码集成到 SGLang,在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升,比原生多 token 预测提升 1.5 倍。
@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash
DFlash 是一个用于投机解码的轻量级块扩散模型,现已支持 Qwen 和 Gemma 等各种大语言模型并投入生产环境使用。
z-lab/dflash
DFlash 引入了一种用于 Flash 投机解码的块扩散方法,以提高大语言模型的推理速度。
SlimSpec: 用于加速推测解码的低秩 Draft LM-Head
SlimSpec 为 drafter LM-head 引入了低秩参数化方法,以加速 LLMs 中的推测解码,在保持完整词表支持的同时实现了 4-5 倍加速。