@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…
摘要
关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。
查看缓存全文
缓存时间: 2026/06/15 17:04
新博客:下一代推测解码——DFlash 与 Spec V2
DFlash + Spec V2 在 LLM 推理中实现 >4.3 倍基准吞吐量,现已作为 SGLang 默认推测解码引擎!与 @modal 及 http://z-lab.ai 合作,我们联合发布的 DFlash 草稿模型(适用于 Qwen 3.5 397B-A17B)在测试的所有场景中,均同时击败了基准方案和原生 MTP:
- 在并发数为 1、HumanEval 基准测试、8×B200 环境下,实现 >4.3 倍基准吞吐量及 1.5 倍原生 MTP 吞吐量
- 块扩散草稿模型:一次前向传播即可生成完整词块
- KV 注入:将目标模型的特征输入每一草稿层的 KV 缓存,提高接受率
- Spec V2 重叠调度器:端到端性能提升 33%
阅读代码、部署 DFlash 服务器,立即开始实验!
Z Lab
来源:https://z-lab.ai/
我们专注于通过全栈创新,让 AI 更小、更快、更高效:
- 🧠 算法:设计高效的模型架构与近似方法(如稀疏化、压缩)。
- ⚙️ 系统:构建硬件感知的系统支持,加速新兴 AI 工作负载。
- 🚀 应用:在生成式 AI、机器人学与科学发现领域探索真实用例。
我们是加州大学圣地亚哥分校机器学习系统组(https://mlsys-ucsd.org/)与视觉计算中心(https://viscomp.ucsd.edu/)的一部分。
新闻动态
- 2026年1月:ParoQuant(https://z-lab.ai/projects/paroquant/)被 ICLR 2026 接收!ParoQuant 通过成对旋转量化实现高效推理型 LLM 推理。
- 2026年1月:DFlash(https://z-lab.ai/projects/dflash/)发布!DFlash 利用块扩散实现推测解码,支持高效、高质量的并行草稿生成。
- 2025年6月:SparseVILA(https://z-lab.ai/projects/sparsevila/)被 ICCV 2025 接收!SparseVILA 通过解耦视觉令牌稀疏性,实现高效的视觉-语言模型推理。
- 2025年6月:SparseLoRA(https://z-lab.ai/projects/sparselora/)被 ICML 2025 接收!SparseLoRA 在微调过程中应用上下文稀疏性以跳过不必要的计算,实现高达 2.2 倍的计算量削减。
亮点展示
相似文章
@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。
什么是推测性解码?(在paperswithco.de上热门)[R]
推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。
@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作,将 DFlash 规范集成到 @sgl_project,并通过重叠加速……
Modal 与 LMSys 和 Z Lab 合作,将 DFlash 推测解码集成到 SGLang,在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升,比原生多 token 预测提升 1.5 倍。
DFlash与Spec V2解码(14分钟阅读)
Z Lab、SGLang和Modal发布DFlash,这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型,采用块扩散和KV注入技术,相较于基线实现超过4倍吞吐量提升,相较于原生MTP实现1.5倍提升。
@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash
DFlash 是一个用于投机解码的轻量级块扩散模型,现已支持 Qwen 和 Gemma 等各种大语言模型并投入生产环境使用。