@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

X AI KOLs Following 2026/06/15 16:37 论文

speculative-decoding llm-inference dflash sglang throughput block-diffusion efficiency

摘要

关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量，现已成为 SGLang 的默认推测解码引擎。

新博客: 推测解码的下一代: DFlash 和 Spec V2 DFlash + Spec V2 实现了 LLM 推理的 >4.3倍基准吞吐量，现已成为 SGLang 的默认推测解码引擎！与 @modal 和 http://z-lab.ai 合作，我们联合发布的 DFlash 起草器（用于 Qwen 3.5 397B-A17B）在我们基准测试的所有设置中均超越了基准和原生 MTP： >4.3倍基准吞吐量 & 1.5倍原生 MTP 吞吐量（并发数 1，HumanEval，8xB200）区块扩散起草器：一次前向传播生成完整 token 块 KV 注入：将目标模型特征注入每个草稿层的 KV 缓存以提高接受率 Spec V2 重叠调度器：端到端提升 +33% 阅读代码，部署 DFlash 服务器，开始实验吧！

查看原文

查看缓存全文

缓存时间: 2026/06/15 17:04

新博客：下一代推测解码——DFlash 与 Spec V2

DFlash + Spec V2 在 LLM 推理中实现 >4.3 倍基准吞吐量，现已作为 SGLang 默认推测解码引擎！与 @modal 及 http://z-lab.ai 合作，我们联合发布的 DFlash 草稿模型（适用于 Qwen 3.5 397B-A17B）在测试的所有场景中，均同时击败了基准方案和原生 MTP：

在并发数为 1、HumanEval 基准测试、8×B200 环境下，实现 >4.3 倍基准吞吐量及 1.5 倍原生 MTP 吞吐量
块扩散草稿模型：一次前向传播即可生成完整词块
KV 注入：将目标模型的特征输入每一草稿层的 KV 缓存，提高接受率
Spec V2 重叠调度器：端到端性能提升 33%

阅读代码、部署 DFlash 服务器，立即开始实验！

Z Lab

来源：https://z-lab.ai/

我们专注于通过全栈创新，让 AI 更小、更快、更高效：

🧠 算法：设计高效的模型架构与近似方法（如稀疏化、压缩）。
⚙️ 系统：构建硬件感知的系统支持，加速新兴 AI 工作负载。
🚀 应用：在生成式 AI、机器人学与科学发现领域探索真实用例。

我们是加州大学圣地亚哥分校机器学习系统组（https://mlsys-ucsd.org/）与视觉计算中心（https://viscomp.ucsd.edu/）的一部分。

新闻动态

2026年1月：ParoQuant（https://z-lab.ai/projects/paroquant/）被 ICLR 2026 接收！ParoQuant 通过成对旋转量化实现高效推理型 LLM 推理。
2026年1月：DFlash（https://z-lab.ai/projects/dflash/）发布！DFlash 利用块扩散实现推测解码，支持高效、高质量的并行草稿生成。
2025年6月：SparseVILA（https://z-lab.ai/projects/sparsevila/）被 ICCV 2025 接收！SparseVILA 通过解耦视觉令牌稀疏性，实现高效的视觉-语言模型推理。
2025年6月：SparseLoRA（https://z-lab.ai/projects/sparselora/）被 ICML 2025 接收！SparseLoRA 在微调过程中应用上下文稀疏性以跳过不必要的计算，实现高达 2.2 倍的计算量削减。

@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

Z Lab

新闻动态

亮点展示

相似文章

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作，将 DFlash 规范集成到 @sgl_project，并通过重叠加速……

@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash

z-lab/dflash

SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

提交意见反馈