@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

X AI KOLs Following 论文

摘要

关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。

新博客: 推测解码的下一代: DFlash 和 Spec V2 DFlash + Spec V2 实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎!与 @modal 和 http://z-lab.ai 合作,我们联合发布的 DFlash 起草器(用于 Qwen 3.5 397B-A17B)在我们基准测试的所有设置中均超越了基准和原生 MTP: >4.3倍基准吞吐量 & 1.5倍原生 MTP 吞吐量(并发数 1,HumanEval,8xB200) 区块扩散起草器:一次前向传播生成完整 token 块 KV 注入:将目标模型特征注入每个草稿层的 KV 缓存以提高接受率 Spec V2 重叠调度器:端到端提升 +33% 阅读代码,部署 DFlash 服务器,开始实验吧!
查看原文
查看缓存全文

缓存时间: 2026/06/15 17:04

新博客:下一代推测解码——DFlash 与 Spec V2

DFlash + Spec V2 在 LLM 推理中实现 >4.3 倍基准吞吐量,现已作为 SGLang 默认推测解码引擎!与 @modal 及 http://z-lab.ai 合作,我们联合发布的 DFlash 草稿模型(适用于 Qwen 3.5 397B-A17B)在测试的所有场景中,均同时击败了基准方案和原生 MTP:

  • 在并发数为 1、HumanEval 基准测试、8×B200 环境下,实现 >4.3 倍基准吞吐量及 1.5 倍原生 MTP 吞吐量
  • 块扩散草稿模型:一次前向传播即可生成完整词块
  • KV 注入:将目标模型的特征输入每一草稿层的 KV 缓存,提高接受率
  • Spec V2 重叠调度器:端到端性能提升 33%

阅读代码、部署 DFlash 服务器,立即开始实验!


Z Lab

来源:https://z-lab.ai/

我们专注于通过全栈创新,让 AI 更小、更快、更高效

  • 🧠 算法:设计高效的模型架构与近似方法(如稀疏化、压缩)。
  • ⚙️ 系统:构建硬件感知的系统支持,加速新兴 AI 工作负载。
  • 🚀 应用:在生成式 AI、机器人学与科学发现领域探索真实用例。

我们是加州大学圣地亚哥分校机器学习系统组(https://mlsys-ucsd.org/)与视觉计算中心(https://viscomp.ucsd.edu/)的一部分。

新闻动态

  • 2026年1月:ParoQuant(https://z-lab.ai/projects/paroquant/)被 ICLR 2026 接收!ParoQuant 通过成对旋转量化实现高效推理型 LLM 推理。
  • 2026年1月:DFlash(https://z-lab.ai/projects/dflash/)发布!DFlash 利用块扩散实现推测解码,支持高效、高质量的并行草稿生成。
  • 2025年6月:SparseVILA(https://z-lab.ai/projects/sparsevila/)被 ICCV 2025 接收!SparseVILA 通过解耦视觉令牌稀疏性,实现高效的视觉-语言模型推理。
  • 2025年6月:SparseLoRA(https://z-lab.ai/projects/sparselora/)被 ICML 2025 接收!SparseLoRA 在微调过程中应用上下文稀疏性以跳过不必要的计算,实现高达 2.2 倍的计算量削减。

亮点展示

相似文章

z-lab/dflash

GitHub Trending (daily)

DFlash 引入了一种用于 Flash 投机解码的块扩散方法,以提高大语言模型的推理速度。