@zhijianliu_: 这正是 DFlash 的用武之地。我们的块扩散起草器 + KV注入,现在正在前沿规模上运行——感谢…

X AI KOLs Following 工具

摘要

DFlash,一个带有KV注入的块扩散起草器,现在正在前沿规模上运行,相比基线实现了高达4.3倍的吞吐量提升,集成了Modal和SGLang以用于Qwen 397B。

这就是 DFlash 的用武之地。⚡ 我们的块扩散起草器 + KV注入,现在正在前沿规模上运行——感谢 @modal 和 @sgl_project 提供的引擎和集成支持!
查看原文
查看缓存全文

缓存时间: 2026/06/16 15:37

这正是DFlash的用武之地。⚡

我们的块扩散草稿模型 + KV注入,现已扩展到前沿规模——感谢 @modal 和 @sgl_project 提供的引擎与集成支持!

Modal (@modal): 我们与 @lmsysorg 及 https://t.co/Cg0JsVomui 合作:

  • 将 DFlash 规范集成到 @sgl_project
  • 通过重叠操作提升速度
  • 为 @Alibaba_Qwen Qwen 397B-A17B 训练了 DFlash 草稿模型

成果:吞吐量相比基线提升高达 4.3 倍,相比原生 MTP 提升 1.5 倍。

相似文章

DFlash与Spec V2解码(14分钟阅读)

TLDR AI

Z Lab、SGLang和Modal发布DFlash,这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型,采用块扩散和KV注入技术,相较于基线实现超过4倍吞吐量提升,相较于原生MTP实现1.5倍提升。

DFlash:用于快速投机解码的块扩散

Papers with Code Trending

DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。

z-lab/Qwen3.6-27B-DFlash

Hugging Face Models Trending

本文介绍 Qwen3.6-27B-DFlash,这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法,利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明,以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

z-lab/Qwen3.6-35B-A3B-DFlash

Hugging Face Models Trending

z-lab 发布 DFlash,一种基于轻量级块扩散模型的投机解码草稿器,可并行生成 15–16 个 token,为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。