@zhijianliu_: 这正是 DFlash 的用武之地。我们的块扩散起草器 + KV注入，现在正在前沿规模上运行——感谢…

X AI KOLs Following 2026/06/15 16:32 工具

inference-acceleration block-diffusion kv-cache speculative-decoding llm modal sglang

摘要

DFlash，一个带有KV注入的块扩散起草器，现在正在前沿规模上运行，相比基线实现了高达4.3倍的吞吐量提升，集成了Modal和SGLang以用于Qwen 397B。

这就是 DFlash 的用武之地。⚡ 我们的块扩散起草器 + KV注入，现在正在前沿规模上运行——感谢 @modal 和 @sgl_project 提供的引擎和集成支持！

查看原文

查看缓存全文

缓存时间: 2026/06/16 15:37

这正是DFlash的用武之地。⚡

我们的块扩散草稿模型 + KV注入，现已扩展到前沿规模——感谢 @modal 和 @sgl_project 提供的引擎与集成支持！

Modal (@modal)： 我们与 @lmsysorg 及 https://t.co/Cg0JsVomui 合作：

将 DFlash 规范集成到 @sgl_project

通过重叠操作提升速度

为 @Alibaba_Qwen Qwen 397B-A17B 训练了 DFlash 草稿模型

成果：吞吐量相比基线提升高达 4.3 倍，相比原生 MTP 提升 1.5 倍。

相似文章

@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash

X AI KOLs Following

DFlash 是一个用于投机解码的轻量级块扩散模型，现已支持 Qwen 和 Gemma 等各种大语言模型并投入生产环境使用。

DFlash与Spec V2解码（14分钟阅读）

TLDR AI

Z Lab、SGLang和Modal发布DFlash，这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型，采用块扩散和KV注入技术，相较于基线实现超过4倍吞吐量提升，相较于原生MTP实现1.5倍提升。

DFlash：用于快速投机解码的块扩散

Papers with Code Trending

DFlash 是一种新的投机解码框架，它使用轻量级的块扩散模型进行并行标记起草，与自回归方法相比，实现了超过 6 倍的加速。在保持高输出质量的同时，其性能显著优于现有的最先进方法（如 EAGLE-3）。

z-lab/Qwen3.6-27B-DFlash

Hugging Face Models Trending

本文介绍 Qwen3.6-27B-DFlash，这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法，利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明，以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

z-lab/Qwen3.6-35B-A3B-DFlash

Hugging Face Models Trending

z-lab 发布 DFlash，一种基于轻量级块扩散模型的投机解码草稿器，可并行生成 15–16 个 token，为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。

提交意见反馈