@charles_irl: 许多人迟来地意识到智能必须开放。开放智能要成功，开发者必须携手合…

X AI KOLs Following 2026/06/15 16:38 工具

open-intelligence sglang inference-speed throughput collaboration speculative-decoding

摘要

Modal、SGLang 和 Z Lab 之间的合作将 DFlash 推测方案集成到 SGLang 中，为阿里巴巴的 Qwen 397B-A17B 模型实现了高达 4.3 倍的吞吐量提升，推动了开放智能的发展。

许多人迟来地意识到智能必须是开放的。开放智能要成功，开发者必须跨机构合作。这就是为什么我对这次跨 @modal、@sgl_project 和 Z Lab 的合作感到特别兴奋：

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:40

很多人现在才意识到，智能必须是开放的。

开放智能要取得成功，开发者必须跨越机构界限共同合作。

这正是我对 @modal、@sgl_project 和 Z Lab 之间这项合作如此期待的原因：

Modal (@modal)： 我们与 @lmsysorg 及 https://t.co/Cg0JsVomui 合作，

将 DFlash 规范集成到 @sgl_project 中

通过重叠处理让它更快

为 @Alibaba_Qwen 397B-A17B 训练了一个 DFlash 草稿模型

结果：相比基线，吞吐量提升高达 4.3 倍，相比原生 MTP 提升 1.5 倍。

相似文章

@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作，将 DFlash 规范集成到 @sgl_project，并通过重叠加速……

X AI KOLs Following

Modal 与 LMSys 和 Z Lab 合作，将 DFlash 推测解码集成到 SGLang，在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升，比原生多 token 预测提升 1.5 倍。

@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

X AI KOLs Following

关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量，现已成为 SGLang 的默认推测解码引擎。

@zhijianliu_: 这正是 DFlash 的用武之地。我们的块扩散起草器 + KV注入，现在正在前沿规模上运行——感谢…

X AI KOLs Following

DFlash，一个带有KV注入的块扩散起草器，现在正在前沿规模上运行，相比基线实现了高达4.3倍的吞吐量提升，集成了Modal和SGLang以用于Qwen 397B。

DFlash与Spec V2解码（14分钟阅读）

TLDR AI

Z Lab、SGLang和Modal发布DFlash，这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型，采用块扩散和KV注入技术，相较于基线实现超过4倍吞吐量提升，相较于原生MTP实现1.5倍提升。

@Ali_TongyiLab: 我们很高兴重点介绍来自开发者的一款优秀社区模型：Qwen3.6-27B-MTP-pi-reasoning-GGUF。基于…

X AI KOLs Timeline

阿里巴巴通义实验室重点介绍了一款社区模型Qwen3.6-27B-MTP-pi-reasoning-GGUF，该模型基于Qwen3.6-27B，针对本地编码代理的自动编程和调试工作流进行了优化。

相似文章

@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作，将 DFlash 规范集成到 @sgl_project，并通过重叠加速……

@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

@zhijianliu_: 这正是 DFlash 的用武之地。我们的块扩散起草器 + KV注入，现在正在前沿规模上运行——感谢…

DFlash与Spec V2解码（14分钟阅读）

@Ali_TongyiLab: 我们很高兴重点介绍来自开发者的一款优秀社区模型：Qwen3.6-27B-MTP-pi-reasoning-GGUF。基于…

提交意见反馈