@charles_irl: 许多人迟来地意识到智能必须开放。开放智能要成功,开发者必须携手合…

X AI KOLs Following 工具

摘要

Modal、SGLang 和 Z Lab 之间的合作将 DFlash 推测方案集成到 SGLang 中,为阿里巴巴的 Qwen 397B-A17B 模型实现了高达 4.3 倍的吞吐量提升,推动了开放智能的发展。

许多人迟来地意识到智能必须是开放的。 开放智能要成功,开发者必须跨机构合作。 这就是为什么我对这次跨 @modal、@sgl_project 和 Z Lab 的合作感到特别兴奋:
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:40

很多人现在才意识到,智能必须是开放的。

开放智能要取得成功,开发者必须跨越机构界限共同合作。

这正是我对 @modal、@sgl_project 和 Z Lab 之间这项合作如此期待的原因:

Modal (@modal): 我们与 @lmsysorg 及 https://t.co/Cg0JsVomui 合作,

  • 将 DFlash 规范集成到 @sgl_project 中
  • 通过重叠处理让它更快
  • 为 @Alibaba_Qwen 397B-A17B 训练了一个 DFlash 草稿模型

结果:相比基线,吞吐量提升高达 4.3 倍,相比原生 MTP 提升 1.5 倍。

相似文章

DFlash与Spec V2解码(14分钟阅读)

TLDR AI

Z Lab、SGLang和Modal发布DFlash,这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型,采用块扩散和KV注入技术,相较于基线实现超过4倍吞吐量提升,相较于原生MTP实现1.5倍提升。