@charles_irl: 许多人迟来地意识到智能必须开放。开放智能要成功,开发者必须携手合…
摘要
Modal、SGLang 和 Z Lab 之间的合作将 DFlash 推测方案集成到 SGLang 中,为阿里巴巴的 Qwen 397B-A17B 模型实现了高达 4.3 倍的吞吐量提升,推动了开放智能的发展。
查看缓存全文
缓存时间: 2026/06/16 11:40
很多人现在才意识到,智能必须是开放的。
开放智能要取得成功,开发者必须跨越机构界限共同合作。
这正是我对 @modal、@sgl_project 和 Z Lab 之间这项合作如此期待的原因:
Modal (@modal): 我们与 @lmsysorg 及 https://t.co/Cg0JsVomui 合作,
- 将 DFlash 规范集成到 @sgl_project 中
- 通过重叠处理让它更快
- 为 @Alibaba_Qwen 397B-A17B 训练了一个 DFlash 草稿模型
结果:相比基线,吞吐量提升高达 4.3 倍,相比原生 MTP 提升 1.5 倍。
相似文章
@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作,将 DFlash 规范集成到 @sgl_project,并通过重叠加速……
Modal 与 LMSys 和 Z Lab 合作,将 DFlash 推测解码集成到 SGLang,在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升,比原生多 token 预测提升 1.5 倍。
@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…
关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。
@zhijianliu_: 这正是 DFlash 的用武之地。我们的块扩散起草器 + KV注入,现在正在前沿规模上运行——感谢…
DFlash,一个带有KV注入的块扩散起草器,现在正在前沿规模上运行,相比基线实现了高达4.3倍的吞吐量提升,集成了Modal和SGLang以用于Qwen 397B。
DFlash与Spec V2解码(14分钟阅读)
Z Lab、SGLang和Modal发布DFlash,这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型,采用块扩散和KV注入技术,相较于基线实现超过4倍吞吐量提升,相较于原生MTP实现1.5倍提升。
@Ali_TongyiLab: 我们很高兴重点介绍来自开发者的一款优秀社区模型:Qwen3.6-27B-MTP-pi-reasoning-GGUF。基于…
阿里巴巴通义实验室重点介绍了一款社区模型Qwen3.6-27B-MTP-pi-reasoning-GGUF,该模型基于Qwen3.6-27B,针对本地编码代理的自动编程和调试工作流进行了优化。