@Ex0byt: 浅谈specdec的多种风格,以及我为何尝试为各位制作Qwen-3.6-27b EAGLE-3草稿模型
摘要
讨论了推测解码的多种风格,并尝试为社区制作一个Qwen-3.6-27b EAGLE-3草稿模型。
浅谈specdec的多种风格,以及我为何尝试为各位制作Qwen-3.6-27b EAGLE-3草稿模型 https://t.co/ZZvr28p2gU
查看缓存全文
缓存时间: 2026/05/18 10:31
specdec的不同变体,以及我为什么在努力为大家制作一个Qwen-3.6-27b EAGLE-3草稿模型 https://t.co/ZZvr28p2gU
相似文章
@charles_irl:推测就是一切。在这篇博客中,我们宣布与Z Lab共同发布六款最新的DFla…
Modal和Z Lab发布了六款新的DFlash推测解码草稿模型,用于Qwen 3.x,在B200上实现了每秒超过1000个token,并认为推测解码是最有影响力的推理优化。
@Ex0byt: 各位,这是 Qwen3.6-27B-PRISM-PRO-DQ - 敬请享用!
发布了 Qwen3.6-27B-PRISM-PRO-DQ,这是 Qwen3.6-27B 的动态量化 GGUF 版本,去除了偏见/宣传内容,保留了原生 MTP 草稿头和视觉塔,支持无损推测解码以实现更快的推理。
DFlash与Spec V2解码(14分钟阅读)
Z Lab、SGLang和Modal发布DFlash,这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型,采用块扩散和KV注入技术,相较于基线实现超过4倍吞吐量提升,相较于原生MTP实现1.5倍提升。
z-lab/Qwen3.6-27B-DFlash
本文介绍 Qwen3.6-27B-DFlash,这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法,利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明,以便与目标模型 Qwen3.6-27B 实现并行草稿生成。
z-lab/Qwen3.6-35B-A3B-DFlash
z-lab 发布 DFlash,一种基于轻量级块扩散模型的投机解码草稿器,可并行生成 15–16 个 token,为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。