@Ex0byt: 浅谈specdec的多种风格，以及我为何尝试为各位制作Qwen-3.6-27b EAGLE-3草稿模型

X AI KOLs Timeline 2026/05/17 17:19 工具

speculative-decoding qwen eagle draft-model inference-optimization

摘要

讨论了推测解码的多种风格，并尝试为社区制作一个Qwen-3.6-27b EAGLE-3草稿模型。

浅谈specdec的多种风格，以及我为何尝试为各位制作Qwen-3.6-27b EAGLE-3草稿模型 https://t.co/ZZvr28p2gU

查看原文

查看缓存全文

缓存时间: 2026/05/18 10:31

specdec的不同变体，以及我为什么在努力为大家制作一个Qwen-3.6-27b EAGLE-3草稿模型 https://t.co/ZZvr28p2gU

相似文章

X AI KOLs Following

Modal和Z Lab发布了六款新的DFlash推测解码草稿模型，用于Qwen 3.x，在B200上实现了每秒超过1000个token，并认为推测解码是最有影响力的推理优化。

X AI KOLs Timeline

发布了 Qwen3.6-27B-PRISM-PRO-DQ，这是 Qwen3.6-27B 的动态量化 GGUF 版本，去除了偏见/宣传内容，保留了原生 MTP 草稿头和视觉塔，支持无损推测解码以实现更快的推理。

TLDR AI

Z Lab、SGLang和Modal发布DFlash，这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型，采用块扩散和KV注入技术，相较于基线实现超过4倍吞吐量提升，相较于原生MTP实现1.5倍提升。

Hugging Face Models Trending

本文介绍 Qwen3.6-27B-DFlash，这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法，利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明，以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

Hugging Face Models Trending

z-lab 发布 DFlash，一种基于轻量级块扩散模型的投机解码草稿器，可并行生成 15–16 个 token，为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。