@Ex0byt: 浅谈specdec的多种风格,以及我为何尝试为各位制作Qwen-3.6-27b EAGLE-3草稿模型

X AI KOLs Timeline 工具

摘要

讨论了推测解码的多种风格,并尝试为社区制作一个Qwen-3.6-27b EAGLE-3草稿模型。

浅谈specdec的多种风格,以及我为何尝试为各位制作Qwen-3.6-27b EAGLE-3草稿模型 https://t.co/ZZvr28p2gU
查看原文
查看缓存全文

缓存时间: 2026/05/18 10:31

specdec的不同变体,以及我为什么在努力为大家制作一个Qwen-3.6-27b EAGLE-3草稿模型 https://t.co/ZZvr28p2gU

相似文章

DFlash与Spec V2解码(14分钟阅读)

TLDR AI

Z Lab、SGLang和Modal发布DFlash,这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型,采用块扩散和KV注入技术,相较于基线实现超过4倍吞吐量提升,相较于原生MTP实现1.5倍提升。

z-lab/Qwen3.6-27B-DFlash

Hugging Face Models Trending

本文介绍 Qwen3.6-27B-DFlash,这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法,利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明,以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

z-lab/Qwen3.6-35B-A3B-DFlash

Hugging Face Models Trending

z-lab 发布 DFlash,一种基于轻量级块扩散模型的投机解码草稿器,可并行生成 15–16 个 token,为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。