Orthrus-Qwen3-8B:在Qwen3-8B上实现高达7.8倍每前向传播token数,冻结主干网络,可证明输出分布一致
摘要
介绍Orthrus,一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法,在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速,且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练,并避免了外部草稿模型带来的TTFT惩罚。
代码:[https://github.com/chiennv2000/orthrus](https://github.com/chiennv2000/orthrus) * 论文:[https://arxiv.org/abs/2605.12825](https://arxiv.org/abs/2605.12825) * Hugging Face:[https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B](https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B) ; [https://huggingface.co/chiennv/Orthrus-Qwen3-4B](https://huggingface.co/chiennv/Orthrus-Qwen3-4B) ; [https://huggingface.co/chiennv/Orthrus-Qwen3-8B](https://huggingface.co/chiennv/Orthrus-Qwen3-8B) * 披露:共同作者。思路:在冻结的自回归Transformer的每一层中注入可训练的扩散注意力模块。两个头共享一个KV缓存。扩散头并行投影K=32个token;自回归头在第二次传递中验证并接受最长匹配前缀。输出分布与基础模型可证明一致。结果:* 在MATH-500上高达7.8倍TPF,\~6倍实际时间加速。* 训练了16%的参数,少于10亿token,在8×H200上耗时24小时。* 与扩散语言模型(Dream、Fast-dLLM-v2、SDAR、Mercury、Gemini Diffusion)对比:它们修改基础权重并损失精度(Fast-dLLM-v2在MATH-500上下降11个点)。Orthrus冻结主干网络;精度与Qwen3-8B完全一致。* 与投机解码(EAGLE-3、DFlash)对比:无外部草稿模型,无独立缓存,且零首token时间(TTFT)开销,因为我们无需初始化和同步独立的草稿模型。KV开销为O(1)(\~4.5 MiB固定)。在MATH-500上的接受长度:11.7 vs. 7.9(DFlash)vs. 3.5(EAGLE-3)。* 单步去噪优于多步(6.35 vs. 3.53 TPF)。KL散度蒸馏在接受率上优于交叉熵。局限性:严格受限于冻结的基础模型(继承其偏见、幻觉、知识缺口);仅在Qwen3上评估;仅使用贪婪解码+拒绝采样。
相似文章
Orthrus:通过双视图扩散实现内存高效的并行令牌生成
Orthrus 是一个双架构框架,结合了自回归大语言模型与扩散模型,通过共享KV缓存和共识机制实现快速并行令牌生成,同时保持精确推理保真度,速度提升最高可达7.8倍。
@iotcoi:Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 上峰值 200 tokens/s,平均解码 136 tokens/s
量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。
@rumgewieselt:现在变得疯狂了……三块 1080 Ti(Pascal架构,33GB VRAM)Qwen 3.6 27B MTP 搭配 196K TurboQuant,持续 ~28-30 t/s
一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理,通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。
@berryxia: 我靠,肉眼都跟不上这个速度了! Daniel Han,UnslothAI创始人,YC S24,之前在NVIDIA做ML,刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A…
UnslothAI创始人Daniel Han发布了Qwen3.6的实验性MTP GGUF版本,在消费级GPU上实现27B模型140 tokens/s、35B-A3B版本220 tokens/s,速度提升1.4倍且精度零损失。