Orthrus-Qwen3-8B：在Qwen3-8B上实现高达7.8倍每前向传播token数，冻结主干网络，可证明输出分布一致

Reddit r/LocalLLaMA 2026/05/15 19:07 论文

摘要

介绍Orthrus，一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法，在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速，且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练，并避免了外部草稿模型带来的TTFT惩罚。

代码：[https://github.com/chiennv2000/orthrus](https://github.com/chiennv2000/orthrus) * 论文：[https://arxiv.org/abs/2605.12825](https://arxiv.org/abs/2605.12825) * Hugging Face：[https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B](https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B) ; [https://huggingface.co/chiennv/Orthrus-Qwen3-4B](https://huggingface.co/chiennv/Orthrus-Qwen3-4B) ; [https://huggingface.co/chiennv/Orthrus-Qwen3-8B](https://huggingface.co/chiennv/Orthrus-Qwen3-8B) * 披露：共同作者。思路：在冻结的自回归Transformer的每一层中注入可训练的扩散注意力模块。两个头共享一个KV缓存。扩散头并行投影K=32个token；自回归头在第二次传递中验证并接受最长匹配前缀。输出分布与基础模型可证明一致。结果：* 在MATH-500上高达7.8倍TPF，\~6倍实际时间加速。* 训练了16%的参数，少于10亿token，在8×H200上耗时24小时。* 与扩散语言模型（Dream、Fast-dLLM-v2、SDAR、Mercury、Gemini Diffusion）对比：它们修改基础权重并损失精度（Fast-dLLM-v2在MATH-500上下降11个点）。Orthrus冻结主干网络；精度与Qwen3-8B完全一致。* 与投机解码（EAGLE-3、DFlash）对比：无外部草稿模型，无独立缓存，且零首token时间（TTFT）开销，因为我们无需初始化和同步独立的草稿模型。KV开销为O(1)（\~4.5 MiB固定）。在MATH-500上的接受长度：11.7 vs. 7.9（DFlash）vs. 3.5（EAGLE-3）。* 单步去噪优于多步（6.35 vs. 3.53 TPF）。KL散度蒸馏在接受率上优于交叉熵。局限性：严格受限于冻结的基础模型（继承其偏见、幻觉、知识缺口）；仅在Qwen3上评估；仅使用贪婪解码+拒绝采样。

查看原文

@berryxia: 我靠，肉眼都跟不上这个速度了！ Daniel Han，UnslothAI创始人，YC S24，之前在NVIDIA做ML，刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A…

X AI KOLs Timeline

UnslothAI创始人Daniel Han发布了Qwen3.6的实验性MTP GGUF版本，在消费级GPU上实现27B模型140 tokens/s、35B-A3B版本220 tokens/s，速度提升1.4倍且精度零损失。

Orthrus-Qwen3-8B：在Qwen3-8B上实现高达7.8倍每前向传播token数，冻结主干网络，可证明输出分布一致

相似文章

Orthrus：通过双视图扩散实现内存高效的并行令牌生成

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

@rumgewieselt：现在变得疯狂了……三块 1080 Ti（Pascal架构，33GB VRAM）Qwen 3.6 27B MTP 搭配 196K TurboQuant，持续 ~28-30 t/s

@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token，本地使用 atomic[.]chat，接受率达90%，即……

@berryxia: 我靠，肉眼都跟不上这个速度了！ Daniel Han，UnslothAI创始人，YC S24，之前在NVIDIA做ML，刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A…

提交意见反馈