Orthrus-Qwen3-8B:在Qwen3-8B上实现高达7.8倍每前向传播token数,冻结主干网络,可证明输出分布一致

Reddit r/LocalLLaMA 论文

摘要

介绍Orthrus,一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法,在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速,且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练,并避免了外部草稿模型带来的TTFT惩罚。

代码:[https://github.com/chiennv2000/orthrus](https://github.com/chiennv2000/orthrus) * 论文:[https://arxiv.org/abs/2605.12825](https://arxiv.org/abs/2605.12825) * Hugging Face:[https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B](https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B) ; [https://huggingface.co/chiennv/Orthrus-Qwen3-4B](https://huggingface.co/chiennv/Orthrus-Qwen3-4B) ; [https://huggingface.co/chiennv/Orthrus-Qwen3-8B](https://huggingface.co/chiennv/Orthrus-Qwen3-8B) * 披露:共同作者。思路:在冻结的自回归Transformer的每一层中注入可训练的扩散注意力模块。两个头共享一个KV缓存。扩散头并行投影K=32个token;自回归头在第二次传递中验证并接受最长匹配前缀。输出分布与基础模型可证明一致。结果:* 在MATH-500上高达7.8倍TPF,\~6倍实际时间加速。* 训练了16%的参数,少于10亿token,在8×H200上耗时24小时。* 与扩散语言模型(Dream、Fast-dLLM-v2、SDAR、Mercury、Gemini Diffusion)对比:它们修改基础权重并损失精度(Fast-dLLM-v2在MATH-500上下降11个点)。Orthrus冻结主干网络;精度与Qwen3-8B完全一致。* 与投机解码(EAGLE-3、DFlash)对比:无外部草稿模型,无独立缓存,且零首token时间(TTFT)开销,因为我们无需初始化和同步独立的草稿模型。KV开销为O(1)(\~4.5 MiB固定)。在MATH-500上的接受长度:11.7 vs. 7.9(DFlash)vs. 3.5(EAGLE-3)。* 单步去噪优于多步(6.35 vs. 3.53 TPF)。KL散度蒸馏在接受率上优于交叉熵。局限性:严格受限于冻结的基础模型(继承其偏见、幻觉、知识缺口);仅在Qwen3上评估;仅使用贪婪解码+拒绝采样。
查看原文

相似文章