Orthrus-Qwen3:在Qwen3上实现高达7.8倍的每前向传递令牌数,输出分布完全相同
摘要
Orthrus是一种双架构框架,融合了自回归LLM的保真度和扩散模型的速度,在Qwen3模型上实现高达7.8倍的加速,同时保证输出分布完全相同。
查看缓存全文
缓存时间: 2026/05/16 06:37
左侧:每次前向传递的平均验证令牌数与 EAGLE-3 和 DFlash 对比。右侧:不同缩放上下文长度下的模拟生成时间与 DFlash 对比。
MATH-500 上的吞吐量与准确率。Orthrus 在严格无损的情况下,相比于 Qwen3-8B 基线实现了约 6 倍加速,而 Fast-dLLM-v2 等改编方法则出现了显著的准确率下降。
相似文章
Orthrus-Qwen3-8B:在Qwen3-8B上实现高达7.8倍每前向传播token数,冻结主干网络,可证明输出分布一致
介绍Orthrus,一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法,在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速,且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练,并避免了外部草稿模型带来的TTFT惩罚。
Orthrus:通过双视图扩散实现内存高效的并行令牌生成
Orthrus 是一个双架构框架,结合了自回归大语言模型与扩散模型,通过共享KV缓存和共识机制实现快速并行令牌生成,同时保持精确推理保真度,速度提升最高可达7.8倍。
Qwen 3.6 27B AR->Diffusion - 在5090上的本地训练
作者详细介绍了尝试在Nvidia 5090 GPU上使用qlora以及来自open-dllm和d3LLM的修改来本地训练Qwen 3.6 27B自回归到扩散模型的过程,在探索单步扩散技术时遇到了显存限制和硬件问题。
Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。
一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。
Ornith 35B 与 Qwen3.6 35B DFlash 推测模型配合效果良好
在 llama-server 中,Ornith 35B 与 Qwen3.6 35B DFlash 推测模型搭配使用时,token 生成速度提升了 30-40%,在混合代码和文本上实现了 80% 的接受率,但提示处理性能有所下降。