Orthrus-Qwen3：在Qwen3上实现高达7.8倍的每前向传递令牌数，输出分布完全相同

Hacker News Top 2026/05/15 22:38 模型

diffusion parallel-generation qwen3 inference-acceleration lossless dual-architecture open-source

摘要

Orthrus是一种双架构框架，融合了自回归LLM的保真度和扩散模型的速度，在Qwen3模型上实现高达7.8倍的加速，同时保证输出分布完全相同。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/16 06:37

左侧：每次前向传递的平均验证令牌数与 EAGLE-3 和 DFlash 对比。右侧：不同缩放上下文长度下的模拟生成时间与 DFlash 对比。

MATH-500 上的吞吐量与准确率。Orthrus 在严格无损的情况下，相比于 Qwen3-8B 基线实现了约 6 倍加速，而 Fast-dLLM-v2 等改编方法则出现了显著的准确率下降。

相似文章

Reddit r/LocalLLaMA

介绍Orthrus，一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法，在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速，且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练，并避免了外部草稿模型带来的TTFT惩罚。

Hugging Face Daily Papers

Orthrus 是一个双架构框架，结合了自回归大语言模型与扩散模型，通过共享KV缓存和共识机制实现快速并行令牌生成，同时保持精确推理保真度，速度提升最高可达7.8倍。

Reddit r/LocalLLaMA

作者详细介绍了尝试在Nvidia 5090 GPU上使用qlora以及来自open-dllm和d3LLM的修改来本地训练Qwen 3.6 27B自回归到扩散模型的过程，在探索单步扩散技术时遇到了显存限制和硬件问题。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果：将模型放入显存后，输出速度达到每秒 160 个 token，并以 75 秒的视频处理时间展示了视觉能力。

Reddit r/LocalLLaMA

在 llama-server 中，Ornith 35B 与 Qwen3.6 35B DFlash 推测模型搭配使用时，token 生成速度提升了 30-40%，在混合代码和文本上实现了 80% 的接受率，但提示处理性能有所下降。