Orthrus-Qwen3:在Qwen3上实现高达7.8倍的每前向传递令牌数,输出分布完全相同

Hacker News Top 模型

摘要

Orthrus是一种双架构框架,融合了自回归LLM的保真度和扩散模型的速度,在Qwen3模型上实现高达7.8倍的加速,同时保证输出分布完全相同。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/16 06:37

左侧:每次前向传递的平均验证令牌数与 EAGLE-3 和 DFlash 对比。右侧:不同缩放上下文长度下的模拟生成时间与 DFlash 对比。

MATH-500 上的吞吐量与准确率。Orthrus 在严格无损的情况下,相比于 Qwen3-8B 基线实现了约 6 倍加速,而 Fast-dLLM-v2 等改编方法则出现了显著的准确率下降。

相似文章

Qwen 3.6 27B AR->Diffusion - 在5090上的本地训练

Reddit r/LocalLLaMA

作者详细介绍了尝试在Nvidia 5090 GPU上使用qlora以及来自open-dllm和d3LLM的修改来本地训练Qwen 3.6 27B自回归到扩散模型的过程,在探索单步扩散技术时遇到了显存限制和硬件问题。

Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。