Orthrus:通过双视图扩散实现内存高效的并行令牌生成
摘要
Orthrus 是一个双架构框架,结合了自回归大语言模型与扩散模型,通过共享KV缓存和共识机制实现快速并行令牌生成,同时保持精确推理保真度,速度提升最高可达7.8倍。
查看缓存全文
缓存时间: 2026/05/14 04:16
论文页面 - Orthrus: 通过双视角扩散实现内存高效的并行令牌生成
来源:https://huggingface.co/papers/2605.12825
摘要
Orthrus 是一个双架构框架,将自回归大语言模型与扩散模型相结合,通过共享 KV 缓存和共识机制,在保持精确推理保真度的同时实现快速并行令牌生成。
我们提出 Orthrus,一个简单且高效的双架构框架(https://huggingface.co/papers?q=dual-architecture%20framework),它统一了自回归大语言模型(LLMs)(https://huggingface.co/papers?q=autoregressive%20Large%20Language%20Models)的精确生成保真度与扩散模型(https://huggingface.co/papers?q=diffusion%20models)的高速并行令牌生成(https://huggingface.co/papers?q=parallel%20token%20generation)。标准自回归解码的顺序特性是高吞吐推理的根本瓶颈。虽然扩散语言模型试图通过并行生成打破这一障碍,但它们面临着显著的性能退化、高训练成本以及缺乏严格收敛保证的问题。Orthrus 天然地解决了这一矛盾。该框架专为无缝集成到现有 Transformer(https://huggingface.co/papers?q=Transformer)中而设计,通过在冻结的 LLM 上增加一个轻量级可训练模块,在标准自回归视角之外创建一个并行扩散视角。在这个统一系统中,两个视角都关注完全相同的高保真 Key-Value(KV)缓存;自回归头执行上下文预填充以构建准确的 KV 表示,而扩散头则执行并行生成。通过在两个视角之间采用精确的共识机制(https://huggingface.co/papers?q=consensus%20mechanism),Orthrus 保证了无损推理(https://huggingface.co/papers?q=lossless%20inference),在仅 O(1) 内存缓存开销和最小参数增加的情况下,实现了高达 7.8 倍的加速。
查看 arXiv 页面(https://arxiv.org/abs/2605.12825)查看 PDF(https://arxiv.org/pdf/2605.12825)GitHub1(https://github.com/chiennv2000/orthrus)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12825)
在您的代理中获取本篇论文:
hf papers read 2605.12825
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型3
chiennv/Orthrus-Qwen3-8B 文本生成 • 10B • 更新于约 2 小时前 (https://huggingface.co/chiennv/Orthrus-Qwen3-8B)
chiennv/Orthrus-Qwen3-4B 文本生成 • 5B • 更新于约 2 小时前 • 20 (https://huggingface.co/chiennv/Orthrus-Qwen3-4B)
chiennv/Orthrus-Qwen3-1.7B 文本生成 • 2B • 更新于约 2 小时前 (https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B)
引用本论文的数据集0
暂无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.12825 以将其链接至此页面。
引用本论文的 Space0
暂无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.12825 以将其链接至此页面。
包含本论文的收藏1
相似文章
Orthrus-Qwen3:在Qwen3上实现高达7.8倍的每前向传递令牌数,输出分布完全相同
Orthrus是一种双架构框架,融合了自回归LLM的保真度和扩散模型的速度,在Qwen3模型上实现高达7.8倍的加速,同时保证输出分布完全相同。
Orthrus-Qwen3-8B:在Qwen3-8B上实现高达7.8倍每前向传播token数,冻结主干网络,可证明输出分布一致
介绍Orthrus,一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法,在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速,且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练,并避免了外部草稿模型带来的TTFT惩罚。
DiffRetriever:基于扩散语言模型的并行代表性令牌检索
本文介绍了 DiffRetriever,这是一种利用扩散语言模型并行生成多个代表性令牌以实现高效信息检索的方法,在速度和准确率上均优于自回归基线方法。
BitLM:利用位级连续扩散解锁多 Token 语言生成
本文介绍了 BitLM,一种利用位级连续扩散并行生成多个 Token 的语言模型,旨在克服传统自回归生成的顺序瓶颈,同时保留因果结构。
DFlash:用于快速投机解码的块扩散
DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。