Orthrus：通过双视图扩散实现内存高效的并行令牌生成

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

Orthrus 是一个双架构框架，结合了自回归大语言模型与扩散模型，通过共享KV缓存和共识机制实现快速并行令牌生成，同时保持精确推理保真度，速度提升最高可达7.8倍。

我们提出 Orthrus，一个简单高效的双架构框架，统一了自回归大语言模型（LLM）的精确生成保真度与扩散模型的高速并行令牌生成能力。标准自回归解码的逐序特性成为高吞吐量推理的根本瓶颈。扩散语言模型试图通过并行生成突破这一障碍，但面临显著的性能下降、高昂的训练成本以及缺乏严格的收敛保证。Orthrus 原生地解决了这一两难问题。该框架设计可无缝集成到现有 Transformer 中，通过为冻结的 LLM 增加一个轻量级、可训练的模块，在标准自回归视图之外创建一个并行扩散视图。在此统一系统中，两个视图共享完全相同的高保真键值（KV）缓存；自回归头执行上下文预填充以构建准确的KV表示，而扩散头执行并行生成。通过两个视图之间的精确共识机制，Orthrus 保证了无损推理，在仅 O(1) 内存缓存开销和极少量参数增加的情况下，实现最高 7.8 倍的速度提升。

查看原文

查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - Orthrus: 通过双视角扩散实现内存高效的并行令牌生成

来源：https://huggingface.co/papers/2605.12825

摘要

Orthrus 是一个双架构框架，将自回归大语言模型与扩散模型相结合，通过共享 KV 缓存和共识机制，在保持精确推理保真度的同时实现快速并行令牌生成。

我们提出 Orthrus，一个简单且高效的双架构框架（https://huggingface.co/papers?q=dual-architecture%20framework），它统一了自回归大语言模型（LLMs）（https://huggingface.co/papers?q=autoregressive%20Large%20Language%20Models）的精确生成保真度与扩散模型（https://huggingface.co/papers?q=diffusion%20models）的高速并行令牌生成（https://huggingface.co/papers?q=parallel%20token%20generation）。标准自回归解码的顺序特性是高吞吐推理的根本瓶颈。虽然扩散语言模型试图通过并行生成打破这一障碍，但它们面临着显著的性能退化、高训练成本以及缺乏严格收敛保证的问题。Orthrus 天然地解决了这一矛盾。该框架专为无缝集成到现有 Transformer（https://huggingface.co/papers?q=Transformer）中而设计，通过在冻结的 LLM 上增加一个轻量级可训练模块，在标准自回归视角之外创建一个并行扩散视角。在这个统一系统中，两个视角都关注完全相同的高保真 Key-Value（KV）缓存；自回归头执行上下文预填充以构建准确的 KV 表示，而扩散头则执行并行生成。通过在两个视角之间采用精确的共识机制（https://huggingface.co/papers?q=consensus%20mechanism），Orthrus 保证了无损推理（https://huggingface.co/papers?q=lossless%20inference），在仅 O(1) 内存缓存开销和最小参数增加的情况下，实现了高达 7.8 倍的加速。

查看 arXiv 页面（https://arxiv.org/abs/2605.12825）查看 PDF（https://arxiv.org/pdf/2605.12825）GitHub1（https://github.com/chiennv2000/orthrus）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.12825）

在您的代理中获取本篇论文：

hf papers read 2605.12825

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型3

chiennv/Orthrus-Qwen3-8B 文本生成 • 10B • 更新于约 2 小时前 (https://huggingface.co/chiennv/Orthrus-Qwen3-8B)

chiennv/Orthrus-Qwen3-4B 文本生成 • 5B • 更新于约 2 小时前 • 20 (https://huggingface.co/chiennv/Orthrus-Qwen3-4B)

chiennv/Orthrus-Qwen3-1.7B 文本生成 • 2B • 更新于约 2 小时前 (https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B)

引用本论文的数据集0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.12825 以将其链接至此页面。

引用本论文的 Space0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.12825 以将其链接至此页面。

Orthrus：通过双视图扩散实现内存高效的并行令牌生成

论文页面 - Orthrus: 通过双视角扩散实现内存高效的并行令牌生成

摘要

引用本论文的模型3

chiennv/Orthrus-Qwen3-8B 文本生成 • 10B • 更新于约 2 小时前 (https://huggingface.co/chiennv/Orthrus-Qwen3-8B)

chiennv/Orthrus-Qwen3-4B 文本生成 • 5B • 更新于约 2 小时前 • 20 (https://huggingface.co/chiennv/Orthrus-Qwen3-4B)

chiennv/Orthrus-Qwen3-1.7B 文本生成 • 2B • 更新于约 2 小时前 (https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B)

引用本论文的数据集0

引用本论文的 Space0

包含本论文的收藏1

相似文章

Orthrus-Qwen3：在Qwen3上实现高达7.8倍的每前向传递令牌数，输出分布完全相同

Orthrus-Qwen3-8B：在Qwen3-8B上实现高达7.8倍每前向传播token数，冻结主干网络，可证明输出分布一致

DiffRetriever：基于扩散语言模型的并行代表性令牌检索

BitLM：利用位级连续扩散解锁多 Token 语言生成

DFlash：用于快速投机解码的块扩散

提交意见反馈