Orthrus:通过双视图扩散实现内存高效的并行令牌生成

Hugging Face Daily Papers 论文

摘要

Orthrus 是一个双架构框架,结合了自回归大语言模型与扩散模型,通过共享KV缓存和共识机制实现快速并行令牌生成,同时保持精确推理保真度,速度提升最高可达7.8倍。

我们提出 Orthrus,一个简单高效的双架构框架,统一了自回归大语言模型(LLM)的精确生成保真度与扩散模型的高速并行令牌生成能力。标准自回归解码的逐序特性成为高吞吐量推理的根本瓶颈。扩散语言模型试图通过并行生成突破这一障碍,但面临显著的性能下降、高昂的训练成本以及缺乏严格的收敛保证。Orthrus 原生地解决了这一两难问题。该框架设计可无缝集成到现有 Transformer 中,通过为冻结的 LLM 增加一个轻量级、可训练的模块,在标准自回归视图之外创建一个并行扩散视图。在此统一系统中,两个视图共享完全相同的高保真键值(KV)缓存;自回归头执行上下文预填充以构建准确的KV表示,而扩散头执行并行生成。通过两个视图之间的精确共识机制,Orthrus 保证了无损推理,在仅 O(1) 内存缓存开销和极少量参数增加的情况下,实现最高 7.8 倍的速度提升。
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - Orthrus: 通过双视角扩散实现内存高效的并行令牌生成

来源:https://huggingface.co/papers/2605.12825

摘要

Orthrus 是一个双架构框架,将自回归大语言模型与扩散模型相结合,通过共享 KV 缓存和共识机制,在保持精确推理保真度的同时实现快速并行令牌生成。

我们提出 Orthrus,一个简单且高效的双架构框架(https://huggingface.co/papers?q=dual-architecture%20framework),它统一了自回归大语言模型(LLMs)(https://huggingface.co/papers?q=autoregressive%20Large%20Language%20Models)的精确生成保真度与扩散模型(https://huggingface.co/papers?q=diffusion%20models)的高速并行令牌生成(https://huggingface.co/papers?q=parallel%20token%20generation)。标准自回归解码的顺序特性是高吞吐推理的根本瓶颈。虽然扩散语言模型试图通过并行生成打破这一障碍,但它们面临着显著的性能退化、高训练成本以及缺乏严格收敛保证的问题。Orthrus 天然地解决了这一矛盾。该框架专为无缝集成到现有 Transformer(https://huggingface.co/papers?q=Transformer)中而设计,通过在冻结的 LLM 上增加一个轻量级可训练模块,在标准自回归视角之外创建一个并行扩散视角。在这个统一系统中,两个视角都关注完全相同的高保真 Key-Value(KV)缓存;自回归头执行上下文预填充以构建准确的 KV 表示,而扩散头则执行并行生成。通过在两个视角之间采用精确的共识机制(https://huggingface.co/papers?q=consensus%20mechanism),Orthrus 保证了无损推理(https://huggingface.co/papers?q=lossless%20inference),在仅 O(1) 内存缓存开销和最小参数增加的情况下,实现了高达 7.8 倍的加速。

查看 arXiv 页面(https://arxiv.org/abs/2605.12825)查看 PDF(https://arxiv.org/pdf/2605.12825)GitHub1(https://github.com/chiennv2000/orthrus)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12825)

在您的代理中获取本篇论文:

hf papers read 2605.12825

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型3

chiennv/Orthrus-Qwen3-8B 文本生成 • 10B • 更新于约 2 小时前 (https://huggingface.co/chiennv/Orthrus-Qwen3-8B)

chiennv/Orthrus-Qwen3-4B 文本生成 • 5B • 更新于约 2 小时前 • 20 (https://huggingface.co/chiennv/Orthrus-Qwen3-4B)

chiennv/Orthrus-Qwen3-1.7B 文本生成 • 2B • 更新于约 2 小时前 (https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B)

引用本论文的数据集0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.12825 以将其链接至此页面。

引用本论文的 Space0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.12825 以将其链接至此页面。

包含本论文的收藏1

相似文章

DFlash:用于快速投机解码的块扩散

Papers with Code Trending

DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。