Domino:在推测解码中将因果建模与自回归草稿生成解耦

Hugging Face Daily Papers 论文

摘要

Domino是一个推测解码框架,它将因果依赖建模与自回归草稿生成解耦,采用并行主干和轻量级因果精炼头,在Qwen3模型上实现了高达5.49倍的端到端加速。

推测解码通过草拟多个令牌并与目标模型并行验证来加速大语言模型推理。然而,其实际加速效果受到草稿质量与草稿成本之间权衡的限制:自回归草稿生成器对草稿令牌之间的因果依赖关系进行建模,但会产生顺序开销,而并行草稿生成器降低了草稿成本,但削弱了块内依赖建模。在本文中,我们提出Domino,一个推测解码框架,将因果依赖建模与昂贵的自回归草稿执行解耦。Domino首先使用并行草稿主干为整个块生成初步草稿分布,然后应用轻量级的Domino头通过前缀相关的因果信息来精炼这些分布。为了稳定教师强制的因果编码,我们进一步引入了一种基于基准的训练课程,该课程首先加强并行主干,然后逐渐将优化转向因果修正的最终分布。在Qwen3模型上的实验表明,Domino在Transformers后端实现了高达\(5.49\times\)的端到端加速,在SGLang服务下实现了高达\(5.8\times\)的吞吐量加速。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:35

论文页面 - Domino:推测解码中将因果建模与自回归草稿解耦

来源:https://huggingface.co/papers/2605.29707 发布于 5 月 28 日

·

由 https://huggingface.co/Huang2020 提交

黄佳诺 (https://huggingface.co/Huang2020)于 6 月 2 日

摘要

Domino 是一个推测解码框架,通过并行主干网络和轻量级因果精调头将因果依赖建模与自回归草稿生成解耦,从而提升 LLM 推理速度,在端到端执行和吞吐量方面均取得了显著加速。

推测解码 (https://huggingface.co/papers?q=Speculative%20decoding)通过草拟多个 token 并与目标模型并行验证来加速 LLM 推理。然而,其实际加速效果受限于草稿质量 (https://huggingface.co/papers?q=draft%20quality) 与草稿生成成本 (https://huggingface.co/papers?q=drafting%20cost) 之间的权衡:自回归草稿生成器 (https://huggingface.co/papers?q=autoregressive%20drafters) 能够建模草稿 token 间的因果依赖 (https://huggingface.co/papers?q=causal%20dependencies),但带来顺序开销;而并行草稿生成器 (https://huggingface.co/papers?q=parallel%20drafters) 降低了草稿生成成本 (https://huggingface.co/papers?q=drafting%20cost),却削弱了块内依赖建模能力。本文提出 Domino,一种推测解码 (https://huggingface.co/papers?q=speculative%20decoding)框架,将因果依赖建模与昂贵的自回归草稿执行解耦。Domino 首先使用并行草稿主干网络为整个块生成初步草稿分布,然后应用轻量级 Domino 头 (https://huggingface.co/papers?q=Domino%20head) 利用前缀依赖的因果信息对其进行精调。为稳定教师强制因果编码 (https://huggingface.co/papers?q=teacher-forced%20causal%20encoding),我们进一步引入基于锚点的训练课程 (https://huggingface.co/papers?q=base-anchored%20training%20curriculum),首先强化并行主干网络 (https://huggingface.co/papers?q=parallel%20backbone),然后逐步将优化转向因果修正后的最终分布。在 Qwen3 模型上的实验表明,在 Transformers 后端 (https://huggingface.co/papers?q=Transformers%20backend) 下,Domino 实现了高达 \(5.49\times\) 的端到端加速,在 SGLang 服务 (https://huggingface.co/papers?q=SGLang%20serving) 下实现了高达 \(5.8\times\) 的吞吐量加速。

查看 arXiv 页面 (https://arxiv.org/abs/2605.29707)查看 PDF (https://arxiv.org/pdf/2605.29707)GitHub29 (https://github.com/jianuo-huang/Domino)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29707)

社区

论文作者

论文提交者

大约 2 小时前 (https://huggingface.co/papers/2605.29707#6a1edee70813690c53b12aa7)

Domino 是一种推测解码方法,通过添加轻量级因果修正来改进并行草稿生成。它旨在保留块并行草稿生成的效率,同时恢复完全并行草稿模型所缺失的部分因果依赖建模能力。代码和模型可访问:https://github.com/jianuo-huang/Domino

通过拖拽文本输入、粘贴或点击此处上传图片、音频和视频。

点击或在此粘贴以上传图片

将本文集成到你的智能体中:

hf papers read 2605\.29707

没有最新 CLI 吗?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型2

Huang2020/Qwen3-4B-Domino-b16 文本生成• 0.6B• 更新于约 23 小时前 • 134 • 1 (https://huggingface.co/Huang2020/Qwen3-4B-Domino-b16)

Huang2020/Qwen3-8B-Domino-b16 文本生成• 1B• 更新于约 23 小时前 • 174 • 1 (https://huggingface.co/Huang2020/Qwen3-8B-Domino-b16)

引用本文的数据集0

没有数据集链接本文

在数据集的 README.md 中引用 arxiv.org/abs/2605.29707 可将其从此页面链接。

引用本文的 Space0

没有 Space 链接本文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.29707 可将其从此页面链接。

包含本文的收藏1

相似文章

注意力漂移:自回归投机解码模型学到了什么

Reddit r/LocalLLaMA

本文指出了自回归投机解码模型中的“注意力漂移”现象,即草稿模型的注意力从提示词转移到了其自身生成的令牌上。作者提出了架构上的改进,例如后归一化(Post-norm)和 RMSNorm,这些改进在各种基准测试中提高了接受率和鲁棒性。

减少草稿,增加检索:用于推测解码的混合树构建

Hugging Face Daily Papers

Graft 是一个无需训练的框架,通过结合剪枝与检索来增强推测解码,从而提高接受率和推理速度。在短上下文基准测试中,其加速比最高可达5.41倍,在Qwen3-235B上相比EAGLE-3的提升最高可达21.8%。

Mistletoe:针对推测解码的隐蔽加速崩溃攻击

arXiv cs.CL

本文识别了基于模型的推测解码在大语言模型中的新漏洞:微小扰动可以在不影响输出质量的情况下降低草稿令牌接受率,从而使加速效果崩溃。作者提出了Mistletoe攻击,该攻击联合优化退化与语义保持,展示了在各种系统上显著的加速降低效果。

跨语言的推测解码

arXiv cs.CL

本文比较了三种策略以提高非英语语言的推测解码效率,发现任务特定蒸馏能提高接受率但泛化性差,而n-gram草稿模型尽管接受率较低,却能提供持续的加速。