Domino：在推测解码中将因果建模与自回归草稿生成解耦

Hugging Face Daily Papers 2026/05/28 00:00 论文

speculative-decoding llm-inference causal-modeling parallel-drafting inference-speedup qwen3

摘要

Domino是一个推测解码框架，它将因果依赖建模与自回归草稿生成解耦，采用并行主干和轻量级因果精炼头，在Qwen3模型上实现了高达5.49倍的端到端加速。

推测解码通过草拟多个令牌并与目标模型并行验证来加速大语言模型推理。然而，其实际加速效果受到草稿质量与草稿成本之间权衡的限制：自回归草稿生成器对草稿令牌之间的因果依赖关系进行建模，但会产生顺序开销，而并行草稿生成器降低了草稿成本，但削弱了块内依赖建模。在本文中，我们提出Domino，一个推测解码框架，将因果依赖建模与昂贵的自回归草稿执行解耦。Domino首先使用并行草稿主干为整个块生成初步草稿分布，然后应用轻量级的Domino头通过前缀相关的因果信息来精炼这些分布。为了稳定教师强制的因果编码，我们进一步引入了一种基于基准的训练课程，该课程首先加强并行主干，然后逐渐将优化转向因果修正的最终分布。在Qwen3模型上的实验表明，Domino在Transformers后端实现了高达\(5.49\times\)的端到端加速，在SGLang服务下实现了高达\(5.8\times\)的吞吐量加速。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:35

论文页面 - Domino：推测解码中将因果建模与自回归草稿解耦

来源：https://huggingface.co/papers/2605.29707 发布于 5 月 28 日

由 https://huggingface.co/Huang2020 提交

黄佳诺 (https://huggingface.co/Huang2020)于 6 月 2 日

摘要

Domino 是一个推测解码框架，通过并行主干网络和轻量级因果精调头将因果依赖建模与自回归草稿生成解耦，从而提升 LLM 推理速度，在端到端执行和吞吐量方面均取得了显著加速。

推测解码 (https://huggingface.co/papers?q=Speculative%20decoding)通过草拟多个 token 并与目标模型并行验证来加速 LLM 推理。然而，其实际加速效果受限于草稿质量 (https://huggingface.co/papers?q=draft%20quality) 与草稿生成成本 (https://huggingface.co/papers?q=drafting%20cost) 之间的权衡：自回归草稿生成器 (https://huggingface.co/papers?q=autoregressive%20drafters) 能够建模草稿 token 间的因果依赖 (https://huggingface.co/papers?q=causal%20dependencies)，但带来顺序开销；而并行草稿生成器 (https://huggingface.co/papers?q=parallel%20drafters) 降低了草稿生成成本 (https://huggingface.co/papers?q=drafting%20cost)，却削弱了块内依赖建模能力。本文提出 Domino，一种推测解码 (https://huggingface.co/papers?q=speculative%20decoding)框架，将因果依赖建模与昂贵的自回归草稿执行解耦。Domino 首先使用并行草稿主干网络为整个块生成初步草稿分布，然后应用轻量级 Domino 头 (https://huggingface.co/papers?q=Domino%20head) 利用前缀依赖的因果信息对其进行精调。为稳定教师强制因果编码 (https://huggingface.co/papers?q=teacher-forced%20causal%20encoding)，我们进一步引入基于锚点的训练课程 (https://huggingface.co/papers?q=base-anchored%20training%20curriculum)，首先强化并行主干网络 (https://huggingface.co/papers?q=parallel%20backbone)，然后逐步将优化转向因果修正后的最终分布。在 Qwen3 模型上的实验表明，在 Transformers 后端 (https://huggingface.co/papers?q=Transformers%20backend) 下，Domino 实现了高达 \(5.49\times\) 的端到端加速，在 SGLang 服务 (https://huggingface.co/papers?q=SGLang%20serving) 下实现了高达 \(5.8\times\) 的吞吐量加速。

查看 arXiv 页面 (https://arxiv.org/abs/2605.29707)查看 PDF (https://arxiv.org/pdf/2605.29707)GitHub29 (https://github.com/jianuo-huang/Domino)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29707)

社区

论文作者

论文提交者

大约 2 小时前 (https://huggingface.co/papers/2605.29707#6a1edee70813690c53b12aa7)

Domino 是一种推测解码方法，通过添加轻量级因果修正来改进并行草稿生成。它旨在保留块并行草稿生成的效率，同时恢复完全并行草稿模型所缺失的部分因果依赖建模能力。代码和模型可访问：https://github.com/jianuo-huang/Domino

通过拖拽文本输入、粘贴或点击此处上传图片、音频和视频。

点击或在此粘贴以上传图片

将本文集成到你的智能体中：

hf papers read 2605\.29707

没有最新 CLI 吗？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型2

Huang2020/Qwen3-4B-Domino-b16 文本生成• 0.6B• 更新于约 23 小时前 • 134 • 1 (https://huggingface.co/Huang2020/Qwen3-4B-Domino-b16)

Huang2020/Qwen3-8B-Domino-b16 文本生成• 1B• 更新于约 23 小时前 • 174 • 1 (https://huggingface.co/Huang2020/Qwen3-8B-Domino-b16)

引用本文的数据集0

没有数据集链接本文

在数据集的 README.md 中引用 arxiv.org/abs/2605.29707 可将其从此页面链接。

引用本文的 Space0

没有 Space 链接本文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.29707 可将其从此页面链接。

Domino：在推测解码中将因果建模与自回归草稿生成解耦

论文页面 - Domino：推测解码中将因果建模与自回归草稿解耦

摘要

社区

引用本文的模型2

Huang2020/Qwen3-4B-Domino-b16 文本生成• 0.6B• 更新于约 23 小时前 • 134 • 1 (https://huggingface.co/Huang2020/Qwen3-4B-Domino-b16)

Huang2020/Qwen3-8B-Domino-b16 文本生成• 1B• 更新于约 23 小时前 • 174 • 1 (https://huggingface.co/Huang2020/Qwen3-8B-Domino-b16)

引用本文的数据集0

引用本文的 Space0

包含本文的收藏1

相似文章

AdaPLD：自适应检索与复用的高效无模型推测解码方法

注意力漂移：自回归投机解码模型学到了什么

减少草稿，增加检索：用于推测解码的混合树构建

Mistletoe：针对推测解码的隐蔽加速崩溃攻击

跨语言的推测解码

提交意见反馈