Domino:在推测解码中将因果建模与自回归草稿生成解耦
摘要
Domino是一个推测解码框架,它将因果依赖建模与自回归草稿生成解耦,采用并行主干和轻量级因果精炼头,在Qwen3模型上实现了高达5.49倍的端到端加速。
查看缓存全文
缓存时间: 2026/06/02 15:35
论文页面 - Domino:推测解码中将因果建模与自回归草稿解耦
来源:https://huggingface.co/papers/2605.29707 发布于 5 月 28 日
·
由 https://huggingface.co/Huang2020 提交
黄佳诺 (https://huggingface.co/Huang2020)于 6 月 2 日
摘要
Domino 是一个推测解码框架,通过并行主干网络和轻量级因果精调头将因果依赖建模与自回归草稿生成解耦,从而提升 LLM 推理速度,在端到端执行和吞吐量方面均取得了显著加速。
推测解码 (https://huggingface.co/papers?q=Speculative%20decoding)通过草拟多个 token 并与目标模型并行验证来加速 LLM 推理。然而,其实际加速效果受限于草稿质量 (https://huggingface.co/papers?q=draft%20quality) 与草稿生成成本 (https://huggingface.co/papers?q=drafting%20cost) 之间的权衡:自回归草稿生成器 (https://huggingface.co/papers?q=autoregressive%20drafters) 能够建模草稿 token 间的因果依赖 (https://huggingface.co/papers?q=causal%20dependencies),但带来顺序开销;而并行草稿生成器 (https://huggingface.co/papers?q=parallel%20drafters) 降低了草稿生成成本 (https://huggingface.co/papers?q=drafting%20cost),却削弱了块内依赖建模能力。本文提出 Domino,一种推测解码 (https://huggingface.co/papers?q=speculative%20decoding)框架,将因果依赖建模与昂贵的自回归草稿执行解耦。Domino 首先使用并行草稿主干网络为整个块生成初步草稿分布,然后应用轻量级 Domino 头 (https://huggingface.co/papers?q=Domino%20head) 利用前缀依赖的因果信息对其进行精调。为稳定教师强制因果编码 (https://huggingface.co/papers?q=teacher-forced%20causal%20encoding),我们进一步引入基于锚点的训练课程 (https://huggingface.co/papers?q=base-anchored%20training%20curriculum),首先强化并行主干网络 (https://huggingface.co/papers?q=parallel%20backbone),然后逐步将优化转向因果修正后的最终分布。在 Qwen3 模型上的实验表明,在 Transformers 后端 (https://huggingface.co/papers?q=Transformers%20backend) 下,Domino 实现了高达 \(5.49\times\) 的端到端加速,在 SGLang 服务 (https://huggingface.co/papers?q=SGLang%20serving) 下实现了高达 \(5.8\times\) 的吞吐量加速。
查看 arXiv 页面 (https://arxiv.org/abs/2605.29707)查看 PDF (https://arxiv.org/pdf/2605.29707)GitHub29 (https://github.com/jianuo-huang/Domino)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29707)
社区
论文作者
论文提交者
大约 2 小时前 (https://huggingface.co/papers/2605.29707#6a1edee70813690c53b12aa7)
Domino 是一种推测解码方法,通过添加轻量级因果修正来改进并行草稿生成。它旨在保留块并行草稿生成的效率,同时恢复完全并行草稿模型所缺失的部分因果依赖建模能力。代码和模型可访问:https://github.com/jianuo-huang/Domino
通过拖拽文本输入、粘贴或点击此处上传图片、音频和视频。
点击或在此粘贴以上传图片
将本文集成到你的智能体中:
hf papers read 2605\.29707
没有最新 CLI 吗?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型2
Huang2020/Qwen3-4B-Domino-b16 文本生成• 0.6B• 更新于约 23 小时前 • 134 • 1 (https://huggingface.co/Huang2020/Qwen3-4B-Domino-b16)
Huang2020/Qwen3-8B-Domino-b16 文本生成• 1B• 更新于约 23 小时前 • 174 • 1 (https://huggingface.co/Huang2020/Qwen3-8B-Domino-b16)
引用本文的数据集0
没有数据集链接本文
在数据集的 README.md 中引用 arxiv.org/abs/2605.29707 可将其从此页面链接。
引用本文的 Space0
没有 Space 链接本文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.29707 可将其从此页面链接。
包含本文的收藏1
相似文章
AdaPLD:自适应检索与复用的高效无模型推测解码方法
AdaPLD是一种无需训练的方法,通过自适应检索结合词汇与语义相似度,并构建分支复用假设来处理续写不确定性,从而提升无模型推测解码的效率,最高可实现3.10倍解码加速。
注意力漂移:自回归投机解码模型学到了什么
本文指出了自回归投机解码模型中的“注意力漂移”现象,即草稿模型的注意力从提示词转移到了其自身生成的令牌上。作者提出了架构上的改进,例如后归一化(Post-norm)和 RMSNorm,这些改进在各种基准测试中提高了接受率和鲁棒性。
减少草稿,增加检索:用于推测解码的混合树构建
Graft 是一个无需训练的框架,通过结合剪枝与检索来增强推测解码,从而提高接受率和推理速度。在短上下文基准测试中,其加速比最高可达5.41倍,在Qwen3-235B上相比EAGLE-3的提升最高可达21.8%。
Mistletoe:针对推测解码的隐蔽加速崩溃攻击
本文识别了基于模型的推测解码在大语言模型中的新漏洞:微小扰动可以在不影响输出质量的情况下降低草稿令牌接受率,从而使加速效果崩溃。作者提出了Mistletoe攻击,该攻击联合优化退化与语义保持,展示了在各种系统上显著的加速降低效果。
跨语言的推测解码
本文比较了三种策略以提高非英语语言的推测解码效率,发现任务特定蒸馏能提高接受率但泛化性差,而n-gram草稿模型尽管接受率较低,却能提供持续的加速。