Draft-OPD：面向推测式草稿模型的在线策略蒸馏

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

Draft-OPD 引入在线策略蒸馏，结合目标辅助展开和错误重放，克服了训练用于推测解码的草稿模型时存在的离线到推理不匹配问题，实现了超过5倍的无损加速，相较于EAGLE-3和DFlash分别提升了23%和13%。

推测解码通过将目标模型与轻量级草稿模型配对来加速大语言模型推理，草稿模型提出的令牌会被并行验证。构建草稿模型（如EAGLE3或DFlash）的一种常见方法是在目标生成的轨迹上进行监督微调（SFT）。然而，我们观察到SFT很快进入平台期：草稿模型在测试数据上的接受长度停止提升。原因是存在离线到推理的不匹配：在SFT中，草稿模型从固定的目标生成轨迹中学习，而在推测解码过程中，它是在自己策略提出的块上进行评估的。这促使我们采用在线策略蒸馏（OPD），即目标模型在草稿产生的状态上监督草稿模型。但OPD对草稿模型而言仍然困难，因为它们无法独立可靠地生成完整序列，而目标辅助生成会使收集的序列遵循目标分布，从而消除了在线策略信号。因此，我们提出了Draft-OPD，它使用目标辅助展开实现稳定的续写，并从验证暴露的错误位置重放草稿生成。这使得草稿模型能够从目标对接受和拒绝提案的反馈中学习，将训练聚焦于限制推测接受率的草稿诱导错误。实验表明，Draft-OPD在多种任务上为思考模型实现了超过5倍的无损加速，相较于EAGLE-3和DFlash分别提升了23%和13%。

查看原文

查看缓存全文

缓存时间: 2026/06/02 03:23

论文页面 - Draft-OPD：面向推测草稿模型的在线策略蒸馏

来源：https://huggingface.co/papers/2605.29343 作者：

，

摘要

推测解码利用轻量级草稿模型加速大语言模型推理，但监督微调由于离线到推理的不匹配而陷入平台期，而通过目标辅助的展开和错误重放的在线策略蒸馏可以解决这一问题。

推测解码 (https://huggingface.co/papers?q=Speculative%20decoding)通过将目标模型 (https://huggingface.co/papers?q=target%20model)与轻量级草稿模型 (https://huggingface.co/papers?q=draft%20model)配对，对其提出的词元进行并行验证，从而加速大语言模型推理。构建草稿模型 (https://huggingface.co/papers?q=draft%20model)（如 EAGLE3 或 DFlash）的常见方法是对目标生成的轨迹进行监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning)（SFT）。然而，我们发现 SFT 会迅速陷入平台期：草稿模型 (https://huggingface.co/papers?q=draft%20model)在测试数据上的接受长度不再提升。原因在于离线到推理的不匹配：在 SFT 中，草稿模型从固定的目标生成轨迹中学习，而在推测解码 (https://huggingface.co/papers?q=speculative%20decoding)过程中，它是在自身策略提出的块上进行评估的。这激发了在线策略蒸馏 (https://huggingface.co/papers?q=on-policy%20distillation)（OPD），其中目标模型 (https://huggingface.co/papers?q=target%20model)在草稿诱导状态 (https://huggingface.co/papers?q=draft-induced%20states)上监督草稿模型。然而，OPD 对于草稿模型 (https://huggingface.co/papers?q=draft%20model)仍然很困难，因为它们无法可靠地独立展开完整序列，而目标辅助生成 (https://huggingface.co/papers?q=target-assisted%20generation)使得收集到的序列符合目标分布，从而消除了在线策略信号。因此，我们提出 Draft-OPD，它使用目标辅助展开来实现稳定的续写，并从验证暴露的错误位置重放草稿生成。这使得草稿模型能够从目标对接受和拒绝提案的反馈中学习，将训练重点放在限制推测接受的草稿诱导错误上。实验表明，Draft-OPD 在各种任务上为思考模型实现了超过 5 倍的无损加速 (https://huggingface.co/papers?q=lossless%20acceleration)，相比 EAGLE-3 和 DFlash 分别提升了 23% 和 13%。

查看 arXiv 页面 (https://arxiv.org/abs/2605.29343)查看 PDF (https://arxiv.org/pdf/2605.29343)项目页面 (https://www.haodilei.top/draft-opd/)GitHub4 (https://github.com/bingyang-lei/Draft-OPD)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29343)

在您的智能体中获取本论文：

hf papers read 2605\.29343

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型5

bingyang-lei/Qwen3-4B-Ins-Draft-OPD 0.5B• 更新于4天前 • 52 • 1 (https://huggingface.co/bingyang-lei/Qwen3-4B-Ins-Draft-OPD)

bingyang-lei/Qwen3-8B-Thinking-Draft-OPD 1B• 更新于3天前 • 13 (https://huggingface.co/bingyang-lei/Qwen3-8B-Thinking-Draft-OPD)

bingyang-lei/Qwen3-4B-Thinking-Draft-OPD 0.5B• 更新于3天前 • 15 (https://huggingface.co/bingyang-lei/Qwen3-4B-Thinking-Draft-OPD)

bingyang-lei/Qwen3-30B-A3B-Thinking-2507-Draft-OPD 0.5B• 更新于4天前 • 26 (https://huggingface.co/bingyang-lei/Qwen3-30B-A3B-Thinking-2507-Draft-OPD)

浏览引用本论文的5个模型 (https://huggingface.co/models?other=arxiv:2605.29343)## 引用本论文的数据集0

没有关联本论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.29343 即可从此页面链接。

引用本论文的 Spaces0

没有关联本论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.29343 即可从此页面链接。

包含本论文的集合0

没有包含本论文的集合

将本论文添加到一个集合 (https://huggingface.co/new-collection) 以从此页面链接。

Draft-OPD：面向推测式草稿模型的在线策略蒸馏

论文页面 - Draft-OPD：面向推测草稿模型的在线策略蒸馏

摘要

引用本论文的模型5

bingyang-lei/Qwen3-4B-Ins-Draft-OPD 0.5B• 更新于4天前 • 52 • 1 (https://huggingface.co/bingyang-lei/Qwen3-4B-Ins-Draft-OPD)

bingyang-lei/Qwen3-8B-Thinking-Draft-OPD 1B• 更新于3天前 • 13 (https://huggingface.co/bingyang-lei/Qwen3-8B-Thinking-Draft-OPD)

bingyang-lei/Qwen3-4B-Thinking-Draft-OPD 0.5B• 更新于3天前 • 15 (https://huggingface.co/bingyang-lei/Qwen3-4B-Thinking-Draft-OPD)

bingyang-lei/Qwen3-30B-A3B-Thinking-2507-Draft-OPD 0.5B• 更新于4天前 • 26 (https://huggingface.co/bingyang-lei/Qwen3-30B-A3B-Thinking-2507-Draft-OPD)

引用本论文的 Spaces0

包含本论文的集合0

相似文章

学会预见：揭示 On-Policy 蒸馏效率的解锁机制

OmniOPD: 通过推测验证实现无Logit的同策略蒸馏

DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

OPRD：在策略表示蒸馏

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

提交意见反馈