Draft-OPD:面向推测式草稿模型的在线策略蒸馏

Hugging Face Daily Papers 论文

摘要

Draft-OPD 引入在线策略蒸馏,结合目标辅助展开和错误重放,克服了训练用于推测解码的草稿模型时存在的离线到推理不匹配问题,实现了超过5倍的无损加速,相较于EAGLE-3和DFlash分别提升了23%和13%。

推测解码通过将目标模型与轻量级草稿模型配对来加速大语言模型推理,草稿模型提出的令牌会被并行验证。构建草稿模型(如EAGLE3或DFlash)的一种常见方法是在目标生成的轨迹上进行监督微调(SFT)。然而,我们观察到SFT很快进入平台期:草稿模型在测试数据上的接受长度停止提升。原因是存在离线到推理的不匹配:在SFT中,草稿模型从固定的目标生成轨迹中学习,而在推测解码过程中,它是在自己策略提出的块上进行评估的。这促使我们采用在线策略蒸馏(OPD),即目标模型在草稿产生的状态上监督草稿模型。但OPD对草稿模型而言仍然困难,因为它们无法独立可靠地生成完整序列,而目标辅助生成会使收集的序列遵循目标分布,从而消除了在线策略信号。因此,我们提出了Draft-OPD,它使用目标辅助展开实现稳定的续写,并从验证暴露的错误位置重放草稿生成。这使得草稿模型能够从目标对接受和拒绝提案的反馈中学习,将训练聚焦于限制推测接受率的草稿诱导错误。实验表明,Draft-OPD在多种任务上为思考模型实现了超过5倍的无损加速,相较于EAGLE-3和DFlash分别提升了23%和13%。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:23

论文页面 - Draft-OPD:面向推测草稿模型的在线策略蒸馏

来源:https://huggingface.co/papers/2605.29343 作者:

摘要

推测解码利用轻量级草稿模型加速大语言模型推理,但监督微调由于离线到推理的不匹配而陷入平台期,而通过目标辅助的展开和错误重放的在线策略蒸馏可以解决这一问题。

推测解码 (https://huggingface.co/papers?q=Speculative%20decoding)通过将目标模型 (https://huggingface.co/papers?q=target%20model)与轻量级草稿模型 (https://huggingface.co/papers?q=draft%20model)配对,对其提出的词元进行并行验证,从而加速大语言模型推理。构建草稿模型 (https://huggingface.co/papers?q=draft%20model)(如 EAGLE3 或 DFlash)的常见方法是对目标生成的轨迹进行监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning)(SFT)。然而,我们发现 SFT 会迅速陷入平台期:草稿模型 (https://huggingface.co/papers?q=draft%20model)在测试数据上的接受长度不再提升。原因在于离线到推理的不匹配:在 SFT 中,草稿模型从固定的目标生成轨迹中学习,而在推测解码 (https://huggingface.co/papers?q=speculative%20decoding)过程中,它是在自身策略提出的块上进行评估的。这激发了在线策略蒸馏 (https://huggingface.co/papers?q=on-policy%20distillation)(OPD),其中目标模型 (https://huggingface.co/papers?q=target%20model)在草稿诱导状态 (https://huggingface.co/papers?q=draft-induced%20states)上监督草稿模型。然而,OPD 对于草稿模型 (https://huggingface.co/papers?q=draft%20model)仍然很困难,因为它们无法可靠地独立展开完整序列,而目标辅助生成 (https://huggingface.co/papers?q=target-assisted%20generation)使得收集到的序列符合目标分布,从而消除了在线策略信号。因此,我们提出 Draft-OPD,它使用目标辅助展开来实现稳定的续写,并从验证暴露的错误位置重放草稿生成。这使得草稿模型能够从目标对接受和拒绝提案的反馈中学习,将训练重点放在限制推测接受的草稿诱导错误上。实验表明,Draft-OPD 在各种任务上为思考模型实现了超过 5 倍的无损加速 (https://huggingface.co/papers?q=lossless%20acceleration),相比 EAGLE-3 和 DFlash 分别提升了 23% 和 13%。

查看 arXiv 页面 (https://arxiv.org/abs/2605.29343)查看 PDF (https://arxiv.org/pdf/2605.29343)项目页面 (https://www.haodilei.top/draft-opd/)GitHub4 (https://github.com/bingyang-lei/Draft-OPD)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29343)

在您的智能体中获取本论文:

hf papers read 2605\.29343

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型5

bingyang-lei/Qwen3-4B-Ins-Draft-OPD 0.5B• 更新于4天前 • 52 • 1 (https://huggingface.co/bingyang-lei/Qwen3-4B-Ins-Draft-OPD)

bingyang-lei/Qwen3-8B-Thinking-Draft-OPD 1B• 更新于3天前 • 13 (https://huggingface.co/bingyang-lei/Qwen3-8B-Thinking-Draft-OPD)

bingyang-lei/Qwen3-4B-Thinking-Draft-OPD 0.5B• 更新于3天前 • 15 (https://huggingface.co/bingyang-lei/Qwen3-4B-Thinking-Draft-OPD)

bingyang-lei/Qwen3-30B-A3B-Thinking-2507-Draft-OPD 0.5B• 更新于4天前 • 26 (https://huggingface.co/bingyang-lei/Qwen3-30B-A3B-Thinking-2507-Draft-OPD)

浏览引用本论文的5个模型 (https://huggingface.co/models?other=arxiv:2605.29343)## 引用本论文的数据集0

没有关联本论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.29343 即可从此页面链接。

引用本论文的 Spaces0

没有关联本论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.29343 即可从此页面链接。

包含本论文的集合0

没有包含本论文的集合

将本论文添加到一个集合 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

学会预见:揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL

本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

OmniOPD: 通过推测验证实现无Logit的同策略蒸馏

Hugging Face Daily Papers

OmniOPD 提出了一种无Logit的同策略蒸馏方法,利用块级语义相似性和推测验证,在黑盒教师指导下训练学生模型,在数学基准上相比标准OPD实现了高达+28.64%的提升。

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

Reddit r/MachineLearning

Hugging Face的Niels介绍了On-policy Distillation (OPD),这是一种关键的后训练技术,用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode,并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。