在线策略蒸馏的多重面貌:陷阱、机制与解决方案
摘要
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
查看缓存全文
缓存时间: 2026/05/13 04:12
论文页 - 策略内蒸馏的多重面貌:陷阱、机制与修复
来源: https://huggingface.co/papers/2605.11182
摘要
针对大语言模型,策略内蒸馏(On-policy distillation)和自蒸馏方法的有效性因教师模型选择、损失函数公式化以及实例特定的特权信息(PI)可用性而异,已识别的失效机制包括分布不匹配、优化不稳定性以及无特权信息(PI-free)的策略学习。
策略内蒸馏(OPD)(https://huggingface.co/papers?q=On-policy%20distillation)和策略内自蒸馏(OPSD)(https://huggingface.co/papers?q=on-policy%20self-distillation)已成为大语言模型(https://huggingface.co/papers?q=large%20language%20models)颇具前景的后续训练方法,它们对从模型自身策略采样的轨迹提供了密集的 token 级监督(https://huggingface.co/papers?q=token-level%20supervision)。然而,关于其有效性的现有结果喜忧参半:尽管 OP(S)D 在系统提示(system prompt)和知识内化方面展现了潜力,但近期研究也报告了不稳定性和性能退化。在本工作中,我们对 OPD 和 OPSD 何时有效、何时失效以及为何失效进行了全面的实证研究。我们发现,OPD 在数学推理任务上对教师模型选择和损失函数公式化高度敏感,而 OPSD 在我们测试的设置中因测试时缺乏实例特定的特权信息(PI)而失效。相比之下,当 PI 代表共享的潜在规则(如系统提示或对齐偏好)时,OPSD 是有效的。我们确定了三种失效机制:(1) 由于基于学生生成的前缀进行条件约束,导致教师与学生之间的分布不匹配;(2) 有偏 TopK(https://huggingface.co/papers?q=TopK)反向 KL 散度梯度(https://huggingface.co/papers?q=reverse-KL%20gradients)引起的优化不稳定性;以及 (3) OPSD 特有的局限性,即学生学习到一个聚合了基于 PI 条件教师的无 PI 策略,这在 PI 是实例特定时无效。我们还进一步证明,停止梯度(https://huggingface.co/papers?q=stop-gradient)TopK(https://huggingface.co/papers?q=TopK)目标、适配了 RLVR(https://huggingface.co/papers?q=RLVR)的教师以及经过 SFT(https://huggingface.co/papers?q=SFT)稳定的学生可以缓解这些失效。
查看 arXiv 页面 (https://arxiv.org/abs/2605.11182)查看 PDF (https://arxiv.org/pdf/2605.11182)项目页面 (https://ulab-uiuc.github.io/OPD_website/)GitHub1 (https://github.com/ulab-uiuc/Open-On-Policy-Distillation)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.11182)
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.11182 即可从此页面链接该论文。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.11182 即可从此页面链接该论文。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.11182 即可从此页面链接该论文。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接该论文。
相似文章
同策略蒸馏(5分钟阅读)
本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。
分布视角下的 SFT、RL 与 On-Policy Distillation(19 分钟阅读)
本文从分布视角分析语言模型的后训练方法,对比 SFT、RL 和 On-Policy Distillation 如何重塑模型分布,及其对灾难性遗忘等现象的影响。
揭秘同策略蒸馏:其益处、危害及原因
本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。
学会预见:揭示 On-Policy 蒸馏效率的解锁机制
本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。
论同策略蒸馏的几何结构
本文刻画了大语言模型中同策略蒸馏(OPD)独特的参数空间动力学,表明其具有松弛的非主方向更新和子空间锁定特性,从而与监督微调和基于可验证奖励的强化学习区分开来。