在线策略蒸馏的多重面貌：陷阱、机制与解决方案

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

本文对大语言模型的在线策略蒸馏进行了全面的实证研究，识别了分布不匹配和优化不稳定等故障机制，并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。

在线策略蒸馏（On-Policy Distillation, OPD）和在线策略自蒸馏（On-Policy Self-Distillation, OPSD）已成为大语言模型后训练阶段极具前景的方法，它们能够在从模型自身策略采样的轨迹上提供密集的 token 级监督。然而，关于其有效性的现有研究结果喜忧参半：尽管 OP(S)D 在系统提示（system prompt）和知识内化方面显示出潜力，但近期的研究也报告了不稳定和性能退化的问题。在本文中，我们全面实证研究了 OPD 和 OPSD 何时有效、何时失效以及其原因。我们发现，在数学推理任务上，OPD 对教师模型的选择和损失函数的形式高度敏感；而 OPSD 在我们测试的设置中均告失败，这是因为在推理时缺乏特定于实例的特权信息（Privileged Information, PI）。相比之下，当 PI 代表共享的潜在规则（如系统提示或对齐偏好）时，OPSD 是有效的。我们确定了三种故障机制：（1）由于对学生生成的前缀进行条件约束，导致教师与学生之间的分布不匹配；（2）由有偏的 TopK 反向 KL 散度梯度引起的优化不稳定；（3）OPSD 特有的局限性，即学生学习到了一种无 PI 的策略，该策略聚合了条件化 PI 的教师模型，这在 PI 特定于实例时是不够的。我们进一步表明，使用停止梯度的 TopK 目标、针对 RLVR 改进的教师模型以及经 SFT 稳定化的学生模型可以缓解这些故障。

查看原文

查看缓存全文

缓存时间: 2026/05/13 04:12

论文页 - 策略内蒸馏的多重面貌：陷阱、机制与修复

来源: https://huggingface.co/papers/2605.11182

摘要

针对大语言模型，策略内蒸馏（On-policy distillation）和自蒸馏方法的有效性因教师模型选择、损失函数公式化以及实例特定的特权信息（PI）可用性而异，已识别的失效机制包括分布不匹配、优化不稳定性以及无特权信息（PI-free）的策略学习。

策略内蒸馏（OPD）（https://huggingface.co/papers?q=On-policy%20distillation）和策略内自蒸馏（OPSD）（https://huggingface.co/papers?q=on-policy%20self-distillation）已成为大语言模型（https://huggingface.co/papers?q=large%20language%20models）颇具前景的后续训练方法，它们对从模型自身策略采样的轨迹提供了密集的 token 级监督（https://huggingface.co/papers?q=token-level%20supervision）。然而，关于其有效性的现有结果喜忧参半：尽管 OP(S)D 在系统提示（system prompt）和知识内化方面展现了潜力，但近期研究也报告了不稳定性和性能退化。在本工作中，我们对 OPD 和 OPSD 何时有效、何时失效以及为何失效进行了全面的实证研究。我们发现，OPD 在数学推理任务上对教师模型选择和损失函数公式化高度敏感，而 OPSD 在我们测试的设置中因测试时缺乏实例特定的特权信息（PI）而失效。相比之下，当 PI 代表共享的潜在规则（如系统提示或对齐偏好）时，OPSD 是有效的。我们确定了三种失效机制：(1) 由于基于学生生成的前缀进行条件约束，导致教师与学生之间的分布不匹配；(2) 有偏 TopK（https://huggingface.co/papers?q=TopK）反向 KL 散度梯度（https://huggingface.co/papers?q=reverse-KL%20gradients）引起的优化不稳定性；以及 (3) OPSD 特有的局限性，即学生学习到一个聚合了基于 PI 条件教师的无 PI 策略，这在 PI 是实例特定时无效。我们还进一步证明，停止梯度（https://huggingface.co/papers?q=stop-gradient）TopK（https://huggingface.co/papers?q=TopK）目标、适配了 RLVR（https://huggingface.co/papers?q=RLVR）的教师以及经过 SFT（https://huggingface.co/papers?q=SFT）稳定的学生可以缓解这些失效。

查看 arXiv 页面 (https://arxiv.org/abs/2605.11182)查看 PDF (https://arxiv.org/pdf/2605.11182)项目页面 (https://ulab-uiuc.github.io/OPD_website/)GitHub1 (https://github.com/ulab-uiuc/Open-On-Policy-Distillation)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.11182)

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.11182 即可从此页面链接该论文。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.11182 即可从此页面链接该论文。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.11182 即可从此页面链接该论文。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接该论文。

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

论文页 - 策略内蒸馏的多重面貌：陷阱、机制与修复

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

同策略蒸馏（5分钟阅读）

分布视角下的 SFT、RL 与 On-Policy Distillation（19 分钟阅读）

揭秘同策略蒸馏：其益处、危害及原因

学会预见：揭示 On-Policy 蒸馏效率的解锁机制

论同策略蒸馏的几何结构

提交意见反馈