揭秘同策略蒸馏:其益处、危害及原因
摘要
本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。
查看缓存全文
缓存时间: 2026/05/13 00:19
论文页面 - 揭示 On-Policy Distillation:其优势、劣势及原因
来源:https://huggingface.co/papers/2605.10889
摘要
一个无需训练的诊断框架,通过分析每个 token 的蒸馏信号,来确定推理模型训练的最佳教师模型和上下文。
On-policy distillation(在线策略蒸馏)(https://huggingface.co/papers?q=On-policy%20distillation) 为训练推理模型提供了密集的逐 token 监督(per-token supervision)(https://huggingface.co/papers?q=per-token%20supervision);然而,目前尚不清楚在何种条件下该信号有益,在何种条件下有害。应该使用哪个教师模型(teacher model)(https://huggingface.co/papers?q=teacher%20model),以及在自蒸馏(self-distillation)(https://huggingface.co/papers?q=self-distillation) 的情况下,哪种特定上下文应作为监督信号?最佳选择是否因 token 而异?目前,解决这些问题通常需要昂贵的训练运行,其整体性能指标掩盖了单个 token 层面的动态变化。我们引入了一个无需训练的框架,以最高分辨率进行操作:每个 token、每个问题以及每个教师模型。我们推导出理想的逐节点梯度(ideal per-node gradient),定义为能够最大提高学生成功概率的参数更新。随后,我们开发了一种可扩展的目标 rollout 算法(targeted-rollout algorithm)(https://huggingface.co/papers?q=targeted-rollout%20algorithm),以高效估计此梯度,即使对于长链的中间思考也是如此。梯度对齐分数(gradient alignment score)(https://huggingface.co/papers?q=gradient%20alignment%20score) 定义为该理想梯度(ideal gradient)(https://huggingface.co/papers?q=ideal%20gradient) 与任何给定蒸馏梯度(distillation gradient)(https://huggingface.co/papers?q=distillation%20gradient) 之间的余弦相似度,它量化了特定配置近似理想信号的程度。在一系列自蒸馏(self-distillation)(https://huggingface.co/papers?q=self-distillation) 设置和外部教师模型(teacher model)(https://huggingface.co/papers?q=teacher%20model) 中,我们观察到蒸馏引导在错误 rollout 上与理想的对齐程度远高于正确 rollout,而在正确 rollout 中学生表现已经很好,教师信号往往变得嘈杂。此外,我们发现最佳的蒸馏上下文(distillation context)(https://huggingface.co/papers?q=distillation%20context) 取决于学生模型(student model)(https://huggingface.co/papers?q=student%20model) 的能力和目标任务,并且没有单一普遍有效的配置出现。这些发现促使人们使用逐任务、逐 token 的诊断分析进行蒸馏。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10889) 查看 PDF (https://arxiv.org/pdf/2605.10889) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10889)
在你的 agent 中获取此论文:
hf papers read 2605\.10889
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.10889 以从此页链接。
引用此论文数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.10889 以从此页链接。
引用此论文 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.10889 以从此页链接。
包含此论文的集合 0
没有包含此论文的 Collection
添加此论文到 Collection (https://huggingface.co/new-collection) 以从此页链接。
相似文章
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
学会预见:揭示 On-Policy 蒸馏效率的解锁机制
本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。
通过混合策略蒸馏进行推理压缩
本文提出了混合策略蒸馏(MPD),这是一个将大教师模型的简洁推理行为转移到更小规模的学生模型的框架,在提升性能的同时,将令牌(token)使用量最多降低了27.1%。
确定性的幻觉:解耦策略蒸馏中的能力与校准
本文发现语言模型中的策略蒸馏(OPD)因训练与部署信息不匹配导致严重过度自信,提出校准感知框架 CaOPD,在提升性能的同时显著增强置信度可靠性。
分布视角下的 SFT、RL 与 On-Policy Distillation(19 分钟阅读)
本文从分布视角分析语言模型的后训练方法,对比 SFT、RL 和 On-Policy Distillation 如何重塑模型分布,及其对灾难性遗忘等现象的影响。