@VukRosic99: 当小模型从大模型学习时,一半的教训被浪费了 设置:一个小的“学生”模型写出答案…
摘要
该论文识别了语言模型在策略蒸馏中的位置偏差,即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏(IW-OPD)根据累积漂移对修正进行加权,提高了学习速度和最终性能。
查看缓存全文
缓存时间: 2026/06/29 00:21
当一个小模型向大模型学习时,一半的教训被浪费了
设定:一个较小的“学生”模型写出答案,一个更强的“教师”模型逐词观察并修正——“这里我会这样说”。学生从这些修正中学习。这就是同策略蒸馏(On-Policy Distillation)。
问题:教师是对学生实际正在写的答案做出反应。只要学生保持在合理路径附近,修正就是宝贵的。但一旦学生偏离——而较弱模型往往会过早偏离——教师就会修正一条它自己永远不会走的路径。从那时起,它的反馈就是在回应错误的内容,因此教导就变得糟糕。
你可以直接看到这一点:只训练每个答案的前30%,学生的学习效果与训练整个答案一样好;只训练后30%,它几乎学不到任何东西。开头的词承载了几乎所有的教学价值,后面的词大多是噪音。
修复方法,IW-OPD(重要性加权同策略蒸馏),很简单:只根据答案仍在正轨的程度来信任每个修正。
- 在学生写作时,持续追踪它偏离教师的程度。
- 在学生还在正轨时,对修正给予高权重;一旦偏离,就逐渐降低权重。
- 无需额外的教师调用——计算量相同,只是将计算花在真正能教的东西上。
收益:学习更快,最终效果更好;教师相对于学生越大,相对于普通蒸馏的优势就越明显。
我将其分解为一个简短的视觉总结——滑动查看。
同策略蒸馏中的位置偏差
来源:https://arxiv.org/html/2606.22600
Yan Xie¹, Sijie Zhu¹†, Tiansheng Wen², Bo Chen¹, Yifei Wang³†
¹西安电子科技大学 ²佐治亚理工学院 ³Amazon AGI SF实验室
共同第一作者。{yanxie940, zsj200454}@gmail.com
通讯作者:Bo Chen ([email protected]) 和 Yifei Wang ([email protected])。该工作是在Amazon之外完成的。
摘要
同策略蒸馏(OPD)通过教师提供的密集词元级监督,提高了标准强化学习的学习效率。在OPD的标准KL目标中,词元级损失被均匀平均,意味着所有词元的权重相等。然而,我们发现并非所有词元都是平等的:随着学生生成的序列变长,它们会偏离教师的分布,导致后续位置监督质量下降。结果,只使用前30%词元的OPD可以取得与使用全部词元相当的表现,而只使用最后30%词元的OPD几乎学不到任何东西。在本工作中,我们通过约束优化的视角对这一现象提供了原则性的理解。基于这些见解,我们推导出了重要性加权同策略蒸馏(Importance-Weighted On-Policy Distillation, IW-OPD),其中分配给每个词元的权重取决于学生分布与教师分布之间累积的偏差,自然地对早期词元赋予更高权重,对偏差较大的后期词元赋予较低权重。我们证明,IW-OPD的收敛速度明显快于OPD,学习效率更高,并且在同等规模和跨规模设置下都取得了比标准OPD更好的最终性能,在AIME-2025上提升了6.9个点。
(图1(a) 标题)使用相同的词元预算,但对不同词元位置应用监督的OPD训练。
(图1(b) 标题)以学生生成的前缀为条件时,教师与学生最终准确率的差距。
图1:OPD训练中的位置偏差。
(a) 在相同的30%词元预算下,对每个回答的前缀部分进行训练可达到或超过使用全部词元的标准OPD,而对后缀部分进行训练则无法有效学习。学生:Qwen3-0.6B,教师:Qwen3-4B-Instruct-2507。
(b) 教师和学生的准确率以从给定的学生生成前缀出发到达正确答案的概率来衡量。学生模型的准确率一直很低,而教师模型最终达到正确答案的mean@32准确率随着学生生成前缀变长迅速下降到学生水平。
(图2(a)标题)训练期间的AIME25准确率。教师:Qwen3-4B,学生:Qwen3-1.7B。
(图2(b)标题)最终准确率 vs. 压缩比(教师参数量/学生参数量)
图2:IW-OPD提升了样本效率和最终性能。
(a) AIME 2025在训练期间的准确率:IW-OPD收敛更快且最终性能优于标准OPD。
(b) 从同一教师蒸馏的不同规模学生的最终准确率;IW-OPD的优势从压缩比1.0×时的+4.0%增长到压缩比6.7×时的+14.9%。
1 引言
同策略蒸馏(OPD)在学生的自有样本轨迹上训练学生,同时一个更强的教师提供学生在访问前缀上的密集词元级监督[1,10,25,40,24],显著改善了LLM后训练中仅依赖稀疏轨迹级奖励的学习效率[6,11]。OPD目标函数与标准知识蒸馏一样均匀地聚合每个词元的KL散度。然而,它忽视了OPD的本质:样本由一个弱学生生成,往往产生教师模型分布外(OOD)的错误输出。如图1(b)所示,教师在学生前期的词元上滚动时仍能提供可靠的预测,但在学生较长的输出中表现迅速恶化,表明这些前缀已经偏离了教师分布,能提供的价值有限。这一清晰趋势揭示了OPD中的位置偏差:学生输出早期词元应获得高权重(因为它们质量高),而后期词元应降低权重。进一步的受控研究证实了这一直觉:如图1(a)所示,在相同的30%词元预算下,只使用前30%前缀的OPD匹配或超过了完整OPD,而使用后30%后缀的OPD几乎没有益处。
这些观察表明,OPD应被视为在有限本地更新预算下的分配问题。由于每次更新只能将学生策略移动有限距离,更新应将更多梯度预算分配给教师监督仍与学生轨迹兼容的前缀。我们通过向教师进行约束局部投影来形式化这一直觉。求解该约束问题会产生一个闭式最优策略,其样本权重由教师对学生似然比控制。这个比值解释了观察到的位置偏差现象:一旦学生输出使轨迹偏离教师偏好的推理路径,前缀比值下降,最优策略自然降低下游词元的采样概率。IW-OPD(重要性加权同策略蒸馏)通过使用约束投影目标产生的前缀重要性权重对词元级蒸馏项重新加权来实现这一原则。该方法不需要比标准OPD更多的教师评估,当移除额外权重时退化为标准OPD。实验表明,IW-OPD收敛更快且最终性能更强(图2),与OPD相比,AIME25在步骤10时提升+6.9个点,收敛时提升+1.7个点。此外,IW-OPD使得更强的教师更高效地利用样本,并且当学生变得更小时获得更大的相对收益。相应地,本文做出三项贡献:
- 我们识别了OPD中的位置偏差现象,并从约束优化的角度加以解释。这一观点说明了为什么与教师兼容的前缀主导了有效的监督(§3)。
- 我们提出IW-OPD作为高效的OPD目标,通过教师和学生模型之间的差异估计词元级重要性(§4)。
- 我们在实践中证明,IW-OPD始终如一地提升OPD,收敛更快且最终性能更强,且其优势随教师-学生错配程度增大而扩大:更强的教师变得样本效率更高,更小的学生获得更大的收益(§5)。
2 预备知识
设 (\mathcal{D}) 表示提示分布,(\pi_\theta) 表示学生策略,(\pi_T) 表示教师策略。对于提示 (x) 和响应 (y = (y_1, \dots, y_T)),轨迹级分布按自回归方式分解:
(\pi_\theta(y|x) = \prod_{t=1}^T \pi_\theta(y_t | x, y_{<t}))
类似地,教师策略 (\pi_T) 也类似分解。标准的OPD目标函数是最小化每个词元的KL散度之和… (此处保留原文后续内容格式)。
(注:由于原文后续内容未完整提供,但根据要求,我们将已有部分完整翻译。全文翻译应遵循要求的所有规则。)
相似文章
同策略蒸馏(5分钟阅读)
本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
基于块策略漂移门控的在线策略蒸馏
本文提出了一种轻量级的基于块策略漂移门控方法,通过根据新旧学生概率变化对损失进行加权,改进了语言模型的在线策略蒸馏,在数学基准上取得了更高的推理准确性。
@jiqizhixin: 如果语言模型的最佳教师不是最强的那一个呢?来自清华大学及合作者…
来自清华大学的研究人员及其合作者系统性地研究了针对大语言模型的在策略蒸馏(OPD),揭示成功需要师生共享思维模式且教师提供真正的新能力,并提出了如离策略冷启动和教师对齐提示选择等实用策略。
揭秘同策略蒸馏:其益处、危害及原因
本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。