反馈对齐在自蒸馏中的作用
摘要
本文研究了语言模型中自蒸馏的上下文设计,发现逐步对齐的批评反馈显著优于二元奖励或参考解条件,因为它只针对错误词元,同时保留正确行为。
查看缓存全文
缓存时间: 2026/06/10 17:46
论文页面 - 反馈对齐在自蒸馏中的作用
来源:https://huggingface.co/papers/2606.11173
在语言模型中引入额外上下文(例如针对先前尝试的反馈)通常能改进其回答。自蒸馏通过在缺失上下文时保留这种改进来训练模型。该方法通过匹配模型在两种设置下的输出分布来实现:作为学生的模型仅看到问题,而作为自教师的模型则同时看到上下文。因此,模型学到什么取决于自教师接收到什么样的上下文,然而这一上下文的設計至今仍缺乏深入探究。
本文研究自蒸馏中的上下文设计,具体方法是通过冻结的评判器对求解器进行训练并接收反馈。我们对比了三种条件:(i)二元奖励(GRPO);(ii)参考解法;(iii)与求解器推理轨迹对齐的逐步批评。
基于逐步对齐的批评取得了最大的提升,在Avg@12指标上分别比GRPO高出16.11分、比基于参考解法的自蒸馏高出5.27分。逐词元优势分析揭示了原因:逐步对齐的反馈仅针对推理失败的词元施加影响,而保留正确的行为。相比之下,基于参考解法的条件作用会在每一步迫使模型改变其行为(即使是正确的步骤),因为另一种推导在表述和方法上必然存在差异。这表明反馈与求解器推理过程的结构对齐是自蒸馏有效性的关键驱动因素。
相似文章
通过反思增强自蒸馏在稀有成功但反馈丰富的场景中学习
本文介绍了反思增强自蒸馏(RESD)框架,该框架将失败反馈转化为对LLM的纠正性监督,从而实现从稀有成功中高效学习。该框架优于标准自蒸馏基线,并且相比GRPO,使用更少的样本实现了更快的早期改进。
@sheriyuo: Qwen Tongyi Lab提出RLCSD,一个关于同策略自蒸馏的简单但重要的批评。他们的关键观察是…
Qwen Tongyi Lab提出RLCSD以解决同策略自蒸馏中的风格漂移问题,该问题中学习信号集中在风格标记上,而非任务关键推理标记。他们的方法使用对比监督来聚焦于任务相关标记,在推理基准测试中取得了相较先前方法一致的改进。
EchoDistill: 对齐噪声到干净的自蒸馏用于鲁棒音频大语言模型
EchoDistill 是一种基于对齐的噪声到干净的自蒸馏框架,通过使用冻结的干净音频教师模型,利用组相对策略优化 (GRPO) 指导学生模型,从而提高音频大语言模型 (ALLMs) 在现实噪声下的鲁棒性。实验表明,在强噪声下,该方法显著提升了语义可靠性和任务性能,且无需额外推理成本。
自蒸馏实现持续学习 [pdf]
介绍了自蒸馏微调(SDFT),一种通过示范实现同策略学习的方法,能够在不发生灾难性遗忘的情况下实现持续学习,性能优于监督微调。
反思奖励监督:Rubric-Conditioned Self-Distillation
本文提出Rubric-Conditioned Self-Distillation (RCSD)框架,该框架利用细粒度评分标准在自蒸馏过程中提供token级别的指导,相比GRPO和OPSD等标量奖励方法提升了推理性能。