反馈对齐在自蒸馏中的作用

Hugging Face Daily Papers 2026/06/09 00:00 论文

self-distillation feedback-alignment reasoning language-model critique training

摘要

本文研究了语言模型中自蒸馏的上下文设计，发现逐步对齐的批评反馈显著优于二元奖励或参考解条件，因为它只针对错误词元，同时保留正确行为。

在语言模型中，对附加上下文（例如对先前尝试的反馈）进行条件化通常能改善其响应。自蒸馏训练模型在上下文不存在时保留这种改进。该方法通过匹配模型在两种设置下的输出分布来工作：学生仅看到问题，而自教师还看到上下文。因此，模型学习的内容取决于自教师接收到的上下文，然而这种上下文的设计在很大程度上尚未被探索。我们通过在一个冻结的评判器上训练求解器来研究自蒸馏的上下文设计。我们比较三种条件：(i) 二元奖励 (GRPO)，(ii) 参考解，(iii) 与求解器推理轨迹对齐的逐步批评。逐步对齐的批评带来了最大的收益，比GRPO高出16.11分，比参考解条件化自蒸馏高出5.27分（Avg@12）。逐词元优势分析揭示了原因：逐步对齐的反馈只针对推理失败的词元，保留正确行为不变。相比之下，对参考解进行条件化会迫使模型在每个词元（即使是正确的步骤）上改变其行为，因为另一种推导在措辞和方法上不可避免地存在差异。这表明反馈与求解器推理之间的结构对齐是自蒸馏有效性的关键驱动因素。

查看原文

查看缓存全文

缓存时间: 2026/06/10 17:46

论文页面 - 反馈对齐在自蒸馏中的作用

来源：https://huggingface.co/papers/2606.11173

在语言模型中引入额外上下文（例如针对先前尝试的反馈）通常能改进其回答。自蒸馏通过在缺失上下文时保留这种改进来训练模型。该方法通过匹配模型在两种设置下的输出分布来实现：作为学生的模型仅看到问题，而作为自教师的模型则同时看到上下文。因此，模型学到什么取决于自教师接收到什么样的上下文，然而这一上下文的設計至今仍缺乏深入探究。

本文研究自蒸馏中的上下文设计，具体方法是通过冻结的评判器对求解器进行训练并接收反馈。我们对比了三种条件：（i）二元奖励（GRPO）；（ii）参考解法；（iii）与求解器推理轨迹对齐的逐步批评。

基于逐步对齐的批评取得了最大的提升，在Avg@12指标上分别比GRPO高出16.11分、比基于参考解法的自蒸馏高出5.27分。逐词元优势分析揭示了原因：逐步对齐的反馈仅针对推理失败的词元施加影响，而保留正确的行为。相比之下，基于参考解法的条件作用会在每一步迫使模型改变其行为（即使是正确的步骤），因为另一种推导在表述和方法上必然存在差异。这表明反馈与求解器推理过程的结构对齐是自蒸馏有效性的关键驱动因素。

反馈对齐在自蒸馏中的作用

论文页面 - 反馈对齐在自蒸馏中的作用

相似文章

通过反思增强自蒸馏在稀有成功但反馈丰富的场景中学习

@sheriyuo: Qwen Tongyi Lab提出RLCSD，一个关于同策略自蒸馏的简单但重要的批评。他们的关键观察是…

EchoDistill: 对齐噪声到干净的自蒸馏用于鲁棒音频大语言模型

自蒸馏实现持续学习 [pdf]

反思奖励监督：Rubric-Conditioned Self-Distillation

提交意见反馈