反思奖励监督:Rubric-Conditioned Self-Distillation
摘要
本文提出Rubric-Conditioned Self-Distillation (RCSD)框架,该框架利用细粒度评分标准在自蒸馏过程中提供token级别的指导,相比GRPO和OPSD等标量奖励方法提升了推理性能。
arXiv:2606.19327v1 公告类型: 新
摘要:推理语言模型的后训练通常依赖于监督蒸馏和基于可验证奖励的强化学习。蒸馏往往依赖思维链注释,这些注释获取成本高,且可能本身存在噪声、不完整或部分错误;即使最终答案正确,不完美的推理过程也会干扰学习。另一方面,基于可验证奖励的强化学习通常将评估反馈压缩为标量信号,掩盖了响应中哪些方面需要改进。我们提出\textbf{Rubric-Conditioned Self-Distillation}框架,该框架将评分标准作为结构化的细粒度反馈用于在策略自蒸馏。我们的方法使教师模型基于标准级别的评分标准,并利用它对学生的采样轨迹提供token级别的指导。这种设计避免将单一的参考推理过程作为唯一的监督目标。相反,评分标准明确了优秀响应应满足的条件,从而在推理过程中实现比标量奖励优化更细粒度的信用分配。我们通过两阶段流程实例化该框架:首先学习生成任务特定的评分标准,然后训练评分引导的推理器。我们在多样化的科学推理基准上进行了评估,结果表明,基于评分标准的自蒸馏有效地将评分标准级别的准则转化为推理过程中token级别的指导,平均超过GRPO 1.0分、超过OPSD 0.9分。
查看缓存全文
缓存时间: 2026/06/18 05:42
# 重新思考奖励监督:基于评分准则的自我蒸馏
来源: https://arxiv.org/html/2606.19327
Siyi Gu 耶鲁大学 siyi\.gu@yale\.edu & Jialin Chen 耶鲁大学 jialin\.chen@yale\.edu & Sophia Zhou 耶鲁大学 sophia\.zhou@yale\.edu & Arman Cohan† 耶鲁大学 arman\.cohan@yale\.edu & Rex Ying 耶鲁大学 rex\.ying@yale\.edu
###### 摘要
推理语言模型的后训练通常依赖于在线策略蒸馏和基于可验证奖励的强化学习。蒸馏通常依赖昂贵的思维链标注,这些标注本身可能带有噪声、不完整或部分错误;即使最终答案正确,不完善的推理过程也会干扰学习。另一方面,基于可验证奖励的强化学习通常将评估反馈压缩成标量信号,模糊了回答中哪些方面需要改进。我们提出**基于评分准则的自我蒸馏 (Rubric-Conditioned Self-Distillation, RCSD)**,这是一个将评分准则作为结构化、细粒度反馈用于在线策略自我蒸馏的框架。我们的方法将教师模型条件化于准则级别的评分准则,并利用它对学生自身采样的轨迹提供词元级指导。这种设计避免将单一的参考推理过程作为唯一的监督目标。相反,评分准则明确了高质量回答应满足的条件,使得推理过程中的信用分配比标量奖励优化更加精细。我们通过一个两阶段流程实例化该框架:首先学习生成任务特定的评分准则,然后训练一个受评分准则引导的推理器。我们在多个科学推理基准上进行了评估,结果表明,基于评分准则的自我蒸馏能有效地将准则级标准转化为推理过程中的词元级指导,平均成绩超过 GRPO 1.0 分,超过 OPSD 0.9 分。代码已开源:https://github.com/carriegu0818/RCSD。
## 1 引言
近年来,大型语言模型的进步在推理、问题解决和指令遵循方面取得了实质性进展。强化学习在数学和代码生成等可自动验证最终结果的领域尤其有效。然而,群体相对策略优化 (GRPO) 目标通常优化稀疏的结果级奖励:模型仅在生成完整回答后才获得奖励,例如基于最终答案是否正确或执行是否成功 (Shao et al., 2024)。虽然这在可验证环境中有效,但这种监督几乎没有提供关于轨迹*为何*成功或失败的信息,造成了在线学习中的持续性信用分配瓶颈 (Hübotter et al., 2026; Zhao et al., 2026)。
丰富这种监督的一种自然方式是通过**评分准则 (rubrics)**。评分准则不是对回答进行整体打分,而是将质量分解为明确的标准,形成更结构化且可解释的表达,说明什么使答案优质 (Gunjal et al., 2025; Zhang et al., 2025a)。最近的研究表明,基于评分准则的评估可以通过提供比单纯二值正确性更丰富的判断,将后训练扩展到严格可验证任务之外 (Gunjal et al., 2025)。然而,在现有的大多数工作中,评分准则信息仅通过*奖励*进入训练:准则级判断被聚合成单个标量分数,然后对整个轨迹进行类似强化学习的更新优化。因此,这种文本评分准则反馈中蕴含的丰富信息在优化过程中大部分被丢弃。
最近的一项工作通过用密集的教师监督替代稀疏的结果奖励来应对这一问题。在在线策略蒸馏 (OPD) 和在线策略自我蒸馏 (OPSD) 中,学生从其自身采样的轨迹中学习,同时教师在这些轨迹上提供词元级指导 (Agarwal et al., 2024; Xu et al., 2024; Zhao et al., 2026; Hübotter et al., 2026; Ye et al., 2026)。这些方法缓解了离线策略模仿的失配问题,并提供了比最终答案奖励更密集的学习信号。然而,现有方法通常从更强模型输出构建教师。因此,这种监督与特定特权轨迹绑定,可能无法清晰地揭示评估回答应依据的潜在维度。这些轨迹仅代表一种有效的推理路径,而非定义优质回答的潜在维度。在这个意义上,基于推理过程的监督可能过度指定了*如何*生成答案,而没有清晰识别出答案应满足*什么属性*。
<figure id="S1.F1">
<figcaption>图1: 在错误的学生轨迹上,RL/OPSD/RCSD 的优化信号差异示意图。</figcaption>
</figure>
在本工作中,我们引入**基于评分准则的自我蒸馏 (RCSD)**,这是一个将评分准则用作在线策略自我蒸馏中教师端特权监督的后训练框架。我们的核心思想是,评分准则不仅应在生成后对回答进行评分;还应在优化过程中塑造词元级学习。我们不将评分准则反馈压缩为标量奖励,而是将教师条件化于准则级评分准则信息,并将其词元级指导蒸馏到学生自身采样的轨迹上。由此产生的训练信号同时具有*准则感知*、*在线策略*和*词元级*特性:它保留了评估维度的区分,作用于学生生成的轨迹而非固定的离线策略轨迹,并提供密集指导而不将反馈简化为单一数值。图1展示了在相同的错误轨迹上优化信号的差异:RL 为整个序列分配一个奖励,OPSD 提供朝向参考轨迹的密集监督,而 RCSD 提供密集的、基于评分准则的反馈,保留正确步骤同时惩罚特定的局部错误。
我们将我们的想法实现为一个两阶段流水线。我们首先训练一个评分准则生成器,从特权监督中分摊实例特定的评估标准,然后训练一个受评分准则引导的教师推理器。更广泛地说,我们将评分准则重新定义为一种结构化的监督接口,用于模型的自我改进,特别是在难以验证和开放式的任务中,高质量回答无法被自动验证或标量结果奖励完全捕捉。在多个推理基准上,RCSD 取得了最佳总体平均分 (70.6),超过 GRPO 1.4 分,超过 OPSD 0.9 分。值得注意的是,在科学和基于评分准则的推理任务上提升显著,这些任务中回答质量难以仅通过标量结果级奖励来捕捉。
## 2 方法
我们提出在优化过程中保留细粒度、结构化的反馈,通过学习到的评分准则作为在线策略自我蒸馏中的教师端特权监督。不是将评分准则反馈压缩为单一数值,而是将其暴露给特权教师,然后由教师在学生自身采样的轨迹上提供密集的词元级指导。图2将我们的方法与两种标准替代方案进行对比。强化学习通过稀疏的标量奖励应用结果级监督。在线策略自我蒸馏用词元级教师指导取代了这一点,但通常将教师条件化在特权参考答案上。相比之下,我们的方法重新定义了这种监督接口:我们不是将特权教师条件化在单个参考轨迹上,而是将其条件化在指定高质量回答的准则级属性的评分准则上。
<figure id="S2.F2">
<figcaption>图2: RCSD 使用评分准则作为在线策略自我蒸馏中的教师端特权监督。与将反馈压缩为标量奖励的 RL 和将教师条件化在参考答案上的 OPSD 不同,RCSD 在第一阶段学习问题特定的评分准则,并在第二阶段复用它们,以在学生自身的推理轨迹上诱导结构化的词元级指导。</figcaption>
</figure>
### 2.1 预备知识
我们用 \( p_T \) 和 \( p_S \) 分别表示教师和学生的分布。
**离线策略蒸馏** (Hinton et al., 2015) 训练学生模仿由教师生成的轨迹。在其最一般的形式中,目标可写为:
\[
\mathcal{L}_{\mathrm{off}} = \mathbb{E}_{x \sim \mathcal{D}, y \sim p_T(\cdot \mid x)} \left[ \sum_{t=1}^{|y|} D \left( p_T(\cdot \mid x, y_{<t}) \,\|\, p_S(\cdot \mid x, y_{<t}) \right) \right],
\tag{1}
\]
其中 \( D(\cdot \| \cdot) \) 表示教师和学生序列分布之间的散度。离线策略蒸馏提供了密集的词元级监督,但它存在分布失配问题:学生在教师生成的前缀上训练,而在推理时它必须处理自己生成的前缀,导致复合错误和性能下降。
**在线策略蒸馏 (OPD)** (Agarwal et al., 2024; Gu et al., 2023) 通过从学生而非教师采样轨迹来解决这种失配。给定输入 \( x \),学生首先生成一个在线策略展开 \( \hat{y} \sim p_S(\cdot \mid x) \)。然后沿着学生自身的轨迹比较教师和学生,得到目标:
\[
\mathcal{L}_{\mathrm{OPD}} = \mathbb{E}_{x \sim \mathcal{D}, \hat{y} \sim p_S(\cdot \mid x)} \left[ \frac{1}{|\hat{y}|} \sum_{t=1}^{|\hat{y}|} D \left( p_T(\cdot \mid x, \hat{y}_{<t}) \,\|\, p_S(\cdot \mid x, \hat{y}_{<t}) \right) \right].
\tag{2}
\]
然而,在线策略蒸馏方法仍然严重依赖于对教师分布的词元级模仿,这往往鼓励学生遵循单一偏好的回答,忽略了有效推理路径的空间。
**在线策略自我蒸馏 (OPSD)** (Zhao et al., 2026; Hübotter et al., 2026) 指的是教师和学生来自同一基础模型而非两个单独训练的模型的设置。在在线策略自我蒸馏设置中,单个模型同时实例化学生策略和特权教师策略。给定一个推理数据集 \( \mathcal{S} = \{ (x, z) \} \),其中 \( z \) 表示特权信息,如金标准解法、参考答案或其他辅助信息。学生仅观察基本输入 \( x \) 并生成在线策略响应 \( \hat{y} \sim p_S(\cdot \mid x) \),而教师则条件化于推理时学生无法获得的特权信息 \( z \)。OPSD 的目标为:
\[
\mathcal{L}_{\mathrm{OPSD}} = \mathbb{E}_{(x,z) \sim \mathcal{S}, \hat{y} \sim p_S(\cdot \mid x)} \left[ \frac{1}{|\hat{y}|} \sum_{t=1}^{|\hat{y}|} D \left( p_T(\cdot \mid x, z, \hat{y}_{<t}) \,\|\, p_S(\cdot \mid x, \hat{y}_{<t}) \right) \right].
\tag{3}
\]
虽然 OPSD 进一步引入了特权信息来指导学习,但它将教师条件化在包含在 \( z \) 中的特定参考解法上,这可能存在局限。对于推理任务,解法质量更适合通过满足一组标准而非单个目标来表征。这些局限性促使我们寻找一种更灵活的监督接口,提供结构化的、多维度准则级指导。
### 2.2 动机:超越奖励优化和参考条件化蒸馏
我们将 RCSD 与改进推理模型的两种常见范式进行对比:基于奖励的优化和参考条件化蒸馏。
#### (1) 奖励优化需要稀疏的外部判断。
GRPO 在可验证领域非常有效,在这些领域可以通过精确匹配答案或单元测试直接检查正确性 (Shao et al., 2024; Guo et al., 2025; Chollet et al., 2025; Jain et al., 2024)。最近的工作通过使用 LLM 作为法官的奖励,将这一范式扩展到难以验证或不可验证的领域 (Li et al., 2026; Gunjal et al., 2025)。然而,这种扩展仍然将监督减少为稀疏的标量奖励信号,这些信号关于哪些中间推理步骤应该改进的信息有限。它还引入了额外外部评估器,增加了推理和训练成本,并可能通过评估模型的偏好、校准误差或对评分准则的不一致解释,进一步放大来自该法官模型的奖励偏差。相比之下,RCSD 在蒸馏期间不需要单独的奖励模型或法官。相反,我们直接将评分准则提供给教师模型,并让教师对其自身输出生成基于评分准则的推理。这使评分准则变成一个结构化的监督接口,允许学生从密集的词元级教师指导中学习,而不是针对稀疏的标量奖励信号进行优化。
#### (2) 参考条件化蒸馏是路径特定的。
OPSD 将教师条件化在单个参考轨迹上,这可能诱导路径特定的监督。当学生偏离该轨迹时,即使是轻微偏离,教师信号也可能鼓励全局修订而非局部纠正。经验上,我们观察到 OPSD 的轨迹通常重新计算相同的中间量或在没有新信息的情况下修改早期步骤,导致冗长且冗余的推理链。这表明 OPSD 提供了词元级监督,但缺乏明确的准则级信用分配。我们提出的方法 RCSD 通过将教师条件化在评分准则标准上,而不是单个参考路径,来解决这一局限性,从而产生既是在线策略又是准则感知的监督。
### 2.3 问题设置
令 \( x \) 表示一个输入问题。我们考虑与 \( x \) 相关的两个结构化输出:评分准则 \( r \) 和答案 \( y \)。评分准则是问题特定的评估标准的结构化集合,\( r = \{ c_1, \dots, c_K \} \),其中每个标准 \( c_k \) 包含一个标题、一段自然语言描述,以及...相似文章
自动评分标准作为奖励:从隐性偏好到显式多模态生成准则
本文介绍了自动评分标准作为奖励(ARR)框架,该框架将隐性偏好知识外显化为多模态对齐的显式评分标准。文章提出了评分标准策略优化(RPO)以稳定策略梯度,在文生图和图像编辑任务中取得了更佳的性能。
通过反思增强自蒸馏在稀有成功但反馈丰富的场景中学习
本文介绍了反思增强自蒸馏(RESD)框架,该框架将失败反馈转化为对LLM的纠正性监督,从而实现从稀有成功中高效学习。该框架优于标准自蒸馏基线,并且相比GRPO,使用更少的样本实现了更快的早期改进。
Self-Distillation Zero:自我修订将二元奖励转化为密集监督
Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。
C2:基于二元偏好的可扩展评分增强奖励建模
C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。
@sheriyuo: Qwen Tongyi Lab提出RLCSD,一个关于同策略自蒸馏的简单但重要的批评。他们的关键观察是…
Qwen Tongyi Lab提出RLCSD以解决同策略自蒸馏中的风格漂移问题,该问题中学习信号集中在风格标记上,而非任务关键推理标记。他们的方法使用对比监督来聚焦于任务相关标记,在推理基准测试中取得了相较先前方法一致的改进。