CAST:面向GRPO的非特权裁剪非对称自教学与优势翻转

arXiv cs.AI 论文

摘要

本文提出CAST,一种非特权裁剪非对称自教学方法,通过提供密集的令牌级引导并解决零方差组问题,增强了基于GRPO的可验证奖励强化学习,在数学推理上展现了改进。

arXiv:2606.00172v1 公告类型:新提交 摘要:具有可验证奖励的强化学习(RLVR),尤其是组相对策略优化(GRPO),已被广泛用于改进大型语言模型的推理能力。然而,结果级奖励仅提供稀疏的监督,当某个提示的所有采样轨迹要么全部正确要么全部错误时,组相对优势会消失。在线策略自蒸馏(OPSD)提供了密集的令牌级引导,但其令牌偏好不一定与轨迹正确性对齐;实证诊断表明,OPSD信号在正确和错误的rollout上表现不同,教师正向和教师负向的差距信号表现出不同的噪声特征。这些诊断仅在OPSD风格的特权教师上下文中进行用于分析,而CAST训练使用无答案的自教师评分。受这些观察的启发,本文提出了CAST,一种用于GRPO风格RLVR的无答案自蒸馏方法。CAST保留了基于验证器的GRPO目标,但使用停止梯度的自教师根据轨迹正确性塑造令牌级优势。与之前的自蒸馏RLVR方法不同,CAST不需要参考解决方案条件化的教师评分,保持自教师对数概率差距在整个训练过程中激活,并应用双向局部优势符号反转:正确轨迹中的教师负向令牌可以获得负的令牌级优势,而错误轨迹中的教师正向令牌可以获得有界的正向局部优势。对于全正确和全错误的零方差组,CAST分配有界的符号约束基础优势,因此这些原本零梯度的组可以贡献验证器签名的令牌反馈。数学推理实验表明,CAST在保持轻量级、基于验证器的轨迹级目标的同时,改进了RLVR训练。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:45

# CAST: 面向GRPO的非特权裁剪非对称自教学与优势翻转  
来源: https://arxiv.org/html/2606.00172  

杨李1,龚乐雪2,郭宜嘉3,袁宇恒3,胡立文3,马磊4†  

1 北京大学软件与微电子学院,北京  
2 北京大学人工智能学院,北京  
3 北京大学计算机科学技术学院,北京  
4 北京大学未来技术学院,北京  

[email protected]  
[email protected]  

†通讯作者  

###### 摘要  

基于可验证奖励的强化学习(RLVR),尤其是组相对策略优化(GRPO),已被广泛用于提升大语言模型的推理能力。然而,结果级奖励仅提供稀疏的监督信号,当某个 prompt 的所有采样轨迹全部正确或全部错误时,组相对优势会消失。在线策略自蒸馏(OPSD)提供密集的token级引导,但其token偏好不一定与轨迹正确性对齐;实证诊断显示,OPSD信号在正确和错误的rollout上表现不同,且教师正向与教师负向的gap信号具有不同的噪声特性。这些诊断仅在OPSD风格的特权教师上下文中进行分析,而CAST训练使用的是无答案自教师评分。受这些观察启发,本文提出CAST(面向GRPO的非特权裁剪非对称自教学与优势翻转),一种用于GRPO风格RLVR的无答案自蒸馏方法。 CAST保留基于验证器的GRPO目标,但使用停止梯度的自教师根据轨迹正确性来塑造token级优势。与先前的自蒸馏RLVR方法不同,CAST不需要基于参考条件解的教师评分,在整个训练过程中保持自教师对数概率gap活跃,并应用双向局部优势符号反转:在正确轨迹中的教师负向token可以获得负的token级优势,而在错误轨迹中的教师正向token可以获得有界的正局部优势。对于零方差的全部正确和全部错误分组,CAST分配有界符号约束的基础优势,使得这些原本零梯度的分组能够贡献带验证器符号的token反馈。数学推理实验表明,CAST在保持轻量级、基于验证器的轨迹级目标的同时,改进了RLVR训练。  

请参见图注  
图1:GRPO和CAST概览。  

## 1 引言  

基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的广泛使用的范式[4 (https://arxiv.org/html/2606.00172#bib.bib10), 28 (https://arxiv.org/html/2606.00172#bib.bib7), 22 (https://arxiv.org/html/2606.00172#bib.bib11), 7 (https://arxiv.org/html/2606.00172#bib.bib14), 21 (https://arxiv.org/html/2606.00172#bib.bib17)]。组相对策略优化(GRPO)[20 (https://arxiv.org/html/2606.00172#bib.bib1)]为每个prompt采样多条轨迹并从验证器结果中估算组相对优势,提供了基于评论家的策略优化[24 (https://arxiv.org/html/2606.00172#bib.bib28), 3 (https://arxiv.org/html/2606.00172#bib.bib24), 8 (https://arxiv.org/html/2606.00172#bib.bib25)]的可扩展替代方案。尽管取得了成功,GRPO仅提供稀疏的结果级监督[15 (https://arxiv.org/html/2606.00172#bib.bib26), 30 (https://arxiv.org/html/2606.00172#bib.bib3), 29 (https://arxiv.org/html/2606.00172#bib.bib5), 10 (https://arxiv.org/html/2606.00172#bib.bib15)]:它几乎没有说明哪些token有帮助或有害,并且当某个prompt的所有rollout全部正确或全部错误时,组相对优势会消失[30 (https://arxiv.org/html/2606.00172#bib.bib3), 13 (https://arxiv.org/html/2606.00172#bib.bib16)]。这些零方差分组仍然包含有用的巩固或失败信号,因此需要密集的token级引导,同时保持基于验证器的特性。在线策略自蒸馏[17 (https://arxiv.org/html/2606.00172#bib.bib12), 1 (https://arxiv.org/html/2606.00172#bib.bib13), 32 (https://arxiv.org/html/2606.00172#bib.bib4), 31 (https://arxiv.org/html/2606.00172#bib.bib29), 6 (https://arxiv.org/html/2606.00172#bib.bib30)]提供了这样的引导,而最近的RLVR变体[29 (https://arxiv.org/html/2606.00172#bib.bib5), 12 (https://arxiv.org/html/2606.00172#bib.bib19)]已经利用了稀疏奖励之外的教师-学生间隙。然而,仍有三个问题:间隙并没有在正确与错误轨迹上被不同解释,教师评分通常使用答案特权上下文,并且全部正确/全部错误的分组通常在组相对优势崩溃后被低效利用[11 (https://arxiv.org/html/2606.00172#bib.bib2)]。第3.1节 (https://arxiv.org/html/2606.00172#S3.SS1) 在OPSD风格的特权诊断下研究间隙结构;CAST训练仅使用无答案自教师评分。  

我们提出CAST(面向GRPO的非特权裁剪非对称自教学与优势翻转)。CAST保留基于验证器的GRPO目标,使用分离的rollout/参考教师-学生间隙来塑造token优势,应用双向局部符号反转,并向零方差分组分配有界的基础优势。贡献如下:  
- • 教师-学生间隙在数学RLVR下进行分析,显示出跨正确性和间隙符号的不同行为(第3.1节 (https://arxiv.org/html/2606.00172#S3.SS1))。  
- • 引入CAST:无答案自教师评分、非对称裁剪、双向优势翻转,以及在标准GRPO更新中的有界零方差分支。  
- • 在Qwen3-1.7B、Qwen3-4B和Qwen3-8B上的实验显示,在匹配的300步LoRA预算下取得了强劲的整体收益;附录分析报告了输出长度和生成token预算敏感性。  

## 2 预备知识  

考虑具有可验证最终答案的数学推理任务[3 (https://arxiv.org/html/2606.00172#bib.bib24), 8 (https://arxiv.org/html/2606.00172#bib.bib25), 14 (https://arxiv.org/html/2606.00172#bib.bib31)]。给定一个prompt x,一个rollout/参考策略π\_θ\_old采样G条在线轨迹{y\_i}^G\_{i=1},其中y\_i = (y\_{i,1}, ..., y\_{i,T\_i})。一个验证器根据最终答案的正确性分配二元奖励r\_i ∈ {0,1}。在随后的策略更新中,π\_θ表示正在优化的在线策略,π\_θ\_old表示用于采样轨迹和计算参考对数概率的分离策略。在无答案自教师评分下,真实答案仅用于验证。  

GRPO[20 (https://arxiv.org/html/2606.00172#bib.bib1)]通过对每个采样组内的奖励进行归一化来估计序列级优势:  

A\_i = (r\_i - r̄) / (σ\_r + ε\_std), r̄ = (1/G) Σ\_{j=1}^G r\_j. (1)  

然后将该优势分配给所有有效token,并使用PPO风格的裁剪策略梯度目标[19 (https://arxiv.org/html/2606.00172#bib.bib23)]进行优化。GRPO直接且基于验证器,但当某个prompt的所有采样轨迹全部正确或全部错误时,奖励方差崩溃,归一化优势变为零或无信息。这些情况记为AllCorrect和AllWrong;包含两种结果的分组记为Mixed。  

CAST通过一个停止梯度自教师来增强这个稀疏信号。对于教师上下文c\_i,定义token级教师-学生间隙 g\_{i,t} = log π\_φ(y\_{i,t} | c\_i, y\_{i,<t}) / π\_θ\_old(y\_{i,t} | x, y\_{i,<t})。当g\_{i,t} > 0时,该间隙称为教师正向,意味着自教师分配给该采样token的对数概率高于分离的rollout/参考策略;当g\_{i,t} < 0时,称为教师负向。在本文中,教师-学生间隙中的“学生”指的是这个分离的rollout/参考策略π\_θ\_old,而不是当前更新开始后的在线策略。先前的自蒸馏RLVR方法通常使用这些间隙来调节验证器确定的更新幅度,通常不改变其符号。CAST则通过轨迹级正确性来解释间隙,因为错误轨迹中的教师正向token和正确轨迹中的教师负向token不应被对称处理。  

在默认设置中,CAST使用无答案自教师评分:g\_{i,t}^{AF} = log π\_φ(y\_{i,t} | x, y\_{i,<t}) / π\_θ\_old(y\_{i,t} | x, y\_{i,<t})。  

以下两节描述token级优势构建的步骤。第3.2节定义基础优势,第3.3节解释无答案自教师间隙,第3.4节处理非对称裁剪,第3.5节构建最终token优势,第3.6节给出优化目标。第3.7节解释零方差情况。  

## 3 CAST方法  

### 3.1 OPSD间隙的实证分析  

本节在基于数学的RLVR背景下进行教师-学生间隙诊断。诊断采用OPSD风格的特权设置用于分析:教师上下文c\_i = (x, y\_i^{ref}),其中y\_i^{ref}是来自训练数据集的参考正确解决方案;这类似于DRGRPO[12 (https://arxiv.org/html/2606.00172#bib.bib19)]的设置,在文本中注明用于诊断。相反,CAST训练使用无答案自教师评分(第3.3节)。  

我们使用Qwen2.5-1.5B基础模型在包含Mixed和零方差分组的约6k步事件上计算token级间隙。对于每个事件,我们分离验证器结果和间隙符号。注意,在组内,对于一个轨迹验证结果,分组可以是AllCorrect或AllWrong,或者对于轨迹是Mixed。  

观察1:教师正向间隙在正确和错误轨迹中出现不同。  

在正确轨迹中,教师正向间隙的分布更分散,峰度较低;在错误轨迹中,负向间隙更频繁出现但幅度较小。这表明教师正向信号在正确轨迹中可能包含噪声或冗余。  

观察2:教师负向间隙更稳定地作为抑制信号。  

在正确轨迹中,教师负向间隙非常罕见,几乎为零;在错误轨迹中,负向间隙的出现率约为20-30%,且其幅度分布与教师正向间隙相比相对一致。这支持了对错误轨迹中教师负向token进行更有力抑制的动机。  

观察3:Privileged vs. Non-Privileged Comparison  

与特权诊断(使用参考解决方案)相比,无答案自教师间隙(仅使用prompt)在正确性条件之间的对比度较小,但该信号与验证器对齐且适用于在线策略。因此,CAST使用无答案自教师间隙。  

这些诊断在第4.5节的消融研究中进一步得到实证支持。  

### 3.2 基于轨迹的基础优势  

对于具有G个轨迹的分组,令r\_i ∈ {0,1}为验证器奖励。我们定义基本优势如下。对于包含混合结果的组(Mixed),基本优势B\_i通过组内奖励归一化获得。对于AllCorrect分组,基础优势设为一个小的正有界常数 δ\_pos;对于AllWrong分组,基础优势设为 -δ\_neg。默认设置 δ\_pos = δ\_neg = 0.1。这确保了零方差组在训练中仍有非零梯度,同时保持验证器符号。  

### 3.3 无答案自教师间隙  

CAST使用停止梯度自教师φ,定期从在线策略θ更新。对于每个轨迹y\_i,在采样时,我们计算分离的参考策略π\_θ\_old的(停止梯度)对数概率。自教师提供无答案间隙,定义为:  

δ\_{i,t}^{AF} = log π\_φ(y\_{i,t} | x, y\_{i,<t}) - log π\_θ\_old(y\_{i,t} | x, y\_{i,<t}).  

注意,此间隙不依赖于真实答案;它仅使用prompt和已生成的token。  

### 3.4 非对称裁剪  

令 z\_{i,t} = exp(g\_{i,t})。当 B\_i > 0 时,标准符号保留加权(第3.5节)将扩大大于1的比率并压缩小于1的比率。如果 B\_i > 0 且 g\_{i,t} > 0(教师正向),则 z\_{i,t} > 1,加强正向更新。当 B\_i < 0 时,符号在此符号保留加权阶段被反转:教师正向token在负基础轨迹中接收更弱的负压力,而教师负向token接收更强的负压力。在我们的二元奖励混合组中,B\_i = 0 不会发生,除非组是均匀的,而均匀组由固定符号基础优势单独处理;为了完整性,零基础token可以被掩码或赋予零优势。下一阶段允许足够教师正向的负基础token经历符号反转,变为有界的正局部信用。  

CAST应用非对称裁剪:  

w\_{i,t} = { clip(z\_{i,t}, l\_+, u\_+), B\_i > 0; clip(z\_{i,t}, l\_-, u\_-), B\_i < 0. } (8)  

默认 (l\_+, u\_+) = (0.8, 1.05), (l\_-, u\_-) = (0.95, 1.2)。  

这使塑造偏向于更强的教师负向抑制而非教师正向放大:正向基础更新可以被削弱的幅度大于被放大的幅度;负向基础更新可以被加强的幅度大于被削弱的幅度。这反映了实证观察:教师正向信号通常噪声更大,而教师负向信号提供更稳定的抑制项。下面的错误轨迹符号反转规则重用较小的正上限u\_+,因此负基础轨迹中的教师正向token仅获得有界正局部信用。  

### 3.5 CAST Token优势  

CAST首先形成一个符号保留的塑造优势:  

Â\_{i,t} = B\_i (1 + λ (w\_{i,t} - 1)), (9)  

其中λ控制自教师塑造的强度。  

CAST然后应用双向局部优势符号反转。对于正向基础轨迹,教师负向token可以接收负的token级优势。如果 B\_i > 0 且 g\_{i,t} < 0,则教师赋予采样token的对数概率低于学生。CAST将其视为局部抑制项,并形成一个符号反转的候选优势:  

A\_{i,t}^{down} = -|B\_i| (1 + λ (w\_{i,t}^- - 1)), B\_i > 0, g\_{i,t} < 0, (10)  

其中 w\_{i,t}^- = clip(exp(-g\_{i,t}), max(1, l\_-)), u\_-)。 (11)  

对于负向基础轨迹,教师正向token可以接收有界的正token级优势。如果 B\_i < 0 且 g\_{i,t} > 0,CAST将该token视为一个错误轨迹中局部有用的部分推理,并形成一个符号反转的正候选优势:  

A\_{i,t}^{up} = |B\_i| (1 + λ (w\_{i,t}^+ - 1)), B\_i < 0, g\_{i,t} > 0, (12)  

其中 w\_{i,t}^+ = clip(exp(g\_{i,t}), max(1, l\_+)), u\_+)。 (13)  

无裁剪的token优势然后由以下情况区分定义:  

A\_{i,t}^{raw} = { A\_{i,t}^{down}, B\_i > 0 且 g\_{i,t} < 0; A\_{i,t}^{up}, B\_i < 0 且 g\_{i,t} > 0; Â\_{i,t}, 其他。 } (14)  

最后,token优势被裁剪以保证数值稳定性:  

Ã\_{i,t} = clip(A\_{i,t}^{raw}, A\_{min}, A\_{max}), (15)  

默认 (A\_{min}, A\_{max}) = (-1.2, 1.2)。  

这个token级规则是CAST与不考虑正确性的自蒸馏之间的关键区别。一个正确的轨迹不会被均匀地视为所有token都是正面的:局部教师负向token仍然可以被抑制。同样,一个错误的轨迹不会被均匀地视为所有token都是负面的:局部教师正向token可以获得有界的正面信用,而轨迹级验证器仍然决定基础符号并保持更新基于结果正确性。  

### 3.6 优化目标  

CAST使用DAPO/GRPO裁剪重要性比率目标与token级优势[19 (https://arxiv.org/html/2606.00172#bib.bib23), 20 (https://arxiv.org/html/2606.00172#bib.bib1), 30 (https://arxiv.org/html/2606.00172#bib.bib3)]:  

L\_{CAST} = -E\_{i,t} [ min( ρ\_{i,t} Ã\_{i,t}, clip(ρ\_{i,t}, 1-ε, 1+ε\_high) Ã\_{i,t} ) ], (16)  

其中 ρ\_{i,t} = π\_θ(y\_{i,t} | x, y\_{i,<t}) / π\_θ\_old(y\_{i,t} | x, y\_{i,<t})。默认 ε = 0.2, ε\_high = 1.0。  

### 3.7 零方差分组处理  

对于AllCorrect分组,B\_i = δ\_pos,对于AllWrong分组,B\_i = -δ\_neg。然后按照混合分组的方式应用令牌级规则:使用基于符号的基础优势,根据间隙符号进行塑造和反转。这确保零方差分组仍然对策略梯度有贡献,同时保持与验证器一致。  

### 3.8 整体算法  

算法1总结了CAST训练循环。  

**算法1** CAST:面向GRPO的非特权裁剪非对称自教学与优势翻转  
**输入:** 在线策略π\_θ,停止梯度自教师π\_φ,prompt数据集,验证器,分组大小G,超参数λ, l\_+, u\_+, l\_-, u\_-, A\_min, A\_max, δ\_pos, δ\_neg, ε, ε\_high。  
**输出:** 优化后的策略π\_θ  
1: 初始化π\_φ ← π\_θ  
2: **for** 每次训练迭代 **do**  
3: 从数据集中采样一个prompt x  
4: 从π\_θ\_old采样G个轨迹{y\_i}  
5: 为每个轨迹分配验证器奖励r\_i  
6: 根据第3.2节计算基础优势B\_i  
7: **for** 每个轨迹 i **do**  
8: **for** 每个token位置 t **do**  
9: 根据第3.3节计算g\_{i,t}  
10: z\_{i,t} ← exp(g\_{i,t})  
11: **if** B\_i > 0 **then**  
12: w\_{i,t} ← clip(z\_{i,t}, l\_+, u\_+)  
13: **else**  
14: w\_{i,t} ← clip(z\_{i,t}, l\_-, u\_-)  
15: **endif**  
16: **if** B\_i > 0 且 g\_{i,t} < 0 **then**  
17: w\_{i,t}^- ← clip(exp(-g\_{i,t}), max(1, l\_-), u\_-)  
18: A\_{i,t}^{raw} ← -|B\_i| (1 + λ (w\_{i,t}^- - 1))  
19: **else if** B\_i < 0 且 g\_{i,t} > 0 **then**  
20: w\_{i,t}^+ ← clip(exp(g\_{i,t}), max(1, l\_+), u\_+)  
21: A\_{i,t}^{raw} ← |B\_i| (1 + λ (w\_{i,t}^+ - 1))  
22: **else**  
23: A\_{i,t}^{raw} ← B\_i (1 + λ (w\_{i,t} - 1))  
24: **endif**  
25: Ã\_{i,t} ← clip(A\_{i,t}^{raw}, A\_min, A\_max)  
26: **end for**  
27: **end for**  
28: 使用带有Ã\_{i,t}的裁剪DAPO/GRPO目标更新π\_θ  
29: 定期刷新停止梯度自教师π\_φ ← π\_θ  
30: **end for**  
**算法1** CAST:面向GRPO的非特权裁剪非对称自教学与优势翻转

相似文章

CEPO:基于对比证据策略优化的RLVR自我蒸馏

Hugging Face Daily Papers

CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。

GAGPO:广义优势分组策略优化

arXiv cs.AI

GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。

用于离散策略优化的引导对比Token信用分配

Hugging Face Daily Papers

本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。