CAST：面向GRPO的非特权裁剪非对称自教学与优势翻转

arXiv cs.AI 2026/06/02 04:00 论文

reinforcement-learning self-distillation large-language-models mathematical-reasoning rlvr grpo

摘要

本文提出CAST，一种非特权裁剪非对称自教学方法，通过提供密集的令牌级引导并解决零方差组问题，增强了基于GRPO的可验证奖励强化学习，在数学推理上展现了改进。

arXiv:2606.00172v1 公告类型：新提交摘要：具有可验证奖励的强化学习（RLVR），尤其是组相对策略优化（GRPO），已被广泛用于改进大型语言模型的推理能力。然而，结果级奖励仅提供稀疏的监督，当某个提示的所有采样轨迹要么全部正确要么全部错误时，组相对优势会消失。在线策略自蒸馏（OPSD）提供了密集的令牌级引导，但其令牌偏好不一定与轨迹正确性对齐；实证诊断表明，OPSD信号在正确和错误的rollout上表现不同，教师正向和教师负向的差距信号表现出不同的噪声特征。这些诊断仅在OPSD风格的特权教师上下文中进行用于分析，而CAST训练使用无答案的自教师评分。受这些观察的启发，本文提出了CAST，一种用于GRPO风格RLVR的无答案自蒸馏方法。CAST保留了基于验证器的GRPO目标，但使用停止梯度的自教师根据轨迹正确性塑造令牌级优势。与之前的自蒸馏RLVR方法不同，CAST不需要参考解决方案条件化的教师评分，保持自教师对数概率差距在整个训练过程中激活，并应用双向局部优势符号反转：正确轨迹中的教师负向令牌可以获得负的令牌级优势，而错误轨迹中的教师正向令牌可以获得有界的正向局部优势。对于全正确和全错误的零方差组，CAST分配有界的符号约束基础优势，因此这些原本零梯度的组可以贡献验证器签名的令牌反馈。数学推理实验表明，CAST在保持轻量级、基于验证器的轨迹级目标的同时，改进了RLVR训练。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:45

# CAST: 面向GRPO的非特权裁剪非对称自教学与优势翻转  
来源: https://arxiv.org/html/2606.00172  

杨李1，龚乐雪2，郭宜嘉3，袁宇恒3，胡立文3，马磊4†  

1 北京大学软件与微电子学院，北京  
2 北京大学人工智能学院，北京  
3 北京大学计算机科学技术学院，北京  
4 北京大学未来技术学院，北京  

[email protected]  
[email protected]  

†通讯作者  

###### 摘要  

基于可验证奖励的强化学习（RLVR），尤其是组相对策略优化（GRPO），已被广泛用于提升大语言模型的推理能力。然而，结果级奖励仅提供稀疏的监督信号，当某个 prompt 的所有采样轨迹全部正确或全部错误时，组相对优势会消失。在线策略自蒸馏（OPSD）提供密集的token级引导，但其token偏好不一定与轨迹正确性对齐；实证诊断显示，OPSD信号在正确和错误的rollout上表现不同，且教师正向与教师负向的gap信号具有不同的噪声特性。这些诊断仅在OPSD风格的特权教师上下文中进行分析，而CAST训练使用的是无答案自教师评分。受这些观察启发，本文提出CAST（面向GRPO的非特权裁剪非对称自教学与优势翻转），一种用于GRPO风格RLVR的无答案自蒸馏方法。 CAST保留基于验证器的GRPO目标，但使用停止梯度的自教师根据轨迹正确性来塑造token级优势。与先前的自蒸馏RLVR方法不同，CAST不需要基于参考条件解的教师评分，在整个训练过程中保持自教师对数概率gap活跃，并应用双向局部优势符号反转：在正确轨迹中的教师负向token可以获得负的token级优势，而在错误轨迹中的教师正向token可以获得有界的正局部优势。对于零方差的全部正确和全部错误分组，CAST分配有界符号约束的基础优势，使得这些原本零梯度的分组能够贡献带验证器符号的token反馈。数学推理实验表明，CAST在保持轻量级、基于验证器的轨迹级目标的同时，改进了RLVR训练。  

请参见图注  
图1：GRPO和CAST概览。  

## 1 引言  

基于可验证奖励的强化学习（RLVR）已成为提升大语言模型推理能力的广泛使用的范式[4 (https://arxiv.org/html/2606.00172#bib.bib10), 28 (https://arxiv.org/html/2606.00172#bib.bib7), 22 (https://arxiv.org/html/2606.00172#bib.bib11), 7 (https://arxiv.org/html/2606.00172#bib.bib14), 21 (https://arxiv.org/html/2606.00172#bib.bib17)]。组相对策略优化（GRPO）[20 (https://arxiv.org/html/2606.00172#bib.bib1)]为每个prompt采样多条轨迹并从验证器结果中估算组相对优势，提供了基于评论家的策略优化[24 (https://arxiv.org/html/2606.00172#bib.bib28), 3 (https://arxiv.org/html/2606.00172#bib.bib24), 8 (https://arxiv.org/html/2606.00172#bib.bib25)]的可扩展替代方案。尽管取得了成功，GRPO仅提供稀疏的结果级监督[15 (https://arxiv.org/html/2606.00172#bib.bib26), 30 (https://arxiv.org/html/2606.00172#bib.bib3), 29 (https://arxiv.org/html/2606.00172#bib.bib5), 10 (https://arxiv.org/html/2606.00172#bib.bib15)]：它几乎没有说明哪些token有帮助或有害，并且当某个prompt的所有rollout全部正确或全部错误时，组相对优势会消失[30 (https://arxiv.org/html/2606.00172#bib.bib3), 13 (https://arxiv.org/html/2606.00172#bib.bib16)]。这些零方差分组仍然包含有用的巩固或失败信号，因此需要密集的token级引导，同时保持基于验证器的特性。在线策略自蒸馏[17 (https://arxiv.org/html/2606.00172#bib.bib12), 1 (https://arxiv.org/html/2606.00172#bib.bib13), 32 (https://arxiv.org/html/2606.00172#bib.bib4), 31 (https://arxiv.org/html/2606.00172#bib.bib29), 6 (https://arxiv.org/html/2606.00172#bib.bib30)]提供了这样的引导，而最近的RLVR变体[29 (https://arxiv.org/html/2606.00172#bib.bib5), 12 (https://arxiv.org/html/2606.00172#bib.bib19)]已经利用了稀疏奖励之外的教师-学生间隙。然而，仍有三个问题：间隙并没有在正确与错误轨迹上被不同解释，教师评分通常使用答案特权上下文，并且全部正确/全部错误的分组通常在组相对优势崩溃后被低效利用[11 (https://arxiv.org/html/2606.00172#bib.bib2)]。第3.1节 (https://arxiv.org/html/2606.00172#S3.SS1) 在OPSD风格的特权诊断下研究间隙结构；CAST训练仅使用无答案自教师评分。  

我们提出CAST（面向GRPO的非特权裁剪非对称自教学与优势翻转）。CAST保留基于验证器的GRPO目标，使用分离的rollout/参考教师-学生间隙来塑造token优势，应用双向局部符号反转，并向零方差分组分配有界的基础优势。贡献如下：  
- • 教师-学生间隙在数学RLVR下进行分析，显示出跨正确性和间隙符号的不同行为（第3.1节 (https://arxiv.org/html/2606.00172#S3.SS1)）。  
- • 引入CAST：无答案自教师评分、非对称裁剪、双向优势翻转，以及在标准GRPO更新中的有界零方差分支。  
- • 在Qwen3-1.7B、Qwen3-4B和Qwen3-8B上的实验显示，在匹配的300步LoRA预算下取得了强劲的整体收益；附录分析报告了输出长度和生成token预算敏感性。  

## 2 预备知识  

考虑具有可验证最终答案的数学推理任务[3 (https://arxiv.org/html/2606.00172#bib.bib24), 8 (https://arxiv.org/html/2606.00172#bib.bib25), 14 (https://arxiv.org/html/2606.00172#bib.bib31)]。给定一个prompt x，一个rollout/参考策略π\_θ\_old采样G条在线轨迹{y\_i}^G\_{i=1}，其中y\_i = (y\_{i,1}, ..., y\_{i,T\_i})。一个验证器根据最终答案的正确性分配二元奖励r\_i ∈ {0,1}。在随后的策略更新中，π\_θ表示正在优化的在线策略，π\_θ\_old表示用于采样轨迹和计算参考对数概率的分离策略。在无答案自教师评分下，真实答案仅用于验证。  

GRPO[20 (https://arxiv.org/html/2606.00172#bib.bib1)]通过对每个采样组内的奖励进行归一化来估计序列级优势：  

A\_i = (r\_i - r̄) / (σ\_r + ε\_std), r̄ = (1/G) Σ\_{j=1}^G r\_j. (1)  

然后将该优势分配给所有有效token，并使用PPO风格的裁剪策略梯度目标[19 (https://arxiv.org/html/2606.00172#bib.bib23)]进行优化。GRPO直接且基于验证器，但当某个prompt的所有采样轨迹全部正确或全部错误时，奖励方差崩溃，归一化优势变为零或无信息。这些情况记为AllCorrect和AllWrong；包含两种结果的分组记为Mixed。  

CAST通过一个停止梯度自教师来增强这个稀疏信号。对于教师上下文c\_i，定义token级教师-学生间隙 g\_{i,t} = log π\_φ(y\_{i,t} | c\_i, y\_{i,<t}) / π\_θ\_old(y\_{i,t} | x, y\_{i,<t})。当g\_{i,t} > 0时，该间隙称为教师正向，意味着自教师分配给该采样token的对数概率高于分离的rollout/参考策略；当g\_{i,t} < 0时，称为教师负向。在本文中，教师-学生间隙中的“学生”指的是这个分离的rollout/参考策略π\_θ\_old，而不是当前更新开始后的在线策略。先前的自蒸馏RLVR方法通常使用这些间隙来调节验证器确定的更新幅度，通常不改变其符号。CAST则通过轨迹级正确性来解释间隙，因为错误轨迹中的教师正向token和正确轨迹中的教师负向token不应被对称处理。  

在默认设置中，CAST使用无答案自教师评分：g\_{i,t}^{AF} = log π\_φ(y\_{i,t} | x, y\_{i,<t}) / π\_θ\_old(y\_{i,t} | x, y\_{i,<t})。  

以下两节描述token级优势构建的步骤。第3.2节定义基础优势，第3.3节解释无答案自教师间隙，第3.4节处理非对称裁剪，第3.5节构建最终token优势，第3.6节给出优化目标。第3.7节解释零方差情况。  

## 3 CAST方法  

### 3.1 OPSD间隙的实证分析  

本节在基于数学的RLVR背景下进行教师-学生间隙诊断。诊断采用OPSD风格的特权设置用于分析：教师上下文c\_i = (x, y\_i^{ref})，其中y\_i^{ref}是来自训练数据集的参考正确解决方案；这类似于DRGRPO[12 (https://arxiv.org/html/2606.00172#bib.bib19)]的设置，在文本中注明用于诊断。相反，CAST训练使用无答案自教师评分（第3.3节）。  

我们使用Qwen2.5-1.5B基础模型在包含Mixed和零方差分组的约6k步事件上计算token级间隙。对于每个事件，我们分离验证器结果和间隙符号。注意，在组内，对于一个轨迹验证结果，分组可以是AllCorrect或AllWrong，或者对于轨迹是Mixed。  

观察1：教师正向间隙在正确和错误轨迹中出现不同。  

在正确轨迹中，教师正向间隙的分布更分散，峰度较低；在错误轨迹中，负向间隙更频繁出现但幅度较小。这表明教师正向信号在正确轨迹中可能包含噪声或冗余。  

观察2：教师负向间隙更稳定地作为抑制信号。  

在正确轨迹中，教师负向间隙非常罕见，几乎为零；在错误轨迹中，负向间隙的出现率约为20-30%，且其幅度分布与教师正向间隙相比相对一致。这支持了对错误轨迹中教师负向token进行更有力抑制的动机。  

观察3：Privileged vs. Non-Privileged Comparison  

与特权诊断（使用参考解决方案）相比，无答案自教师间隙（仅使用prompt）在正确性条件之间的对比度较小，但该信号与验证器对齐且适用于在线策略。因此，CAST使用无答案自教师间隙。  

这些诊断在第4.5节的消融研究中进一步得到实证支持。  

### 3.2 基于轨迹的基础优势  

对于具有G个轨迹的分组，令r\_i ∈ {0,1}为验证器奖励。我们定义基本优势如下。对于包含混合结果的组（Mixed），基本优势B\_i通过组内奖励归一化获得。对于AllCorrect分组，基础优势设为一个小的正有界常数 δ\_pos；对于AllWrong分组，基础优势设为 -δ\_neg。默认设置 δ\_pos = δ\_neg = 0.1。这确保了零方差组在训练中仍有非零梯度，同时保持验证器符号。  

### 3.3 无答案自教师间隙  

CAST使用停止梯度自教师φ，定期从在线策略θ更新。对于每个轨迹y\_i，在采样时，我们计算分离的参考策略π\_θ\_old的（停止梯度）对数概率。自教师提供无答案间隙，定义为：  

δ\_{i,t}^{AF} = log π\_φ(y\_{i,t} | x, y\_{i,<t}) - log π\_θ\_old(y\_{i,t} | x, y\_{i,<t}).  

注意，此间隙不依赖于真实答案；它仅使用prompt和已生成的token。  

### 3.4 非对称裁剪  

令 z\_{i,t} = exp(g\_{i,t})。当 B\_i > 0 时，标准符号保留加权（第3.5节）将扩大大于1的比率并压缩小于1的比率。如果 B\_i > 0 且 g\_{i,t} > 0（教师正向），则 z\_{i,t} > 1，加强正向更新。当 B\_i < 0 时，符号在此符号保留加权阶段被反转：教师正向token在负基础轨迹中接收更弱的负压力，而教师负向token接收更强的负压力。在我们的二元奖励混合组中，B\_i = 0 不会发生，除非组是均匀的，而均匀组由固定符号基础优势单独处理；为了完整性，零基础token可以被掩码或赋予零优势。下一阶段允许足够教师正向的负基础token经历符号反转，变为有界的正局部信用。  

CAST应用非对称裁剪：  

w\_{i,t} = { clip(z\_{i,t}, l\_+, u\_+), B\_i > 0; clip(z\_{i,t}, l\_-, u\_-), B\_i < 0. } (8)  

默认 (l\_+, u\_+) = (0.8, 1.05), (l\_-, u\_-) = (0.95, 1.2)。  

这使塑造偏向于更强的教师负向抑制而非教师正向放大：正向基础更新可以被削弱的幅度大于被放大的幅度；负向基础更新可以被加强的幅度大于被削弱的幅度。这反映了实证观察：教师正向信号通常噪声更大，而教师负向信号提供更稳定的抑制项。下面的错误轨迹符号反转规则重用较小的正上限u\_+，因此负基础轨迹中的教师正向token仅获得有界正局部信用。  

### 3.5 CAST Token优势  

CAST首先形成一个符号保留的塑造优势：  

Â\_{i,t} = B\_i (1 + λ (w\_{i,t} - 1)), (9)  

其中λ控制自教师塑造的强度。  

CAST然后应用双向局部优势符号反转。对于正向基础轨迹，教师负向token可以接收负的token级优势。如果 B\_i > 0 且 g\_{i,t} < 0，则教师赋予采样token的对数概率低于学生。CAST将其视为局部抑制项，并形成一个符号反转的候选优势：  

A\_{i,t}^{down} = -|B\_i| (1 + λ (w\_{i,t}^- - 1)), B\_i > 0, g\_{i,t} < 0, (10)  

其中 w\_{i,t}^- = clip(exp(-g\_{i,t}), max(1, l\_-)), u\_-)。 (11)  

对于负向基础轨迹，教师正向token可以接收有界的正token级优势。如果 B\_i < 0 且 g\_{i,t} > 0，CAST将该token视为一个错误轨迹中局部有用的部分推理，并形成一个符号反转的正候选优势：  

A\_{i,t}^{up} = |B\_i| (1 + λ (w\_{i,t}^+ - 1)), B\_i < 0, g\_{i,t} > 0, (12)  

其中 w\_{i,t}^+ = clip(exp(g\_{i,t}), max(1, l\_+)), u\_+)。 (13)  

无裁剪的token优势然后由以下情况区分定义：  

A\_{i,t}^{raw} = { A\_{i,t}^{down}, B\_i > 0 且 g\_{i,t} < 0; A\_{i,t}^{up}, B\_i < 0 且 g\_{i,t} > 0; Â\_{i,t}, 其他。 } (14)  

最后，token优势被裁剪以保证数值稳定性：  

Ã\_{i,t} = clip(A\_{i,t}^{raw}, A\_{min}, A\_{max}), (15)  

默认 (A\_{min}, A\_{max}) = (-1.2, 1.2)。  

这个token级规则是CAST与不考虑正确性的自蒸馏之间的关键区别。一个正确的轨迹不会被均匀地视为所有token都是正面的：局部教师负向token仍然可以被抑制。同样，一个错误的轨迹不会被均匀地视为所有token都是负面的：局部教师正向token可以获得有界的正面信用，而轨迹级验证器仍然决定基础符号并保持更新基于结果正确性。  

### 3.6 优化目标  

CAST使用DAPO/GRPO裁剪重要性比率目标与token级优势[19 (https://arxiv.org/html/2606.00172#bib.bib23), 20 (https://arxiv.org/html/2606.00172#bib.bib1), 30 (https://arxiv.org/html/2606.00172#bib.bib3)]：  

L\_{CAST} = -E\_{i,t} [ min( ρ\_{i,t} Ã\_{i,t}, clip(ρ\_{i,t}, 1-ε, 1+ε\_high) Ã\_{i,t} ) ], (16)  

其中 ρ\_{i,t} = π\_θ(y\_{i,t} | x, y\_{i,<t}) / π\_θ\_old(y\_{i,t} | x, y\_{i,<t})。默认 ε = 0.2, ε\_high = 1.0。  

### 3.7 零方差分组处理  

对于AllCorrect分组，B\_i = δ\_pos，对于AllWrong分组，B\_i = -δ\_neg。然后按照混合分组的方式应用令牌级规则：使用基于符号的基础优势，根据间隙符号进行塑造和反转。这确保零方差分组仍然对策略梯度有贡献，同时保持与验证器一致。  

### 3.8 整体算法  

算法1总结了CAST训练循环。  

**算法1** CAST：面向GRPO的非特权裁剪非对称自教学与优势翻转  
**输入：** 在线策略π\_θ，停止梯度自教师π\_φ，prompt数据集，验证器，分组大小G，超参数λ, l\_+, u\_+, l\_-, u\_-, A\_min, A\_max, δ\_pos, δ\_neg, ε, ε\_high。  
**输出：** 优化后的策略π\_θ  
1: 初始化π\_φ ← π\_θ  
2: **for** 每次训练迭代 **do**  
3: 从数据集中采样一个prompt x  
4: 从π\_θ\_old采样G个轨迹{y\_i}  
5: 为每个轨迹分配验证器奖励r\_i  
6: 根据第3.2节计算基础优势B\_i  
7: **for** 每个轨迹 i **do**  
8: **for** 每个token位置 t **do**  
9: 根据第3.3节计算g\_{i,t}  
10: z\_{i,t} ← exp(g\_{i,t})  
11: **if** B\_i > 0 **then**  
12: w\_{i,t} ← clip(z\_{i,t}, l\_+, u\_+)  
13: **else**  
14: w\_{i,t} ← clip(z\_{i,t}, l\_-, u\_-)  
15: **endif**  
16: **if** B\_i > 0 且 g\_{i,t} < 0 **then**  
17: w\_{i,t}^- ← clip(exp(-g\_{i,t}), max(1, l\_-), u\_-)  
18: A\_{i,t}^{raw} ← -|B\_i| (1 + λ (w\_{i,t}^- - 1))  
19: **else if** B\_i < 0 且 g\_{i,t} > 0 **then**  
20: w\_{i,t}^+ ← clip(exp(g\_{i,t}), max(1, l\_+), u\_+)  
21: A\_{i,t}^{raw} ← |B\_i| (1 + λ (w\_{i,t}^+ - 1))  
22: **else**  
23: A\_{i,t}^{raw} ← B\_i (1 + λ (w\_{i,t} - 1))  
24: **endif**  
25: Ã\_{i,t} ← clip(A\_{i,t}^{raw}, A\_min, A\_max)  
26: **end for**  
27: **end for**  
28: 使用带有Ã\_{i,t}的裁剪DAPO/GRPO目标更新π\_θ  
29: 定期刷新停止梯度自教师π\_φ ← π\_θ  
30: **end for**  
**算法1** CAST：面向GRPO的非特权裁剪非对称自教学与优势翻转

CAST：面向GRPO的非特权裁剪非对称自教学与优势翻转

相似文章

选择性优势熵自适应范围GRPO：用于语言模型高效强化学习的非对称令牌级折扣

A^2TGPO：具有自适应回合级裁剪的代理回合组策略优化

CEPO：基于对比证据策略优化的RLVR自我蒸馏

GAGPO：广义优势分组策略优化

用于离散策略优化的引导对比Token信用分配

提交意见反馈