CAST:面向GRPO的非特权裁剪非对称自教学与优势翻转
摘要
本文提出CAST,一种非特权裁剪非对称自教学方法,通过提供密集的令牌级引导并解决零方差组问题,增强了基于GRPO的可验证奖励强化学习,在数学推理上展现了改进。
arXiv:2606.00172v1 公告类型:新提交
摘要:具有可验证奖励的强化学习(RLVR),尤其是组相对策略优化(GRPO),已被广泛用于改进大型语言模型的推理能力。然而,结果级奖励仅提供稀疏的监督,当某个提示的所有采样轨迹要么全部正确要么全部错误时,组相对优势会消失。在线策略自蒸馏(OPSD)提供了密集的令牌级引导,但其令牌偏好不一定与轨迹正确性对齐;实证诊断表明,OPSD信号在正确和错误的rollout上表现不同,教师正向和教师负向的差距信号表现出不同的噪声特征。这些诊断仅在OPSD风格的特权教师上下文中进行用于分析,而CAST训练使用无答案的自教师评分。受这些观察的启发,本文提出了CAST,一种用于GRPO风格RLVR的无答案自蒸馏方法。CAST保留了基于验证器的GRPO目标,但使用停止梯度的自教师根据轨迹正确性塑造令牌级优势。与之前的自蒸馏RLVR方法不同,CAST不需要参考解决方案条件化的教师评分,保持自教师对数概率差距在整个训练过程中激活,并应用双向局部优势符号反转:正确轨迹中的教师负向令牌可以获得负的令牌级优势,而错误轨迹中的教师正向令牌可以获得有界的正向局部优势。对于全正确和全错误的零方差组,CAST分配有界的符号约束基础优势,因此这些原本零梯度的组可以贡献验证器签名的令牌反馈。数学推理实验表明,CAST在保持轻量级、基于验证器的轨迹级目标的同时,改进了RLVR训练。
查看缓存全文
缓存时间: 2026/06/02 15:45
# CAST: 面向GRPO的非特权裁剪非对称自教学与优势翻转 来源: https://arxiv.org/html/2606.00172 杨李1,龚乐雪2,郭宜嘉3,袁宇恒3,胡立文3,马磊4† 1 北京大学软件与微电子学院,北京 2 北京大学人工智能学院,北京 3 北京大学计算机科学技术学院,北京 4 北京大学未来技术学院,北京 [email protected] [email protected] †通讯作者 ###### 摘要 基于可验证奖励的强化学习(RLVR),尤其是组相对策略优化(GRPO),已被广泛用于提升大语言模型的推理能力。然而,结果级奖励仅提供稀疏的监督信号,当某个 prompt 的所有采样轨迹全部正确或全部错误时,组相对优势会消失。在线策略自蒸馏(OPSD)提供密集的token级引导,但其token偏好不一定与轨迹正确性对齐;实证诊断显示,OPSD信号在正确和错误的rollout上表现不同,且教师正向与教师负向的gap信号具有不同的噪声特性。这些诊断仅在OPSD风格的特权教师上下文中进行分析,而CAST训练使用的是无答案自教师评分。受这些观察启发,本文提出CAST(面向GRPO的非特权裁剪非对称自教学与优势翻转),一种用于GRPO风格RLVR的无答案自蒸馏方法。 CAST保留基于验证器的GRPO目标,但使用停止梯度的自教师根据轨迹正确性来塑造token级优势。与先前的自蒸馏RLVR方法不同,CAST不需要基于参考条件解的教师评分,在整个训练过程中保持自教师对数概率gap活跃,并应用双向局部优势符号反转:在正确轨迹中的教师负向token可以获得负的token级优势,而在错误轨迹中的教师正向token可以获得有界的正局部优势。对于零方差的全部正确和全部错误分组,CAST分配有界符号约束的基础优势,使得这些原本零梯度的分组能够贡献带验证器符号的token反馈。数学推理实验表明,CAST在保持轻量级、基于验证器的轨迹级目标的同时,改进了RLVR训练。 请参见图注 图1:GRPO和CAST概览。 ## 1 引言 基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的广泛使用的范式[4 (https://arxiv.org/html/2606.00172#bib.bib10), 28 (https://arxiv.org/html/2606.00172#bib.bib7), 22 (https://arxiv.org/html/2606.00172#bib.bib11), 7 (https://arxiv.org/html/2606.00172#bib.bib14), 21 (https://arxiv.org/html/2606.00172#bib.bib17)]。组相对策略优化(GRPO)[20 (https://arxiv.org/html/2606.00172#bib.bib1)]为每个prompt采样多条轨迹并从验证器结果中估算组相对优势,提供了基于评论家的策略优化[24 (https://arxiv.org/html/2606.00172#bib.bib28), 3 (https://arxiv.org/html/2606.00172#bib.bib24), 8 (https://arxiv.org/html/2606.00172#bib.bib25)]的可扩展替代方案。尽管取得了成功,GRPO仅提供稀疏的结果级监督[15 (https://arxiv.org/html/2606.00172#bib.bib26), 30 (https://arxiv.org/html/2606.00172#bib.bib3), 29 (https://arxiv.org/html/2606.00172#bib.bib5), 10 (https://arxiv.org/html/2606.00172#bib.bib15)]:它几乎没有说明哪些token有帮助或有害,并且当某个prompt的所有rollout全部正确或全部错误时,组相对优势会消失[30 (https://arxiv.org/html/2606.00172#bib.bib3), 13 (https://arxiv.org/html/2606.00172#bib.bib16)]。这些零方差分组仍然包含有用的巩固或失败信号,因此需要密集的token级引导,同时保持基于验证器的特性。在线策略自蒸馏[17 (https://arxiv.org/html/2606.00172#bib.bib12), 1 (https://arxiv.org/html/2606.00172#bib.bib13), 32 (https://arxiv.org/html/2606.00172#bib.bib4), 31 (https://arxiv.org/html/2606.00172#bib.bib29), 6 (https://arxiv.org/html/2606.00172#bib.bib30)]提供了这样的引导,而最近的RLVR变体[29 (https://arxiv.org/html/2606.00172#bib.bib5), 12 (https://arxiv.org/html/2606.00172#bib.bib19)]已经利用了稀疏奖励之外的教师-学生间隙。然而,仍有三个问题:间隙并没有在正确与错误轨迹上被不同解释,教师评分通常使用答案特权上下文,并且全部正确/全部错误的分组通常在组相对优势崩溃后被低效利用[11 (https://arxiv.org/html/2606.00172#bib.bib2)]。第3.1节 (https://arxiv.org/html/2606.00172#S3.SS1) 在OPSD风格的特权诊断下研究间隙结构;CAST训练仅使用无答案自教师评分。 我们提出CAST(面向GRPO的非特权裁剪非对称自教学与优势翻转)。CAST保留基于验证器的GRPO目标,使用分离的rollout/参考教师-学生间隙来塑造token优势,应用双向局部符号反转,并向零方差分组分配有界的基础优势。贡献如下: - • 教师-学生间隙在数学RLVR下进行分析,显示出跨正确性和间隙符号的不同行为(第3.1节 (https://arxiv.org/html/2606.00172#S3.SS1))。 - • 引入CAST:无答案自教师评分、非对称裁剪、双向优势翻转,以及在标准GRPO更新中的有界零方差分支。 - • 在Qwen3-1.7B、Qwen3-4B和Qwen3-8B上的实验显示,在匹配的300步LoRA预算下取得了强劲的整体收益;附录分析报告了输出长度和生成token预算敏感性。 ## 2 预备知识 考虑具有可验证最终答案的数学推理任务[3 (https://arxiv.org/html/2606.00172#bib.bib24), 8 (https://arxiv.org/html/2606.00172#bib.bib25), 14 (https://arxiv.org/html/2606.00172#bib.bib31)]。给定一个prompt x,一个rollout/参考策略π\_θ\_old采样G条在线轨迹{y\_i}^G\_{i=1},其中y\_i = (y\_{i,1}, ..., y\_{i,T\_i})。一个验证器根据最终答案的正确性分配二元奖励r\_i ∈ {0,1}。在随后的策略更新中,π\_θ表示正在优化的在线策略,π\_θ\_old表示用于采样轨迹和计算参考对数概率的分离策略。在无答案自教师评分下,真实答案仅用于验证。 GRPO[20 (https://arxiv.org/html/2606.00172#bib.bib1)]通过对每个采样组内的奖励进行归一化来估计序列级优势: A\_i = (r\_i - r̄) / (σ\_r + ε\_std), r̄ = (1/G) Σ\_{j=1}^G r\_j. (1) 然后将该优势分配给所有有效token,并使用PPO风格的裁剪策略梯度目标[19 (https://arxiv.org/html/2606.00172#bib.bib23)]进行优化。GRPO直接且基于验证器,但当某个prompt的所有采样轨迹全部正确或全部错误时,奖励方差崩溃,归一化优势变为零或无信息。这些情况记为AllCorrect和AllWrong;包含两种结果的分组记为Mixed。 CAST通过一个停止梯度自教师来增强这个稀疏信号。对于教师上下文c\_i,定义token级教师-学生间隙 g\_{i,t} = log π\_φ(y\_{i,t} | c\_i, y\_{i,<t}) / π\_θ\_old(y\_{i,t} | x, y\_{i,<t})。当g\_{i,t} > 0时,该间隙称为教师正向,意味着自教师分配给该采样token的对数概率高于分离的rollout/参考策略;当g\_{i,t} < 0时,称为教师负向。在本文中,教师-学生间隙中的“学生”指的是这个分离的rollout/参考策略π\_θ\_old,而不是当前更新开始后的在线策略。先前的自蒸馏RLVR方法通常使用这些间隙来调节验证器确定的更新幅度,通常不改变其符号。CAST则通过轨迹级正确性来解释间隙,因为错误轨迹中的教师正向token和正确轨迹中的教师负向token不应被对称处理。 在默认设置中,CAST使用无答案自教师评分:g\_{i,t}^{AF} = log π\_φ(y\_{i,t} | x, y\_{i,<t}) / π\_θ\_old(y\_{i,t} | x, y\_{i,<t})。 以下两节描述token级优势构建的步骤。第3.2节定义基础优势,第3.3节解释无答案自教师间隙,第3.4节处理非对称裁剪,第3.5节构建最终token优势,第3.6节给出优化目标。第3.7节解释零方差情况。 ## 3 CAST方法 ### 3.1 OPSD间隙的实证分析 本节在基于数学的RLVR背景下进行教师-学生间隙诊断。诊断采用OPSD风格的特权设置用于分析:教师上下文c\_i = (x, y\_i^{ref}),其中y\_i^{ref}是来自训练数据集的参考正确解决方案;这类似于DRGRPO[12 (https://arxiv.org/html/2606.00172#bib.bib19)]的设置,在文本中注明用于诊断。相反,CAST训练使用无答案自教师评分(第3.3节)。 我们使用Qwen2.5-1.5B基础模型在包含Mixed和零方差分组的约6k步事件上计算token级间隙。对于每个事件,我们分离验证器结果和间隙符号。注意,在组内,对于一个轨迹验证结果,分组可以是AllCorrect或AllWrong,或者对于轨迹是Mixed。 观察1:教师正向间隙在正确和错误轨迹中出现不同。 在正确轨迹中,教师正向间隙的分布更分散,峰度较低;在错误轨迹中,负向间隙更频繁出现但幅度较小。这表明教师正向信号在正确轨迹中可能包含噪声或冗余。 观察2:教师负向间隙更稳定地作为抑制信号。 在正确轨迹中,教师负向间隙非常罕见,几乎为零;在错误轨迹中,负向间隙的出现率约为20-30%,且其幅度分布与教师正向间隙相比相对一致。这支持了对错误轨迹中教师负向token进行更有力抑制的动机。 观察3:Privileged vs. Non-Privileged Comparison 与特权诊断(使用参考解决方案)相比,无答案自教师间隙(仅使用prompt)在正确性条件之间的对比度较小,但该信号与验证器对齐且适用于在线策略。因此,CAST使用无答案自教师间隙。 这些诊断在第4.5节的消融研究中进一步得到实证支持。 ### 3.2 基于轨迹的基础优势 对于具有G个轨迹的分组,令r\_i ∈ {0,1}为验证器奖励。我们定义基本优势如下。对于包含混合结果的组(Mixed),基本优势B\_i通过组内奖励归一化获得。对于AllCorrect分组,基础优势设为一个小的正有界常数 δ\_pos;对于AllWrong分组,基础优势设为 -δ\_neg。默认设置 δ\_pos = δ\_neg = 0.1。这确保了零方差组在训练中仍有非零梯度,同时保持验证器符号。 ### 3.3 无答案自教师间隙 CAST使用停止梯度自教师φ,定期从在线策略θ更新。对于每个轨迹y\_i,在采样时,我们计算分离的参考策略π\_θ\_old的(停止梯度)对数概率。自教师提供无答案间隙,定义为: δ\_{i,t}^{AF} = log π\_φ(y\_{i,t} | x, y\_{i,<t}) - log π\_θ\_old(y\_{i,t} | x, y\_{i,<t}). 注意,此间隙不依赖于真实答案;它仅使用prompt和已生成的token。 ### 3.4 非对称裁剪 令 z\_{i,t} = exp(g\_{i,t})。当 B\_i > 0 时,标准符号保留加权(第3.5节)将扩大大于1的比率并压缩小于1的比率。如果 B\_i > 0 且 g\_{i,t} > 0(教师正向),则 z\_{i,t} > 1,加强正向更新。当 B\_i < 0 时,符号在此符号保留加权阶段被反转:教师正向token在负基础轨迹中接收更弱的负压力,而教师负向token接收更强的负压力。在我们的二元奖励混合组中,B\_i = 0 不会发生,除非组是均匀的,而均匀组由固定符号基础优势单独处理;为了完整性,零基础token可以被掩码或赋予零优势。下一阶段允许足够教师正向的负基础token经历符号反转,变为有界的正局部信用。 CAST应用非对称裁剪: w\_{i,t} = { clip(z\_{i,t}, l\_+, u\_+), B\_i > 0; clip(z\_{i,t}, l\_-, u\_-), B\_i < 0. } (8) 默认 (l\_+, u\_+) = (0.8, 1.05), (l\_-, u\_-) = (0.95, 1.2)。 这使塑造偏向于更强的教师负向抑制而非教师正向放大:正向基础更新可以被削弱的幅度大于被放大的幅度;负向基础更新可以被加强的幅度大于被削弱的幅度。这反映了实证观察:教师正向信号通常噪声更大,而教师负向信号提供更稳定的抑制项。下面的错误轨迹符号反转规则重用较小的正上限u\_+,因此负基础轨迹中的教师正向token仅获得有界正局部信用。 ### 3.5 CAST Token优势 CAST首先形成一个符号保留的塑造优势: Â\_{i,t} = B\_i (1 + λ (w\_{i,t} - 1)), (9) 其中λ控制自教师塑造的强度。 CAST然后应用双向局部优势符号反转。对于正向基础轨迹,教师负向token可以接收负的token级优势。如果 B\_i > 0 且 g\_{i,t} < 0,则教师赋予采样token的对数概率低于学生。CAST将其视为局部抑制项,并形成一个符号反转的候选优势: A\_{i,t}^{down} = -|B\_i| (1 + λ (w\_{i,t}^- - 1)), B\_i > 0, g\_{i,t} < 0, (10) 其中 w\_{i,t}^- = clip(exp(-g\_{i,t}), max(1, l\_-)), u\_-)。 (11) 对于负向基础轨迹,教师正向token可以接收有界的正token级优势。如果 B\_i < 0 且 g\_{i,t} > 0,CAST将该token视为一个错误轨迹中局部有用的部分推理,并形成一个符号反转的正候选优势: A\_{i,t}^{up} = |B\_i| (1 + λ (w\_{i,t}^+ - 1)), B\_i < 0, g\_{i,t} > 0, (12) 其中 w\_{i,t}^+ = clip(exp(g\_{i,t}), max(1, l\_+)), u\_+)。 (13) 无裁剪的token优势然后由以下情况区分定义: A\_{i,t}^{raw} = { A\_{i,t}^{down}, B\_i > 0 且 g\_{i,t} < 0; A\_{i,t}^{up}, B\_i < 0 且 g\_{i,t} > 0; Â\_{i,t}, 其他。 } (14) 最后,token优势被裁剪以保证数值稳定性: Ã\_{i,t} = clip(A\_{i,t}^{raw}, A\_{min}, A\_{max}), (15) 默认 (A\_{min}, A\_{max}) = (-1.2, 1.2)。 这个token级规则是CAST与不考虑正确性的自蒸馏之间的关键区别。一个正确的轨迹不会被均匀地视为所有token都是正面的:局部教师负向token仍然可以被抑制。同样,一个错误的轨迹不会被均匀地视为所有token都是负面的:局部教师正向token可以获得有界的正面信用,而轨迹级验证器仍然决定基础符号并保持更新基于结果正确性。 ### 3.6 优化目标 CAST使用DAPO/GRPO裁剪重要性比率目标与token级优势[19 (https://arxiv.org/html/2606.00172#bib.bib23), 20 (https://arxiv.org/html/2606.00172#bib.bib1), 30 (https://arxiv.org/html/2606.00172#bib.bib3)]: L\_{CAST} = -E\_{i,t} [ min( ρ\_{i,t} Ã\_{i,t}, clip(ρ\_{i,t}, 1-ε, 1+ε\_high) Ã\_{i,t} ) ], (16) 其中 ρ\_{i,t} = π\_θ(y\_{i,t} | x, y\_{i,<t}) / π\_θ\_old(y\_{i,t} | x, y\_{i,<t})。默认 ε = 0.2, ε\_high = 1.0。 ### 3.7 零方差分组处理 对于AllCorrect分组,B\_i = δ\_pos,对于AllWrong分组,B\_i = -δ\_neg。然后按照混合分组的方式应用令牌级规则:使用基于符号的基础优势,根据间隙符号进行塑造和反转。这确保零方差分组仍然对策略梯度有贡献,同时保持与验证器一致。 ### 3.8 整体算法 算法1总结了CAST训练循环。 **算法1** CAST:面向GRPO的非特权裁剪非对称自教学与优势翻转 **输入:** 在线策略π\_θ,停止梯度自教师π\_φ,prompt数据集,验证器,分组大小G,超参数λ, l\_+, u\_+, l\_-, u\_-, A\_min, A\_max, δ\_pos, δ\_neg, ε, ε\_high。 **输出:** 优化后的策略π\_θ 1: 初始化π\_φ ← π\_θ 2: **for** 每次训练迭代 **do** 3: 从数据集中采样一个prompt x 4: 从π\_θ\_old采样G个轨迹{y\_i} 5: 为每个轨迹分配验证器奖励r\_i 6: 根据第3.2节计算基础优势B\_i 7: **for** 每个轨迹 i **do** 8: **for** 每个token位置 t **do** 9: 根据第3.3节计算g\_{i,t} 10: z\_{i,t} ← exp(g\_{i,t}) 11: **if** B\_i > 0 **then** 12: w\_{i,t} ← clip(z\_{i,t}, l\_+, u\_+) 13: **else** 14: w\_{i,t} ← clip(z\_{i,t}, l\_-, u\_-) 15: **endif** 16: **if** B\_i > 0 且 g\_{i,t} < 0 **then** 17: w\_{i,t}^- ← clip(exp(-g\_{i,t}), max(1, l\_-), u\_-) 18: A\_{i,t}^{raw} ← -|B\_i| (1 + λ (w\_{i,t}^- - 1)) 19: **else if** B\_i < 0 且 g\_{i,t} > 0 **then** 20: w\_{i,t}^+ ← clip(exp(g\_{i,t}), max(1, l\_+), u\_+) 21: A\_{i,t}^{raw} ← |B\_i| (1 + λ (w\_{i,t}^+ - 1)) 22: **else** 23: A\_{i,t}^{raw} ← B\_i (1 + λ (w\_{i,t} - 1)) 24: **endif** 25: Ã\_{i,t} ← clip(A\_{i,t}^{raw}, A\_min, A\_max) 26: **end for** 27: **end for** 28: 使用带有Ã\_{i,t}的裁剪DAPO/GRPO目标更新π\_θ 29: 定期刷新停止梯度自教师π\_φ ← π\_θ 30: **end for** **算法1** CAST:面向GRPO的非特权裁剪非对称自教学与优势翻转
相似文章
选择性优势熵自适应范围GRPO:用于语言模型高效强化学习的非对称令牌级折扣
本文介绍了GRPO的自适应范围和选择性优势变体,这些变体使用基于熵的令牌级折扣来稳定训练并提高数学推理任务的性能,以更低的方差实现了更强的结果。
A^2TGPO:具有自适应回合级裁剪的代理回合组策略优化
本文介绍了 A^2TGPO,这是一种针对代理式大语言模型(LLMs)的强化学习方法,它利用自适应回合级裁剪和信息增益归一化来改善多轮交互中的过程信用分配。
CEPO:基于对比证据策略优化的RLVR自我蒸馏
CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。
GAGPO:广义优势分组策略优化
GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。
用于离散策略优化的引导对比Token信用分配
本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。