重新思考Critic-Free RLVR中的分组
摘要
本文重新思考了在大型语言模型的无评论家强化学习中分组的作用,并提出了负令牌过滤策略,使得每个提示只需一次rollout即可实现稳定训练,在推理和代理任务上取得了与基于分组的方法相当或更好的性能。
arXiv:2606.17250v1 公告类型:新
摘要:强化学习(RL)已成为大型语言模型后训练的核心范式。现有的无评论家RL方法通常为同一问题生成一组rollouts以估计价值基线用于优势计算。然而,这种设计存在数据效率低、分组同步障碍以及结构化rollouts不灵活等问题。在这项工作中,我们重新审视了“分组”的作用,并表明其潜在功能不仅仅是估计基线,而是防止对负样本的错误惩罚。基于这一见解,我们提出了负令牌过滤,这是一种简单而有效的策略,能够实现稳定的单rollout训练。我们将其应用于两种批次级优势方法,在推理任务上达到了与基于分组的RL技术相当的性能,并在代理任务上取得了更强的表现。
查看缓存全文
缓存时间: 2026/06/17 05:37
# 重新思考无评论者 RLVR 中的分组
来源:https://arxiv.org/html/2606.17250
Yihong Wu¹ Liheng Ma²,³¹²Lingfeng Xiao⁴ Muzhi Li⁵ Xinyu Wang² Yingxue Zhang⁶ Jian-Yun Nie¹
¹蒙特利尔大学 ²麦吉尔大学 ³Mila - 魁北克人工智能研究所 ⁴滑铁卢大学 ⁵香港中文大学 ⁶华为诺亚方舟实验室
###### 摘要
强化学习 (RL) 已成为大型语言模型后训练的核心范式。现有的无评论者 RL 方法通常为同一问题生成一组推演轨迹,以估计用于优势计算的价值基线。然而,这种设计存在数据效率低、组同步障碍以及与结构化推演轨迹不灵活等问题。在这项工作中,我们重新审视"组"的作用,并表明其潜在功能不仅仅是估计基线,更是为了防止对负样本的错误惩罚。基于这一见解,我们提出了**负令牌过滤**,这是一种简单而有效的策略,能够实现稳定的单轨迹训练。我们将其应用于两种批次级优势方法,在推理任务上取得了与基于组的 RL 技术相当的性能,在智能体任务上则表现更强。
重新思考无评论者 RLVR 中的分组
## 1 引言
强化学习 (RL) 已成为大型语言模型 (LLM) 后训练的*事实*标准范式,以增强其能力。为了避免像基于评论者的方法(如 PPO (Schulman et al., 2017))那样使用独立的评论者网络所带来的计算和内存开销,无评论者方法已被广泛采用。其中大多数方法——例如 GRPO (Shao et al., 2024)、RLOO (Ahmadian et al., 2024) 和 ReMax (Li et al., 2023)——会为每个提示生成多条推演轨迹,并利用生成的组来估计用于优势计算的价值基线。
参见图注 图 1: GRPO 与 REINFORCE++ 中的优势计算。GRPO(左)在组级别计算优势,而 REINFORCE++(右)则在生成批次级别计算优势。尽管无评论者方法比基于评论者的替代方案更高效,但它们依赖于生成和分组多条推演轨迹,这仍然会带来成本。例如,推演轨迹分组会引入同步障碍 (Xu and Ding, 2026),迫使丢弃那些推演轨迹获得相同奖励的组 (Yu et al., 2025),并且在智能体 RL 中对于结构化推演轨迹也不够灵活 (Feng et al., 2025)。因此,最近的工作探索了避免每个提示多条推演轨迹和基于组优势计算的无评论者方法 (Hu et al., 2025; Xu and Ding, 2026)。REINFORCE++ (Hu et al., 2025) 用批次级归一化取代了组归一化,根据生成批次而非组级别统计量计算优势(图 1)。然而,对于推理任务,它通常仍然使用大于 1 的组大小来提高训练稳定性;使用单条推演轨迹时,它会出现严重的训练不稳定性(图 3)。为了完全启用单轨迹生成,SPO (Xu and Ding, 2026) 在批次级归一化的基础上引入了一个额外的追踪器,通过历史信息来估计价值基线。然而,该追踪器在训练前需要额外的采样,增加了计算开销。
为了揭示分组的作用,我们对推演轨迹组的功能机制进行逆向工程,并利用所得见解开发了一种替代的单轨迹、无评论者策略优化方法。我们有两个发现:(1) 单轨迹 RL 的训练不稳定性源于负样本;(2) 每个提示恰好使用一个正样本和一个负样本的推演轨迹可以恢复稳定训练。我们如下解释这些发现。首先,一个错误的推理轨迹很少是完全错误的——它仍然包含许多有用的令牌模式,例如格式、中间推理步骤和工具使用提示。因此,平等地惩罚所有令牌会导致有害的更新。其次,当同一提示存在正样本轨迹时,这种危害会被大大减轻:由于正样本和负样本推演轨迹通常共享这些功能令牌,因此共享令牌上的负梯度会被部分抵消。换句话说,组不仅仅是为了估计基线;它*实际上*保护了共享的有用令牌免受过度的惩罚。我们通过 (1) 令牌重叠的统计分析以及 (2) 梯度到权重矩阵 Top-K 子空间上的投影来确认这种抵消效应。基于这一见解,我们提出了一种简单的负轨迹过滤策略,仅保留负损失中概率最低的 Top-10% 的令牌。我们经验性地在两种批次级优势计算方法上验证了这种过滤,结果表明,由此产生的无组方法优于其基于组的对应版本。
参见图注 图 2: RF++[1], RF++[2] 和 RF++_{w/ Baseline}[2] 的训练曲线。这表明多条推演轨迹生成不能保证稳定训练。分组机制对于训练稳定性更为关键。
## 2 分析
大多数用于 LLM 的无评论者 RL 方法引入了两种机制:每个提示的多条推演轨迹采样,以及基于组的优势计算。请注意,采用多条推演轨迹采样的方法可能不会引入基于组的优势计算。另一方面,基于组的优势计算依赖于多条推演轨迹采样。在本节中,我们将这两种机制分开,并单独研究它们的影响。
### 2.1 分组的影响
我们使用 REINFORCE++ (RF++) (Hu et al., 2025) 作为基础方法,这使我们能够隔离多条推演轨迹生成和分组的影响。受近期工作 (Wu et al., 2025) 的启发,我们将组大小 G 设为 2 作为最小的多条推演轨迹设置,这允许进行清晰的分析,同时避免不必要的实验复杂性。
具体来说,我们比较三种变体:RF++[1],RF++[2] 和 RF++_{w/ Baseline}[2],其中 [n] 表示组大小为 n。RF++ 在推演轨迹的小批次上进行奖励归一化,而不是像 GRPO 那样在每个提示级别的组内进行。RF++_{w/ Baseline} 在批次级归一化之前进一步减去组内样本均值,从而在迷你批次归一化之前引入了一种 GRPO 风格的分组机制——一组全部正确或全部错误的推演轨迹将产生零优势,因此不会对优化贡献梯度。
如图 2 所示,尽管 RF++[2] 比 RF++[1] 更稳定,但它最终仍然崩溃。相比之下,RF++_{w/ Baseline}[2] 在整个训练过程中保持稳定,奖励稳步增加,没有明显的崩溃迹象。这表明多条推演轨迹采样可以部分缓解不稳定性,但不能保证稳定的训练。与单独的多条推演轨迹采样相比,分组机制对训练稳定性更为关键——它确保每个有效的组同时包含正样本和负样本。
参见图注 图 3: 不同负系数 β_k 下的学习动态。我们在 DAPO-MATH 数据集的 7.5k 样本子集上训练 Qwen2.5-Math-1.5B 模型,共 1k 步,学习率为 3×10^{-6}。每步包含 512 个提示,并使用迷你批次大小 32。我们采用奖励内的 KL 惩罚,系数为 1×10^{-3}。
### 2.2 负样本的影响
在上一节中,我们发现基于组的优势可以有效缓解训练不稳定性。在本节中,我们接着研究在没有分组的情况下,哪个组件主要负责不稳定性:正样本还是负样本?
具有负优势的轨迹会导致更新降低采样令牌的似然。然而,特别是在 RLVR 中,负样本仅由其错误最终答案来标记。正如古语所说,“*善出于完整之因,恶出于任何之缺*。”¹¹字面翻译:*Good arises from an integral cause; evil from any defect whatsoever*。一个错误的最终答案并不意味着轨迹中的每个令牌都是错误的或应该受到惩罚。因此,我们假设**统一惩罚负轨迹**可能会错误地抑制有用的推理模式、语法令牌和其他功能组件——我们将它们称为**支撑令牌**(示例如图 5 所示)——从而引发不稳定且可能具有破坏性的更新。
参见图注 图 4: 负轨迹中高概率和低概率 n-gram 在正轨迹中的命中率。结果使用 Qwen2.5-Math-1.5B 在 MATH500 上计算。对于每个提示,我们生成 10 个响应并丢弃退化的轨迹。在 500 个组中,排除所有响应正确或全部错误的 141 个组。为了验证我们的假设,我们对 RF++[1] 进行了一项受控实验,在保持正信号固定的同时改变负信号的强度。具体来说,我们将负优势乘以一个系数 β_-,并检查其对训练动态的影响,监控整个训练过程中的奖励、熵、梯度范数和序列长度。如图 3 所示,崩溃表现为奖励急剧下降,同时伴随着熵、梯度范数和序列长度的增加。一旦序列长度达到预设的最大值 2048 个令牌,训练会短暂稳定,然后再次崩溃。在这个瞬态阶段,KL 惩罚成为目标中的主导项,将序列长度拉回。到这个时候,模型已经遭受了实质性的退化。
当我们从 1(基线)向 0 减小 β_- 时,训练逐渐变得更加稳定,崩溃的开始被延迟。²²注意,崩溃是随机的:即使在相同配置下,也可能在不同的训练步骤发生。然而,总体趋势是清晰的。在 β_-=0.25 时,训练在整个 1k 步训练范围内保持稳定:奖励稳步增加,没有突然下降,而熵、梯度范数和序列长度保持良好。由于这个范围远长于在较大负系数下观察到的典型崩溃时间,这种稳定性不太可能是偶然的。相反的情况进一步支持了这一结论:当 β_-=2 时,对应于我们测试的最强负信号,崩溃发生得比其他所有配置都早。这些结果共同表明,训练不稳定性主要由负样本而非正样本驱动。
### 2.3 推演轨迹中的支撑令牌
受先前发现——不稳定性源于负样本,而来自同一组的正样本推演轨迹可以缓解——的启发,我们假设:1)在没有正样本推演轨迹的情况下,负样本会导致对支撑令牌的惩罚,诱发有害更新;2)当联合优化时,正样本可以通过它们共享的支撑令牌来抵消这些有害梯度 (Cheng et al., 2026)。
这个假设通过测量从同一提示生成的正负样本之间的令牌级重叠得到了经验验证(如图 4 所示)。值得注意的是,我们进一步将令牌分为两类:高概率令牌定义为其概率在序列中位于前 90% 的令牌,其余令牌定义为低概率令牌。如图 4 所示,高概率 n-gram 在不同 n 值下始终比低概率 n-gram 获得更高的命中率。这一证据支持了两个关键发现:1)同一组内的正样本通过抵消负样本在共享支撑令牌上诱导的有害更新来保护训练稳定性;2)这些支撑令牌,尤其是在 n-gram 级别,更有可能属于高概率令牌类别。
参见图注 图 5: 一个示例,说明同一提示的正负轨迹可以共享许多*支撑令牌*,以**无着色文本**显示。这一观察符合自然的直觉:策略赋予更高概率的令牌更可能是支撑令牌,因为预训练的基础模型已经编码了强大的语言建模和推理先验。这一见解也提示了单轨迹 RL 方法的一种简单缓解措施:以预测置信度为代理指标,抑制负样本中的支撑令牌,这启发了我们提出的技术——NTF——在第 3.2 节中讨论。
### 2.4 Top-K 子空间对齐
在上一节中,我们从统计上展示了组内正负推演轨迹之间共享的支撑令牌。失败模式并非奖励的逐渐下降,而是模型语言和推理能力的突然崩溃——这是灾难性遗忘的标志 (Kirkpatrick et al., 2017)。我们假设,一个层的预训练能力主要携带在其权重矩阵的主导方向上,即其顶部奇异子空间,因此,当梯度的能量集中在该子空间时,更新就是有害的。这引出了一个直接的问题:对于每种类型的更新,梯度能量有多少落在权重的顶部奇异子空间内?我们通过将梯度投影到顶部-k 奇异子空间来回答这个问题,如下所述。
对于一个权重矩阵 W ∈ R^{d_out × d_in},我们计算其奇异值分解:
W = U Σ V^T, (1)
其中 U ∈ R^{d_out × r} 和 V ∈ R^{d_in × r} 具有标准正交列,Σ = diag(σ_1, ..., σ_r) 其中 σ_1 ≥ ... ≥ σ_r ≥ 0,且 r = min(d_out, d_in)。令 U_k 和 V_k 分别包含前 k 个左奇异向量和右奇异向量;这些向量张成了 W 的前 k 个左右奇异子空间。
给定一个与 W 形状相同的梯度 G ∈ R^{d_out × d_in},我们将其投影到 W 的前 k 个奇异子空间上:
P_k = U_k^T G V_k ∈ R^{k × k}。相似文章
叛逆的学生:通过自蒸馏 RLVR 反转教师信号以进行推理探索
本文介绍了 RLRT,这是一种在自蒸馏过程中反转教师信号的方法,旨在强化学生模型成功的偏离行为,从而增强大语言模型的推理探索能力。
ResRL:通过负样本投影残差强化学习提升大语言模型的推理能力
本文介绍了 ResRL,一种通过负样本投影解耦正负回复之间语义分布,从而提升大语言模型(LLM)推理能力的方法。该方法旨在改善各项基准测试性能的同时,保持生成的多样性。
重新思考大语言模型推理中的强化学习:关键在于稀疏策略选择,而非能力学习
本文挑战了强化学习(RL)能为大语言模型(LLM)教授新推理能力的假设,论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer,这是一种无需强化学习的方法,以显著更低的训练成本实现了与完整强化学习相当的性能。
并非所有Token都同等重要:通过强化学习中的Token重要性实现高效LLM推理
本文提出了一个强化学习框架,通过建模Token重要性来选择性地对不重要的Token进行惩罚,同时保留关键推理步骤,采用重要性感知奖励和动态长度奖励来减少冗余,在不牺牲准确性的前提下提高效率。
ICRL:通过强化学习内化自我批判
本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。