Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

arXiv cs.CL 论文

摘要

提出了面向纠正的策略优化(CIPO),这是对RLVR的一种扩展,它将失败轨迹转化为面向纠正的监督信号,从而在数学和代码基准测试中提升LLM的推理与纠错能力。

arXiv:2605.14539v1 Announce Type: new 摘要:基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的有效范式。然而,RLVR训练常受限于稀疏的二元奖励和弱的信用分配,导致优化信号模糊,未能充分利用失败轨迹中的有用信息。为解决这一问题,我们提出了面向纠正的策略优化(CIPO),这是对RLVR的一种简单而有效的扩展,它无需依赖任何外部信号,即可将策略内失败轨迹转化为面向纠正的监督信号。通过联合优化从模型自身失败尝试中生成的纠正样本与标准的RLVR目标,CIPO提高了学习效率,同时显式增强了模型纠正自身错误的能力。在涵盖数学推理和代码生成的11个基准测试上的广泛实验表明,CIPO在推理和纠错性能上始终显著优于强基线。此外,CIPO带来了更强的pass@K增益,表明它提升了模型的内在推理能力,而不仅仅是重新分配已有正确答案的概率质量。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:23

# 从失败中学习:面向纠正的策略优化与可验证奖励

来源:https://arxiv.org/html/2605.14539

Mengjie Ren¹,², Jie Lou³, Boxi Cao¹, Xueru Wen¹,², Hongyu Lin¹, Xianpei Han¹, Le Sun¹, Xing Yu³, Yaojie Lu¹

¹中国科学院软件研究所中文信息处理实验室  
²中国科学院大学  
³小红书  

###### 摘要

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)已成为提升大语言模型推理能力的有效范式。然而,RLVR 训练常受限于稀疏的二元奖励和薄弱的信用分配,导致优化信号模糊,且未能充分利用失败轨迹中蕴含的有用信息。为解决这一挑战,我们提出**面向纠正的策略优化(Correction-Oriented Policy Optimization, CIPO)**,一种简单而有效的 RLVR 扩展方法,无需依赖任何外部信号,即可将策略内(on-policy)的失败轨迹转化为面向纠正的监督信号。通过将源自模型自身失败尝试的纠正样本与标准 RLVR 目标联合优化,CIPO 提升了学习效率,并明确增强了模型纠正自身错误的能力。在涵盖数学推理和代码生成的 11 个基准上的大量实验表明,CIPO 在推理和纠正性能上均一致且显著地优于强基线模型。此外,CIPO 带来了更强的 pass@K 增益,表明其提升了模型的内在推理能力,而不仅仅是重新分配了现有正确答案上的概率质量。

## 1 引言

基于可验证奖励的强化学习(RLVR)已成为增强大语言模型(LLM)推理能力的核心范式,在数学推理和代码生成方面取得了显著成功(OpenAI et al., 2024 (https://arxiv.org/html/2605.14539#bib.bib61); Guo et al., 2025 (https://arxiv.org/html/2605.14539#bib.bib58); Team et al., 2025 (https://arxiv.org/html/2605.14539#bib.bib60))。通过利用策略内(on-policy) rollout 中可自动验证的奖励信号,RLVR 能够在无需额外人工标注的情况下进行可扩展的训练。

参见图注

图 1:标准 RLVR 与 CIPO 利用失败轨迹的方式对比。CIPO 提供了更具方向性和信息量的学习信号。

尽管取得了成功,但现有的 RLVR 算法,如组相对策略优化(Group Relative Policy Optimization, GRPO)(Shao et al., 2024 (https://arxiv.org/html/2605.14539#bib.bib54)),从根本上建立在“强化-抑制”范式之上,即强化成功轨迹,统一惩罚失败轨迹,而不管其与真实答案在逻辑上的接近程度(Hübotter et al., 2026 (https://arxiv.org/html/2605.14539#bib.bib9))。由于可验证奖励的二元性和稀疏性,训练信号通常提供模糊的优化指导,未能捕捉失败模式的异质性,尤其是在长程推理中。如图 1 (https://arxiv.org/html/2605.14539#S1.F1)(a) 所示,失败的 rollout 可能源于根本不同的错误模式,从关键逻辑缺陷、中间步骤不一致,到最后步骤的微小计算失误。现有方法将所有失败视为相同的负面信号,仅仅抑制了整个轨迹的可能性,而没有提供关于如何纠正特定错误的明确指导(Yue et al., 2025 (https://arxiv.org/html/2605.14539#bib.bib53))。此外,失败轨迹通常包含部分正确的推理步骤,这些步骤构成了有价值的学习信号。丢弃这种中间结构不仅浪费了有用的监督信息,还可能阻碍有效的探索,最终导致次优的泛化(Hu et al., 2026 (https://arxiv.org/html/2605.14539#bib.bib25); Yue et al., 2025 (https://arxiv.org/html/2605.14539#bib.bib53); Hübotter et al., 2026 (https://arxiv.org/html/2605.14539#bib.bib9))。

先前的研究试图通过集成额外的过程奖励模型(Cui et al., 2025 (https://arxiv.org/html/2605.14539#bib.bib30); Wang et al., 2024 (https://arxiv.org/html/2605.14539#bib.bib29))或基于 LLM 的评判器(Xie et al., 2025 (https://arxiv.org/html/2605.14539#bib.bib28))来应对这些挑战。然而,这些方法常常因额外的人工标注和计算资源成本而受阻,同时辅助模型容量有限可能引入噪声并损害泛化能力(Wen et al., 2024 (https://arxiv.org/html/2605.14539#bib.bib27); Gao et al., 2023 (https://arxiv.org/html/2605.14539#bib.bib26))。最近,诸如 SDPO(Hübotter et al., 2026 (https://arxiv.org/html/2605.14539#bib.bib9))等方法,利用环境反馈或自生成轨迹来构建反馈条件化的教师模型,并从分布差异中提取细粒度监督信号。然而,这些方法依赖于可靠的反馈信号和反思能力,而这些在较弱的模型中通常有限。此外,其泛化性因抑制认知不确定性而被批评,从而削弱了稳健推理(Kim et al., 2026 (https://arxiv.org/html/2605.14539#bib.bib7))。因此,迫切需要一种不依赖额外外部监督信号的任务无关解决方案来应对这些挑战。

为此,我们提出**面向纠正的策略优化(Correction-Oriented Policy Optimization, CIPO)**,这是在 RLVR 范式下的一种系统性扩展,且无需任何外部信息。CIPO 的核心思想是将策略内(on-policy)的失败轨迹从单纯的惩罚对象转变为可利用的监督信号。具体来说,在图 2 (https://arxiv.org/html/2605.14539#S3.F2) 中,在每次策略更新时,我们通过让模型以原始提示及其自身错误输出为条件,并从修正后的解中采样,来从失败轨迹中构建纠正对。然后将这个纠正目标与标准 GRPO 目标联合优化。由于所有纠正样本均源自模型自身的策略内(on-policy)失败,无需额外人工标注,CIPO 确保了训练分布与推理分布之间的严格一致性。此外,为防止因简单地将所有失败轨迹纳入训练而导致策略退化,我们集成了一种自适应机制,该机制动态平衡成功轨迹与失败轨迹的比例,并结合了风险规避的奖励塑形。同时,我们基于策略内(on-policy)采样准确率设计了 rollout 偏好策略,以确保持续且信息丰富的训练信号。这些设计使 CIPO 能够有效利用失败样本中包含的信息,同时保持 RLVR 的原有优势。直观上,如图 1 (https://arxiv.org/html/2605.14539#S1.F1) 所示,CIPO 从两个互补的角度改进了 RLVR。首先,纠正目标提供了方向性更强的学习信号。关键是,这个过程通过在错误轨迹的局部邻域内进行采样来区分不同的失败模式:“接近成功”的尝试(例如,仅仅是最后一步的计算错误)在修正采样中得到正确解的概率远高于那些根本上有缺陷的尝试。通过自然地利用这些不同的修正概率,CIPO 从失败中提取了更丰富、更密集的信号,减少了梯度模糊性。其次,CIPO 明确训练了模型的纠正能力,使其能够以自身错误尝试为条件生成正确的解决方案。这使得我们训练出的模型不仅能提高推理能力,还能获得更强的纠错技能,从而将其实际应用扩展到调试和优化等场景。

我们在涵盖数学推理和代码生成的 11 个代表性基准上进行了大量实验。结果表明,CIPO 在推理和纠错性能上均持续优于强基线模型。在纠错方面,使用 CIPO 训练的 Seed-Coder-8B(Seed et al., 2025 (https://arxiv.org/html/2605.14539#bib.bib52))在 DebugBench(Tian et al., 2024 (https://arxiv.org/html/2605.14539#bib.bib51))上取得了 7.63% 的提升,性能接近 Claude-4-sonnet(Anthropic, 2025 (https://arxiv.org/html/2605.14539#bib.bib24))并超越了 GRPO。在推理方面,使用 CIPO 训练的 Qwen-3-4B(Yang et al., 2025 (https://arxiv.org/html/2605.14539#bib.bib50))在六个数学基准上的平均准确率提升了 17.56%,比 GRPO 高出 4.55%。此外,CIPO 产生了更高的 pass@K,表明其超越了简单的概率集中,从而增强了内在推理能力(Yue et al., 2025 (https://arxiv.org/html/2605.14539#bib.bib53))。

总之,我们的贡献如下:
- • 我们重新审视了失败轨迹在 RLVR 中的作用,并研究了如何将它们从稀疏的负面反馈转化为有用的面向纠正的监督信号。
- • 我们提出了 CIPO,一种面向纠正的 RLVR 扩展方法,无需额外标注即可从策略内(on-policy)失败轨迹中构建纠正样本。
- • 在 11 个基准上的大量实验表明,CIPO 在推理和纠正任务上均持续优于强基线,并且 pass@K 指标的进一步提升表明是推理能力的真正扩展,而非概率重新分配。

## 2 预备知识

在本节中,我们简要介绍 RLVR,并回顾其中的代表性算法 GRPO。

### 2.1 基于可验证奖励的强化学习

RLVR 是一种专为 LLM 推理任务设计的范式,其中生成输出的有效性可以自动验证——例如,检查数学推理中的最终答案或代码生成中的功能执行。给定一个提示 \(x \sim \mathcal{D}\),策略 \(\pi_{\theta}\) 自回归地生成 rollout \(y\),并获得二元奖励 \(R(x, y) \in \{0, 1\}\)。RLVR 的目标是最大化期望奖励:

\[\max_{\theta} \; \mathbb{E}_{x \sim \mathcal{D}, \, y \sim \pi_{\theta}(\cdot|x)} \big[ R(x, y) \big].\]

由于可验证奖励的稀疏性和序列级性质,RLVR 中的策略优化通常依赖于基于采样的梯度估计器。

### 2.2 组相对策略优化

GRPO 旨在无需价值模型的情况下,在稀疏二元奖励下稳定训练。对于每个提示 \(x\),GRPO 从当前策略中采样一组 \(N\) 个轨迹 \(\{y_i\}_{i=1}^N\),并评估它们的奖励 \(\{r_i\}_{i=1}^N\)。GRPO 在每个组内计算归一化的相对优势:

\[
A_i = \frac{r_i - \mu_r}{\sigma_r}, \quad \mu_r = \frac{1}{N} \sum_{j=1}^N r_j,
\]

其中 \(\sigma_r\) 表示组内奖励的标准差。策略通过强化具有正优势的轨迹和抑制具有负优势的轨迹来更新。在这种形式下,成功轨迹相对于组均值被强化。然而,只要组内存在成功轨迹,失败轨迹就会获得统一的负优势,无论其具体的错误模式或潜在的部分正确性如何。

## 3 面向纠正的策略优化

参见图注

图 2:CIPO 的整体框架。首先,我们通过策略模型为整理后的数据生成 rollout,并验证其正确性。随后,我们使用由自适应机制控制的模板构建重放样本,该机制动态调整重放中成功与失败 rollout 的比例。然后我们为这些重放数据生成并验证 rollout。最后,我们对来自重放样本和原始样本的 rollout 进行强化学习。

为了解决当前 RLVR 方法的上述局限性,我们提出 CIPO,它将策略内 (on-policy) 的失败轨迹从单纯的惩罚对象转变为可利用的监督信号。在本节中,我们首先介绍 CIPO 的整体流程(§3.1 (https://arxiv.org/html/2605.14539#S3.SS1)),然后描述两个旨在增强训练稳定性和效率的关键策略:具有风险规避塑形的自适应重放(§3.2 (https://arxiv.org/html/2605.14539#S3.SS2))和难度感知的轨迹偏好(§3.3 (https://arxiv.org/html/2605.14539#S3.SS3))。核心算法在附录 A (https://arxiv.org/html/2605.14539#A1) 中概述。

### 3.1 整体流程

CIPO 的整体框架如图 2 (https://arxiv.org/html/2605.14539#S3.F2) 所示,它通过建立一个生成与面向纠正的重放的迭代循环来扩展标准 RLVR。在每个训练步骤 \(t\),我们使用两个数据流来优化策略 \(\pi_{\theta}\):(1) **基础流**:从原始查询 \(x \sim \mathcal{D}\) 生成的标准策略内 (on-policy) rollout \(y_i\);(2) **纠正流**:通过让策略以原始查询和一个之前的轨迹 \(y\) 为条件(即,提示 \(x_{\text{rep}} = \text{Concat}(x, y)\);串联模板详见附录 A.3 (https://arxiv.org/html/2605.14539#A1.SS3))生成的优化 rollout \(y'_i\)。

**从抑制到方向性引导。** 标准 RLVR 方法(例如 GRPO)低效地以统一的负面抑制对待所有失败,不提供任何关于如何改进的信息。CIPO 将这些失败转化为信息丰富的锚点。通过成功地将一个特定的错误 \(y_{\text{fail}}\) 优化成正确的解 \(y'\),模型建立了一条连接失败模式与目标状态的独特梯度路径,如图 1 (https://arxiv.org/html/2605.14539#S1.F1)(b) 所示。这将对模糊抑制信号转化为精确的方向性引导。然而,不加选择地在所有失败轨迹上训练会引入严重的分布偏移和学习效率低下问题。为减轻这些风险,我们引入了两个主要的策略机制。

### 3.2 具有风险规避塑形的自适应重放

为防止因简单地将所有失败轨迹纳入训练而导致策略退化,我们提出了两种互补的机制用于稳定高效的学习:*自适应重放比例*,它动态调整成功和失败轨迹的混合比例,以及*风险规避奖励塑形*,它明确惩罚能力退化。

**自适应重放比例。** 为了平衡从失败轨迹中学习与保持先前获得的能力,我们维护一个动态的重放比例 \(\rho_t \in [\rho_{\min}, \rho_{\max}]\),用于混合成功和失败轨迹。该比例根据模型近期在回收的成功样本上的保持性能进行调整:当性能下降或持续下滑时,我们增加成功轨迹的重放比例;当性能保持稳定且较高时,我们允许更多关注失败轨迹。这产生了一个简单的基于反馈的重放机制,完整的更新规则推迟到附录 2 (https://arxiv.org/html/2605.14539#alg2) 中。

**风险规避奖励塑形。** 受风险敏感型强化学习的启发(Mihatsch and Neuneier, 2002 (https://arxiv.org/html/2605.14539#bib.bib21)),我们引入了一个非对称惩罚机制,以对能力退化施加更强的约束。虽然自适应混合可以调整重放 rollout 的正确性分布,但它并不会直接惩罚能力退化。非对称奖励塑形通过对能力退化(即,模型成功解决了但重放中失败的问题)施加额外惩罚,并仅对能力提升给予标准奖励,来弥补这一不足。形式上,对于从成功样本 \(x_{\text{success}}\) 通过重放得到的 rollout \(\hat{y}\),如果 \(\hat{y}\) 不正确,我们应用一个惩罚因子 \(\alpha > 1\):惩罚后的奖励 \(\hat{r}_{\text{correctness}} = \alpha \cdot \hat{r}_{\text{original}}\),其中 \(\hat{r}_{\text{original}}\) 是原始正确性奖励(例如,对于错误解为 0)。这创造了一个不对称的奖惩结构,降低了重放时在先前正确问题上失败的风险。

相似文章

CEPO:基于对比证据策略优化的RLVR自我蒸馏

Hugging Face Daily Papers

CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。

SocraticPO:通过交互式指导的策略优化

arXiv cs.LG

SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。