将结果监督内化为过程监督:推理强化学习的新范式
摘要
介绍了 IOP,这是一个将结果监督内化为过程监督以用于推理强化学习的框架,能够在无需外部标注的情况下实现细粒度的信用分配。
arXiv:2605.05226v1 公告类型:新论文
摘要:推理强化学习的核心挑战不仅在于结果级别监督的稀疏性,更根本在于如何将仅提供于序列末端的反馈转化为能够指导中间推理步骤的细粒度学习信号。现有方法要么依赖结果级别的奖励进行序列级别的优化,这使得精确的信用分配变得困难;要么依赖外部构建的过程监督,这既昂贵又难以持续扩展。为此,我们提出了一种新视角:推理强化学习可以被视为将结果监督内化为过程监督的问题。基于这一视角,我们引入了一种用于推理强化学习的监督内化方法,使模型能够通过识别、纠正和复用失败的推理轨迹,自动提取过程级别的学习信号,从而在仅依赖结果监督的情况下实现更细粒度的策略优化。我们将这一思想进一步抽象为一种新的训练范式,在此范式中,模型在强化学习过程中不断生成并完善其内部的过程监督,为推理强化学习中的细粒度信用分配开辟了一条有别于外部提供过程监督的新路径。
查看缓存全文
缓存时间: 2026/05/08 06:43
# 将结果监督内化为过程监督:推理强化学习的新范式
来源: https://arxiv.org/html/2605.05226
Fei Ding¹, Yongkang Zhang¹, Runhao Liu¹, Yuhao Liao², Zijian Zeng², Sibo Wang², Huiming Yang²
¹阿里巴巴集团
²清华大学
###### 摘要
推理强化学习中的一个核心挑战不仅仅在于结果监督的稀疏性,更在于如何将序列结束时的结果反馈转化为细粒度的学习信号,从而作用于中间推理步骤。现有方法要么使用结果奖励进行序列级优化,这阻碍了精确的信用分配;要么依赖外部构建的过程监督,成本高昂且可扩展性有限。我们提出了一种新视角:将推理强化学习视为**将结果监督内化为过程监督**的问题。基于这一视角,我们提出了 IOP 框架,该框架使模型能够通过识别、修复和复用失败的推理轨迹来自动蒸馏过程级学习信号——仅在结果监督下实现更细粒度的策略优化。我们进一步将这一想法形式化为一种训练范式,其中模型在强化学习过程中持续生成并细化内部过程监督,为细粒度信用分配提供了一条不同于外源性过程监督的新路径。
**(a) 结果监督**
$z_1, z_2, z_3, z_4, z_5, z_6, z_7$
$\boldsymbol{\times}$ $\nabla^-$ $\nabla^-$ $\nabla^-$ $\nabla^-$ $\nabla^-$ $\nabla^-$
对所有 token 施加均匀惩罚 | 内化
**(b) IOP: 内化的过程监督**
失败: $y_1, y_2, y_3, y_4, y_5, y_6, y_7$ $\boldsymbol{\times}$
修复后: $y_1, y_2, y_3, \tilde{y}_4, \tilde{y}_5, y_6, \tilde{y}_7$ $\boldsymbol{\checkmark}$
梯度: – $\nabla$ – $\nabla$ – $\nabla$
仅在错误 token 处施加针对性梯度
$\cdot$ +6.9% 平均准确率
$\cdot$ 2.3× 样本效率
$\cdot$ 无需外部标注
**图 1:** IOP 通过修复失败轨迹并仅惩罚错误 token,将结果反馈转化为过程级监督。
## 1 引言
大型语言模型(LLM)在数学、代码生成和复杂逻辑任务等方面的推理能力取得了显著进展,这在很大程度上得益于强化学习(RL)的推动。基于结果的 RL 已被证明能有效提升在挑战性推理基准上的性能(Havrilla et al., 2024; Shao et al., 2024; DeepSeek-AI et al., 2025; OpenAI, 2024),其中 RLVR 和 GRPO 等方法通过可验证的结果奖励直接优化最终答案的正确性(Shao et al., 2024; Wen et al., 2025)。然而,随着推理链变长,结果级监督的局限性日益明显:失败的轨迹很少是全错的——通常包含许多正确的中间步骤以及少数关键错误。仅根据最终结果对整个轨迹进行统一的奖励或惩罚,会将正确的局部推理与实际失败原因混为一谈。因此,推理 RL 的根本难点不仅在于结果监督的稀疏性,更在于其缺乏对中间推理步骤进行有效信用分配所需的粒度。
为此,研究人员引入了显式建模中间推理步骤的过程监督。开创性工作表明,与仅使用结果监督相比,逐步验证能显著改善复杂数学推理(Lightman et al., 2023)。后续工作探索了过程监督的自动构建——包括自动中间步骤采样、过程奖励模型(PRMs)的训练,以及基于搜索或验证器的关键错误步骤识别(Luo et al., 2024; Zhang et al., 2025; Yang et al., 2025)。最近的工作进一步通过错误区域惩罚、前缀级监督或局部过程优化将过程信号直接整合到 RL 中(Liu et al., 2026; Liang et al., 2026; Nie et al., 2026)。总体而言,这些研究确立了过程监督对于长链推理中有效信用分配的重要性。然而,现有的过程监督方法主要依赖外部提供的信号——无论是人工步骤标注、单独训练的 PRM、显式构建的验证器,还是搜索衍生的伪标签——所有这些都构成了**外源性**过程监督。虽然有效,但这些方法带来了巨大的构建和维护成本,且随着策略模型的改进难以扩展。换句话说, prior work 确立了过程监督**很重要**,但尚未充分解决一个更根本的问题:**给定仅结果级反馈,模型能否在强化学习期间生成其自身的过程监督?**
本文正是从这一问题出发,提出了新视角:将推理 RL 视为**将结果监督内化为过程监督**的问题。关键观察在于,失败的轨迹并非均匀负样本,而是包含可纠正和复用的结构化信息。如果模型能生成失败轨迹的修复版本,并从两者的差异中蒸馏出关键变化,结果监督便可转化为作用于中间步骤的过程监督。这一视角与近期关于自我修正和反思式推理的工作相呼应,研究表明模型可以在推理期间进行自我验证和修正,且这种能力可通过在线 RL 加强(Kumar et al., 2024; Ma et al., 2025; Xiong et al., 2025; Lee et al., 2025)。我们将这种自我修正能力从推理时扩展到训练时,从而提出了一种新的训练范式:在仅结果监督下,模型持续生成并细化内部过程监督,以实现更细粒度的策略优化。
##### 贡献。
- 我们将推理 RL 重构为将结果监督内化为过程监督的问题,并建立了相应的训练范式,其中模型在 RL 过程中通过失败修复自动蒸馏过程级信号。
- 我们提出了 IOP 框架及其 GSPO 实例化 IOP-GSPO,通过审计门控、最小编辑修复和基于验证的自适应截断,将序列级奖励转化为 token 级门控信号。
- 实验展示了策略与修复能力之间的协同强化循环;在三个推理基准上,IOP-GSPO 始终优于 GSPO(+4.9–6.9%)和外源性过程监督方法,样本效率约为 2.3 倍。
## 2 相关工作
##### 结果监督的推理 RL。
主流开源推理 RL 方法依赖结果监督进行序列级优化,包括 GRPO(Shao et al., 2024)、GSPO(Zheng et al., 2025a)、DPO(Rafailov et al., 2023)以及更广泛的 RLVR 系列(Havrilla et al., 2024; Wen et al., 2025; DeepSeek-AI et al., 2025; OpenAI, 2024)。这些方法在数学、代码和复杂推理任务上取得了强劲结果,但监督作用于整个轨迹,使得长链推理中的局部错误无法归因于特定中间步骤。
##### 显式过程监督与过程奖励模型。
互补的工作流通过中间步骤验证、评分或过程奖励模型(PRMs)的训练提供显式过程监督。Lightman et al. (2023) 证明了步骤级监督对复杂数学推理的价值;Wang et al. (2023); Luo et al. (2024) 进一步探索了自动化过程标签构建、PRM 训练以及通过自动化监督扩展过程数据。最近的研究指出,反思和自我修正使得首次错误定位复杂化(Zhang et al., 2025; Yang et al., 2025),而具有数据高效过程监督建模的生成式验证器引起了关注(Khalifa et al., 2025)。这一流派确立了过程监督对细粒度归因的重要性,但信号来源仍局限于人工标注、外部 PRM 或静态标签。
##### 过程监督的 RL 与细粒度归因。
最近的工作将过程监督直接整合到 RL 中,而不仅仅将其用作独立验证器——例如,通过前缀分离、错误区域惩罚或注意力引导更新以提高策略更新精度(Liu et al., 2026; Yao et al., 2026; Pronesti et al., 2026; Liang et al., 2026; Nie et al., 2026)。这些方法表明过程级信号可以直接改善局部更新质量,但它们仍依赖显式的错误边界、步骤标签或独立 PRM——信号来源从根本上说是外源性的。
##### 自我修正、自我验证与基于修复的推理。
另一部分工作研究模型是否可以通过修正和验证来改善推理,包括 Self-Refine(Madaan et al., 2023)、Reflexion(Shinn et al., 2023)、SCoRe(Kumar et al., 2024)、S2R(Ma et al., 2025)和自我奖励修正(Xiong et al., 2025)。这些方法表明模型可以生成有价值的内部反馈以提高输出质量。然而,它们主要针对推理时修正,并未系统解决如何将修正差异组织为训练时过程监督的问题——IOP 正好填补了这一空白。
##### 与本文的关系。
上述工作流分别确立了结果监督 RL、外源性过程监督和自我修正的有效性。本文解决了一个正交维度:在 RL 训练期间将模型自身的修正能力组织为持续改进的内部过程监督,从而无需外部步骤标注或独立 PRM 即可实现细粒度信用分配。IOP 与上述任何工作流互补——例如,外源性 PRM 可以初始化修复参考或过滤低质量修复。
## 3 方法
**(a) 现有:结果监督**
$z_1, z_2, z_3, z_4, z_5, z_6, z_7, z_8$
$r=0$
均匀负梯度 $\nabla^-$
无法区分正确与错误 token
内化 序列级 $\rightarrow$ token 级
**(b) 新视角:将结果内化为过程监督**
失败: $y_1, y_2, y_3, y_4, y_5, y_6, y_7, y_8$
$r=0$
修复: $\tilde{y}_1, \tilde{y}_2, \tilde{y}_3, \tilde{y}_4, \tilde{y}_5, \tilde{y}_6, \tilde{y}_7, \tilde{y}_8$
$r=1$
对齐门控 $g_t$: 0 0 0 1 1 0 0 1
仅在差异位置施加梯度
内化的 token 级过程监督
**(c) 新范式**
策略模式 $\pi_\theta$
分割 Cor/Err $\mathcal{G}_{\text{cor}}/\mathcal{G}_{\text{err}}$
修复模式 $\rho_\theta$
审计门控 $\mathcal{M}_{\text{audit}}$
$\mathcal{B}_{\text{rep}}$
对齐 + 截断 $g_t$
$\mathcal{B}_{\text{pol}}$
联合更新 $\theta$
$\mathcal{J}_{\text{IOP}} = \mathcal{J}_{\text{GSPO}} + \lambda \mathcal{J}_{\text{rep}}$
$G'(y+a(y,\tilde{y}))$
$g_t$
协同强化:策略↑ $\rightarrow$ 参考质量↑ $\rightarrow$ 修复精度↑ $\rightarrow$ 门控焦点↑ $\rightarrow$ 策略↑
**图 2:** 将结果监督内化为过程监督。现有范式 $\rightarrow$ 新视角 $\rightarrow$ 新范式。
##### 概述。
我们将提出的方法称为 **IOP**(*Internalizing Outcome Supervision into Process Supervision*,将结果监督内化为过程监督),包含三个核心步骤:(i) 选择可修复的失败轨迹,(ii) 通过修复模式生成内部过程监督,以及 (iii) 通过截断门控将过程信号反馈到策略更新中。门控机制与外部优化器解耦,可以嵌入到任何组比较算法中,如 GRPO、GSPO 或 RLOO;我们以 GSPO(Zheng et al., 2025a)作为外部优化器实例化 IOP,得到 **IOP-GSPO**。
单个共享参数 $\theta$ 的模型承担两个角色:
1. **策略模式** $\pi_\theta(\mathbf{y}|x)$,生成推理轨迹 $\mathbf{y}=(y_1,\ldots,y_T)$ 并接收二元评分 $r(x,\mathbf{y}) \in \{0,1\}$;
2. **修复模式** $\rho_\theta(\tilde{\mathbf{y}}|x,\mathbf{y},a)$,以失败轨迹 $\mathbf{y}$ 和参考 $a$ 为条件产生修复 $\tilde{\mathbf{y}}$。
二元奖励在序列级缺乏区分度,但修复-对齐流水线将其转化为 token 级差异信号。参数共享避免了额外的模型开销,并确保修复能力与策略同步提升:更强的策略产生更集中的错误,从而带来更精确的修复和更聚焦的门控。
### 3.1 IOP-GSPO:冷启动与联合优化
IOP 分为两个阶段:阶段 1 通过冷启动 SFT 赋予模型基本修复能力;阶段 2 通过联合 RL 持续将失败轨迹转化为过程监督并反馈给策略。
#### 3.1.1 阶段 1:通过 SFT 获取修复能力
我们首先构建一个包含 500 个示例的冷启动修复数据集 $\mathcal{D}_{\text{rep}}^0 = \{(x,\mathbf{y},a,\mathbf{y}^*)\}$...相似文章
通过过程监督改进数学推理
OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。
ATTNPO: 用于高效推理的注意力引导过程监督
ATTNPO 引入了一个注意力引导的过程监督框架,通过利用内在的注意力信号进行步级信用分配,减少大型推理模型的过度思考,在 9 个基准测试中实现了更好的性能和更短的推理长度。
ICRL:通过强化学习内化自我批判
本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。
AIPO:通过与主动交互学习推理
本文介绍了 AIPO,一种强化学习框架,通过允许模型在探索过程中主动咨询协作智能体,从而克服能力边界,提升大语言模型的推理能力。
@Ankur_Samanta_: 在多步推理强化学习后训练中关于信用分配的新工作 介绍自重置策略优化 (SRPO…
自重置策略优化 (SRPO) 通过在多步推理强化学习后训练中定位第一个错误的推理步骤并从中学习反事实延续,而无需外部监督,来解决信用分配问题。