最弱一环说明一切:通过可学习信用分配的结果监督过程奖励建模

arXiv cs.LG 论文

摘要

本文提出通过可学习信用分配的结果监督过程奖励建模(LCA),一个在最弱一环原则下联合学习信用分配和奖励建模的框架,将其形式化为一个使用Softmax加权和池化的多实例学习问题。实验表明,它在多个任务上优于现有的结果监督过程奖励模型(PRMs)。

arXiv:2606.27739v1 Announce Type: new 摘要:过程奖励模型(PRMs)通过提供细粒度反馈增强了大型语言模型(LLMs)的推理能力,但训练PRMs通常需要昂贵的逐步标注。结果监督PRMs通过仅从最终答案正确性学习提供了一种可扩展的替代方案,但这引入了根本性的*信用分配*挑战,即将结果归因于负责的推理步骤。现有方法依赖于均匀或因果分配,这两种方法都未能将信用锚定在步骤正确性上,从而阻碍了过程错误识别。 在这项工作中,我们提出了通过**L**earnable **C**redit **A**ssignment(**LCA**)的结果监督过程奖励建模,这是一个在最弱链接原则(*最弱链接分配:推理链的强度取决于其最薄弱的环节*)下联合学习信用分配和奖励建模的结果监督PRM框架。为了解决信用分配和奖励建模之间的相互依赖,我们将结果监督PRM形式化为一个多实例学习(MIL)问题,并引入了Softmax加权和(SWS)池化,这是一种针对推理状态之间强依赖性和冗余性量身定制的MIL池化技术。我们在温和假设下证明了算法的贝叶斯一致性。大量实验表明,**LCA**在多个任务和骨干网络上持续优于最先进的结果监督PRMs。代码可在 https://anonymous.4open.science/r/LCA 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:25

# 最弱链揭示一切:通过可学习信用分配实现结果监督的过程奖励建模 来源:https://arxiv.org/html/2606.27739 田宇佳1,2,3\*, 岳芳1,2,3\*, 丁鸿鑫1,2,3, 邱日宏1,2,3, 杨志邦1,2,3, 吴志静4, 初旭2,3,5†, 赵俊峰2,3†, 王亚沙1,3,6† 1北京大学软件工程国家工程研究中心,北京,中国 2北京大学计算机科学与技术学院,北京,中国 3高可信软件技术教育部重点实验室,北京,中国 4广电运通金融电子股份有限公司,广州,中国 5北京大学计算前沿研究中心,北京,中国 6北京大学信息技术研究院(天津滨海),天津,中国 \{jiatianyu,yuefang25\}@stu\.pku\.edu\.cn, \{chu\_xu, zhaojf, wangyasha\}@pku\.edu\.cn ###### 摘要 过程奖励模型(PRMs)通过提供细粒度反馈增强了大型语言模型(LLMs)的推理能力,但训练PRMs通常需要昂贵的逐步骤标注。结果监督的PRMs通过仅从最终答案正确性中学习提供了一种可扩展的替代方案,但这引入了一个基本的*信用分配*挑战,即将结果归因于负责的推理步骤。现有方法要么依赖于均匀分配,要么依赖于因果分配,这两种方法都无法将信用锚定在步骤正确性上,从而阻碍了过程错误识别。在这项工作中,我们提出了通过**可学习信用分配的结果监督过程奖励建模**(LCA),这是一个结果监督的PRM框架,在*最弱链分配:推理链的强度取决于其最弱的一环*原则下联合学习信用分配和奖励建模。为了解决信用分配和奖励建模之间的相互依赖关系,我们将结果监督的PRM形式化为一个多实例学习(MIL)问题,并引入了Softmax-Weighted-Sum(SWS)池化,这是一种专为推理状态之间的强依赖性和冗余性设计的MIL池化技术。我们在温和假设下证明了我们算法的贝叶斯一致性。大量实验表明,LCA在多个任务和骨干网络上持续优于最先进的结果监督PRM。代码可在https://anonymous.4open.science/r/LCA获取。

最弱链揭示一切:通过可学习信用分配实现结果监督的过程奖励建模 田宇佳1,2,3\*, 岳芳1,2,3\*, 丁鸿鑫1,2,3, 邱日宏1,2,3, 杨志邦1,2,3, 吴志静4, 初旭2,3,5†, 赵俊峰2,3†, 王亚沙1,3,6† 1北京大学软件工程国家工程研究中心,北京,中国 2北京大学计算机科学与技术学院,北京,中国 3高可信软件技术教育部重点实验室,北京,中国 4广电运通金融电子股份有限公司,广州,中国 5北京大学计算前沿研究中心,北京,中国 6北京大学信息技术研究院(天津滨海),天津,中国 \{jiatianyu,yuefang25\}@stu\.pku\.edu\.cn, \{chu\_xu, zhaojf, wangyasha\}@pku\.edu\.cn 11footnotetext:平等贡献。22footnotetext:通讯作者。

## 1 引言

过程奖励建模(PRM)在大型语言模型(LLMs)的推理密集型任务中扮演着关键角色,例如数学问题求解(Shao et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib43)); Yu et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib44)))和代码生成(Li et al. (2025 (https://arxiv.org/html/2606.27739#bib.bib57)); Zhang et al. (2025a (https://arxiv.org/html/2606.27739#bib.bib58)))。与仅评估最终答案的结果奖励模型(ORMs)(Cobbe et al. (2021 (https://arxiv.org/html/2606.27739#bib.bib40)))不同,PRMs(Wang et al. (2024c (https://arxiv.org/html/2606.27739#bib.bib2)); Lightman et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib1)); Luo et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib3)))评估每个中间推理步骤的正确性,提供密集的、步骤级别的信号,从而增强测试时缩放(Wang et al. (2024c (https://arxiv.org/html/2606.27739#bib.bib2)); Snell et al. (2025 (https://arxiv.org/html/2606.27739#bib.bib41)))和强化学习(Setlur et al. (2025 (https://arxiv.org/html/2606.27739#bib.bib25)); Cheng et al. (2026 (https://arxiv.org/html/2606.27739#bib.bib24)))。然而,训练PRMs需要步骤级别的正确性标签,而从人类收集这些标签的成本高得令人望而却步(Lightman et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib1)))。一个自然的替代方案是使用最终答案正确性作为真实标签监督,这种标签易于验证且广泛可用。为了从这个轨迹级别的信号中恢复步骤级别的奖励,必须解决一个*信用分配*问题:将轨迹级别的正确性归因于导致它的步骤。这种设置被称为*结果监督的PRM*。

参见图注
图1:不同信用分配策略的示意图。

现有方法主要分为两种视角。
- • **通过加性聚合的均匀分配**:如图1(a)所示,这一路线(Chen et al. (2025 (https://arxiv.org/html/2606.27739#bib.bib42)); Yuan et al. (2025 (https://arxiv.org/html/2606.27739#bib.bib28)))通过求和或平均将步骤级别得分聚合成一个轨迹得分以进行优化。因此,每个步骤获得相同的信用,无论哪个步骤实际对结果负责。
- • **通过展开估计的因果分配**:如图1(b)所示,这一路线(Wang et al. (2024c (https://arxiv.org/html/2606.27739#bib.bib2)); Luo et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib3)); Guan et al. (2025 (https://arxiv.org/html/2606.27739#bib.bib23)))通过蒙特卡洛估计到达正确最终答案的概率来为每个步骤伪标注。因此,每个步骤的得分反映的是其下游展开的期望成功与否,而不是其自身的正确性,这使得实际错误难以定位。这种估计进一步依赖于展开策略和采样设计,可能引入偏差和噪声。

这两种方法有一个共同的缺陷:**没有根据每个步骤实际是否正确来分配信用**。均匀分配将每个步骤同等对待;因果分配让步骤的得分取决于它之后的内容。我们提议将信用分配直接锚定在步骤正确性上,借鉴一个长期存在的直觉:一个推理链的强度取决于其最弱的一环(Prasad et al. (2023 (https://arxiv.org/html/2606.27739#bib.bib47)); Jacovi et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib49)); Li et al. (2023 (https://arxiv.org/html/2606.27739#bib.bib48)); Gilda and Gilda (2026 (https://arxiv.org/html/2606.27739#bib.bib46)))。一个链是正确的当且仅当每一步都是正确的,而只要任何一步错误它就是错误的。我们将此称为**最弱链分配**(图1(c))。根据这一原则进行训练直接针对PRM评估和应用中广泛采用的首错误准则(Cheng et al. (2026 (https://arxiv.org/html/2606.27739#bib.bib24)); Lightman et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib1)); Zheng et al. (2025 (https://arxiv.org/html/2606.27739#bib.bib35))),从而缩小训练-测试差距,并产生一个能够准确将信用归因于决定结果的步骤的PRM。

然而,将这一原则应用于训练面临一个**鸡生蛋蛋生鸡的困境**:将信用分配给特定步骤需要知道哪个步骤是错误的,而识别错误步骤正是PRM正在训练的任务。**信用分配**和**奖励建模**因此相互依赖。

为了解决这一挑战,我们提出了**通过可学习信用分配的结果监督过程奖励建模(LCA)**,一个联合学习信用分配和奖励建模的结果监督PRM框架。通过结构约简,我们将结果监督的PRM形式化为一个多实例学习(MIL)问题(Waqas et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib55))):每个轨迹前缀是一个“实例”,整个轨迹是一个“包”(即一组实例),而最弱链原则就是标准多实例假设的逐字复述。这种形式化将结果监督的PRM置于有原则的MIL框架内,该框架在包级监督下联合学习实例分类和包到实例的归因,从而消解了信用分配和奖励建模之间的鸡生蛋蛋生鸡困境。通过Softmax-Weighted-Sum (SWS) 池化,我们解决了主流MIL方法在实例间依赖性和冗余性下的退化问题,并将平滑的最弱链分配作为结构先验嵌入,从而得到一个在实例级别上贝叶斯一致的学习目标。

总结来说,我们的贡献有三点:
- • **洞察性**:通过对现有结果监督PRM方法的系统分析,我们识别出一个共同的缺陷:无论是**均匀分配**还是**因果分配**,都没有将信用锚定在步骤正确性上。我们提出**最弱链分配**作为有原则的替代方案,从而产生能够准确将信用归因于导致结果的步骤的PRM。
- • **技术性**:我们提出了**LCA**,一个结果监督的PRM框架,它(1)**将结果监督的信用分配形式化为一个多实例学习(MIL)问题**,基于最弱链原则;(2)**引入Softmax-Weighted-Sum (SWS) 池化**,一种自适应地对推理步骤重新加权并将平滑的最弱链分配作为结构先验嵌入的MIL池化技术,解决了主流MIL方法在实例间依赖性和冗余性下的退化问题;以及(3)**证明**了所得学习目标在实例级别上的贝叶斯一致性。
- • **实验性**:在错误识别和Best-of-N测试时缩放任务上,**LCA在多个LLM骨干网络和生成器模型上持续优于当前最先进的结果监督PRM基线**。消融研究进一步验证了SWS池化相对于广泛使用的MIL池化技术的有效性,并刻画了温度参数的作用。

## 2 预备知识

### 2.1 多实例学习

多实例学习(MIL)是一种弱监督学习方法,专为只有粗粒度标签可用但需要细粒度分类的设置而设计。MIL假设实例和包的分层结构。令 \(\mathcal{X}\) 为实例空间。一个包 \(B\) 是实例 \(x_i \in \mathcal{X}\) 的有限集合。包空间为 \(\mathcal{B}\),数据分布 \(\mathbb{P}\) 定义在 \(\mathcal{B}\) 上。在标准的二元MIL设置中,每个实例和每个包都有一个标签 \(y \in \{0,1\}\)(0 = 负例,1 = 正例)。实例标签不可观测;只有包标签给定。给定一个从 \(\mathbb{P}\) 中抽取的训练集 \(D = \{\langle B^k, y(B^k) \rangle\}_{k=1}^K\),目标是学习一个实例级别的分类器 \(f: \mathcal{X} \to [0,1]\)。大多数MIL算法依赖于**标准多实例假设**(Foulds and Frank (2010 (https://arxiv.org/html/2606.27739#bib.bib53))):

###### 假设2.1(标准多实例假设)。一个包是正的当且仅当它至少包含一个正实例:
\[
y(B) = \max\{y(x_1), \dots, y(x_n)\}, \quad \forall B = \{x_1, \dots, x_n\} \in \mathcal{B}.
\]

这一假设在许多现实应用中成立,例如长时间序列或全切片图像(WSIs)中的异常检测(Xu et al. (2014 (https://arxiv.org/html/2606.27739#bib.bib6)); Early et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib7)))。异常通常出现在局部区域,但标签却分配给整个输入。此类情况下MIL的目标是精确定位异常位置。

现代MIL方法主要是基于池化的。这些方法开发实例级别的分类器,并使用池化函数将实例预测聚合成包级别预测。标准监督学习通过包级别预测进行优化,通常使用交叉熵损失:
\[
L_{CE}\Big(y(B), \text{Pool}(\{p_1, \dots, p_n\})\Big),
\]
其中 \(p_1, \dots, p_n\) 是实例预测,\(\text{Pool}\) 是池化函数。通过这种方式,实例分类和包到实例的归因以端到端的方式联合优化。MIL池化技术的更详细讨论见附录B (https://arxiv.org/html/2606.27739#A2)。

### 2.2 过程奖励模型

#### 推理轨迹。
一个推理轨迹 \(\tau\) 由一个问题 \(q\) 后跟一系列步骤 \(s_1, \dots, s_T\) 组成:
\[
\tau := \langle q, s_1, \dots, s_T \rangle,
\]
其中每个步骤基于问题和之前的所有步骤推进推理。¹¹一个不完整的轨迹称为**前缀**:
\[
\tau_{:t} := \langle q, s_1, \dots, s_t \rangle, \quad t \leq T.
\]

#### 推理前缀的正确性。
如果一个推理步骤的结论是错误的或者不能从前面的上下文中推导出来,则该步骤存在逻辑错误。一旦发生这样的错误,后续步骤就会继承该错误,使得它们各自的正确性定义不明确(Lightman et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib1)))。因此,我们将正确性标签分配给前缀,而不是孤立的步骤。形式上,定义前缀 \(\tau_{:t}\) 的正确性为
\[
y(\tau_{:t}) \in \{0,1\},
\]
其中 \(1\) 表示 \(\tau_{:t}\) 包含逻辑错误(正例),\(0\) 表示无错误(负例),与标准的MIL约定一致。根据这个定义,错误单调性立即成立:
\[
y(\tau_{:t+1}) \geq y(\tau_{:t}), \tag{1}
\]
因为任何错误前缀的扩展仍然是错误的。因此,完整轨迹的正确性为
\[
y(\tau) = y(\tau_{:T}) = \max\{y(\tau_{:1}), \dots, y(\tau_{:T})\}, \tag{2}
\]
这正是最弱链分配。

#### 过程奖励建模。
过程奖励建模学习一个分类器 \(f\),将每个前缀映射到一个正确性分数:\(f(\tau_{:t}) \in [0,1]\),目标是使 \(f(\tau_{:t}) \approx y(\tau_{:t})\)。这等价于**首错误检测**(Lightman et al. (2024 (https://arxiv.org/html/2606.27739#bib.bib1)); Zheng et al. (2025 (https://arxiv.org/html/2606.27739#bib.bib35))):\(f\) 首次指示错误的前缀标识了导致失败的最早步骤。

## 3 分析

参见图注
图2:LCA 概览。PRM 输出每个前缀的错误概率 \(\mathbf{p}\),然后通过 Softmax-Weighted-Sum (SWS) 池化进行聚合。PRM 通过轨迹级别的交叉熵损失进行端到端训练。

### 3.1 过程奖励建模作为多实例学习

在最弱链原则下,我们将结果监督的过程奖励建模形式化为一个多实例学习(MIL)问题:

- • **数据结构**:

相似文章

无监督过程奖励模型

Hugging Face Daily Papers

本文提出无监督过程奖励模型(uPRM),通过利用LLM的下一个令牌概率识别错误推理步骤,从而消除人工标注需求,在准确率上相比LLM-as-a-Judge提升高达15%,并且作为验证器和奖励信号时表现与有监督PRM相当。

通过反事实推理路径减少信用分配方差

arXiv cs.LG

提出隐式行为策略优化(IBPO),一种基于反事实比较的信用分配框架,通过将稀疏的终端奖励转化为对步骤敏感的学习信号,提升了大型语言模型在多步推理任务中的训练稳定性和性能。