结合学习可靠性的过程奖励

arXiv cs.CL 2026/05/18 04:00 论文

process-reward-model beta-distribution reliability reasoning step-level-feedback best-of-n token-optimization

摘要

BetaPRM 是一种过程奖励模型，它使用来自蒙特卡洛延续的 Beta 信念来预测步骤级的成功概率以及该预测的可靠性，从而实现自适应计算分配，在提高准确性的同时将 token 使用量减少高达 33.57%。

arXiv:2605.15529v1 公告类型：新摘要：过程奖励模型（PRM）为推理提供步骤级反馈，但当前的 PRM 通常仅为每一步输出一个单一的奖励分数。因此，下游方法必须将不完美的步骤级奖励预测视为可靠的决策信号，且没有关于何时应信任这些预测的指示。我们提出 BetaPRM，这是一种分布式的 PRM，它同时预测步骤级的成功概率以及该预测的可靠性。通过来自蒙特卡洛延续的步骤成功监督，BetaPRM 学习一个 Beta 信念，该信念通过 Beta-二项式似然解释观察到的成功延续次数，而不是将有限样本的成功比率回归为点目标。这个学习到的可靠性信号指示何时应信任步骤奖励，使下游应用能够区分可靠奖励和不确定奖励。作为一项应用，我们引入了自适应计算分配（ACA），用于 PRM 引导的 Best-of-N 推理。ACA 使用学习到的可靠性信号，在可靠的解决方案获得高奖励时停止，并在不确定的候选前缀上花费额外的计算。在四个主干和四个推理基准上的实验表明，BetaPRM 改进了 PRM 引导的 Best-of-N 选择，同时保持了标准的步骤级错误检测。基于此信号，ACA 改进了固定预算 Best-of-16 的准确率与 token 使用权衡，在提高最终答案准确率的同时将 token 使用量减少了高达 33.57%。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:32

# 基于学习可靠性的过程奖励

来源：https://arxiv.org/html/2605.15529

李金源¹，黄朗林¹，黄成松¹，徐少阳²，蔡东宏¹，杨宇毅¹，张文轩²，黄佳欣¹

¹华盛顿大学圣路易斯分校，²新加坡科技设计大学

{ljinyuan,jiaxinh}@wustl.edu

###### 摘要

过程奖励模型（PRMs）为推理提供步骤级反馈，但当前的PRMs通常只为每个步骤输出单一的奖励分数。因此，下游方法不得不将这些不完美的步骤级奖励预测视为可靠的决策信号，却没有任何指标表明何时应信任这些预测。我们提出 BetaPRM，一种分布式的PRM，它同时预测步骤级的成功概率以及该预测的可靠性。给定来自蒙特卡洛续写的步骤成功监督，BetaPRM 学习一个 Beta 信念，该信念通过 Beta-Binomial 似然函数解释观察到的成功续写次数，而不是将有限样本的成功率回归为点目标。这种学习到的可靠性信号指示何时应信任步骤奖励，使下游应用能够区分可靠奖励与不确定奖励。作为一项应用，我们提出了自适应计算分配（ACA），用于PRM引导的 Best-of-N 推理。ACA 利用学到的可靠性信号，在获得可靠的高奖励解决方案时停止，并为不确定的候选前缀分配额外计算。在四个基座模型和四个推理基准上的实验表明，BetaPRM 改进了PRM引导的 Best-of-N 选择，同时保持了标准的步骤级错误检测能力。基于此信号，ACA 相比固定预算的 Best-of-16 改善了准确率-令牌权衡，在提升最终答案准确率的同时，最多减少 33.57% 的令牌使用。

## 1 引言

过程奖励模型（PRMs）[14, 19, 31, 41, 43, 59, 61, 72, 73] 通过为解决方案的中间步骤评分，提供推理的步骤级反馈。由于这些步骤级分数可以指导候选选择[5, 21, 35] 和策略优化[12, 36]，PRMs已成为测试时扩展[2, 10, 30] 和强化学习[34, 70] 的有效接口。然而，现有的PRMs通常仅将该接口暴露为步骤正确性的单一点估计，例如步骤正确的概率。下游方法[17, 42, 71] 往往不得不将这个不完美的分数视为可靠的决策信号，因为没有其他可用信号。单一的PRM分数告诉我们模型偏好哪个步骤或候选，但并未说明这种偏好是否应被信任。结果，不可靠的分数可能直接影响下游决策，而不被识别为不确定。如图1所示，这种经典接口在测试时使用和训练监督两方面都存在不匹配：首先，单标量奖励无法捕捉中间步骤的预测不确定性。在推理时，因果PRM仅根据问题和当前前缀判断步骤，而不看到未来的续写[54, 57, 48]。即使没有明显的局部错误，一个看似正确的前缀能否导向正确的最终答案也是不确定的。更自然的PRM输出应同时包含成功概率的估计值以及该估计的不确定性。

参照图注

图1：BetaPRM的动机。从同一前缀重复蒙特卡洛续写可能产生不同的经验成功率。标准PRM将这些比率视为点目标，而BetaPRM则将前缀成功概率建模为Beta信念。Beta均值 μ 给出过程奖励，而集中度 κ 捕捉估计的可靠性，使得模型能对N次尝试中观察到K次成功的计数赋予似然，而非将K/N视为精确点标签。

其次，步骤级PRM标签通常是嘈杂的有限样本估计。一个常见的监督来源[61, 63, 65, 72] 是从推理前缀采样N个续写，并统计有多少个到达正确的最终答案。如果K个续写成功，经验比率K/N仅是前缀成功概率的蒙特卡洛估计，并非真实的潜在概率。由于采样随机性，从同一前缀重复该过程可能得到不同的K。然而，标准PRM训练[13, 14, 31] 仍将该观测比率回归为点标签，迫使模型用单一标量预测拟合嘈杂的有限样本结果。更好的目标应保持监督的计数形式：模型应为观察到N次续写中有K次成功赋予高概率，而不是仅仅回归到单一比率K/N。

在本文中，我们通过赋予PRM表达自身预测不确定性的能力来同时解决这两个局限性。一个有自信信念支持的步骤奖励，不应与在模糊性下产生的奖励同等对待。这促使我们提出BetaPRM，一种分布式的PRM，它能同时预测一个推理前缀有多有希望以及该预测有多可靠。如图2所示，BetaPRM预测前缀成功概率的Beta分布，并通过训练使该分布能解释从采样续写中得到的蒙特卡洛观测结果。该分布由两个参数化：(1) 预测的成功概率 μ，作为常规PRM分数；(2) 集中度 κ，控制信念围绕该预测的紧密程度。高集中度产生尖锐的信念，低集中度产生扁平的信念，能解释更广范围的蒙特卡洛观测结果。

学习到的集中度改变了PRM分数的使用方式。下游算法不再将每个标量奖励视为同等可信，而是可以区分自信的奖励和不确定的奖励。这对于PRM引导的决策制定广泛有用；在本文中，我们展示一个具体的测试时用例：用于 Best-of-N 推理的自适应计算分配（ACA）。固定预算的 Best-of-N [11, 33] 在每个问题上花费相同的推出预算，即使当前池中已包含一个PRM判断可靠的高分候选。ACA 通过渐进批次使用预算：当所选答案可靠地领先时停止，否则从不确定的前缀继续，这些前缀上更多计算可能改变决策。

实验表明，BetaPRM 在四个基座模型和四个基准上改进了PRM引导的 Best-of-N 选择（例如，在InternVL2.5-8B上平均提升 +3.37 点），同时保持了标准的步骤级错误检测能力。进一步分析显示，学习到的集中度提供了非平凡的可靠性信号。基于此可靠性信号，ACA 相比原始 Best-of-16 改善了推理时准确率-令牌权衡，减少最多 33.57% 的令牌使用，甚至提高了最终答案的准确率。

## 2 相关工作

#### 过程奖励模型。

PRMs [13, 56, 47, 29] 为推理提供步骤级反馈，不同于仅对最终答案评分的结果奖励模型 [11, 67]。先前的工作将PRM训练为步骤评判器用于局部错误检测 [63, 14]，或者训练为 Q值风格模型，估计一个前缀能否被正确完成 [13, 31]。我们关注后一种视角的一个局限性：蒙特卡洛续写提供了关于前缀成功的有有限样本证据，然而现有方法往往将这些证据压缩成单一点标签。我们的方法则使可靠性成为PRM输出的一部分，因此下游方法不仅可以利用预测的奖励，还可以利用其可信度。

#### 测试时扩展。

测试时扩展 [22, 53, 3, 58, 66] 通过花费更多推理计算来改善推理，包括投票 [64]、验证器引导的选择 [74] 以及推理路径搜索 [17]。一个常见且简单的实例是 Best-of-N [33]：采样多个候选解，然后使用验证器或奖励模型选择其中一个。大多数 Best-of-N 方法使用固定预算 [3]，为每个问题分配相同数量的采样，尽管问题难度差异很大。最近的方法 [49] 校准PRM成功估计以选择采样完整解的实例特定预算。相比之下，我们的方法在生成过程中利用BetaPRM的奖励和学习到的可靠性来决定何时停止，以及继续哪个不确定的前缀。

## 3 预备知识

### 3.1 前缀条件过程奖励

给定输入问题 \(x\)，令 \(s_{1:T} = (s_1, \ldots, s_T)\) 表示一步步的解答。我们在每个步骤后插入一个特殊的过程标记，PRM在每个标记位置产生一个分数：
\(x, s_1, \texttt{<reward>}, s_2, \texttt{<reward>}, \ldots, s_T, \texttt{<reward>}\)。
由于奖励模型是一个因果语言模型，第 \(t\) 个标记的分数是根据前缀 \(c_t = (x, s_{\leq t})\) 计算的，而不访问未来的步骤 \(s_{t+1:T}\)。这与PRM在生成或搜索中的在线使用相匹配，即在对部分推理状态的续写进行观测之前对其进行评估。因此，我们将过程奖励解释为前缀级别的量。我们不将步骤 \(t\) 分配一个孤立的正确性标签，而是将其质量定义为前缀成功概率 \(q_t = \Pr(\text{最终答案正确} \mid x, s_{\leq t})\)。由于 \(q_t\) 是一个隐变量，下一小节描述有限续写样本如何提供监督以学习该变量。

### 3.2 蒙特卡洛步骤监督

前缀成功概率 \(q_t\) 是一个未观测的隐变量。一种广泛使用的构建步骤级监督的方法是从前缀 \(c_t = (x, s_{\leq t})\) 采样 \(N\) 个续写，并统计有多少个到达正确的最终答案。令 \(K_t\) 表示成功续写的数量。经验比率 \(\hat{q}_t = K_t / N\) 是 \(q_t\) 的蒙特卡洛估计。标准PRM目标 [13, 31, 61, 62, 65, 72] 通常通过优化针对 \(\hat{q}_t\) 的交叉熵将该观测简化为单一点目标：
\[
\mathcal{L}_{\mathrm{CE}} = -\hat{q}_t \log p_t - (1 - \hat{q}_t) \log (1 - p_t),
\]
其中 \(p_t\) 是预测的步骤分数。这相当于将经验比率视为隐变量前缀成功概率本身。由于 \(\hat{q}_t\) 是从少量续写计算得到的，重复相同的过程可能产生不同的 \(K_t\)。因此，迫使模型学习单一点估计 \(\hat{q}_t\) 可能导致对样本噪声的过拟合。相反，更自然的做法是将监督视为计数观测（\(N\) 次试验中有 \(K_t\) 次成功）。

## 4 BetaPRM

参照图注

图2：Beta-Binomial 监督的直观理解。一个关于前缀成功的预测Beta信念会导出观察到的成功比率 \(K/N\) 的分布。绿色曲线集中且与观测计数对齐，橙色曲线集中但不对齐从而受到惩罚，灰色曲线集中度较低，允许更广范围的有限样本观测。

### 4.1 Beta-Binomial 计数模型

为了形式化基于计数的监督，我们假设成功续写的一个二项生成过程：
\[
K_t \mid q_t \sim \mathrm{Binomial}(N, q_t)。
\]
由于 \(q_t\) 是 \([0,1]\) 中未知的潜在成功概率，我们使用 Beta 信念对其进行建模：
\[
q_t \sim \mathrm{Beta}(\alpha_t, \beta_t)，
\]
这与上述二项计数观测自然配对。为了更好的可解释性，我们通过均值 \(\mu_t = \alpha_t / (\alpha_t + \beta_t)\) 和集中度 \(\kappa_t = \alpha_t + \beta_t\) 对 Beta 分布进行重新参数化。在此公式下，\(\mu_t\) 充当期望成功概率（标准PRM输出分数），而 \(\kappa_t\) 控制信念围绕该均值的集中程度。对隐变量 \(q_t\) 进行边际化，得到 \(K_t\) 的 Beta-Binomial 分布，它为计数观测提供了似然函数，而不是为 \(\hat{q}_t\) 提供点目标。

### 4.2 BetaPRM 参数化

BetaPRM 通过在每个过程标记处预测其均值和集中度来实例化 Beta 信念。在第 \(t\) 个标记处，语言模型产生一个隐藏状态 \(h_t\) 和词汇表 logits \(z_t\)。令 \(z_t^{\mathrm{Yes}}\) 和 \(z_t^{\mathrm{No}}\) 表示两个奖励标记 Yes 和 No 的 logits。我们通过仅在这两个 logits 上应用 softmax 来定义预测的成功概率：
\[
\mu_t = \frac{\exp(z_t^{\mathrm{Yes}})}{\exp(z_t^{\mathrm{Yes}}) + \exp(z_t^{\mathrm{No}})}.
\]

结合学习可靠性的过程奖励

相似文章

无监督过程奖励模型

分布过程奖励模型：通过条件最优传输校准未来奖励的预测

通过基于规则的奖励改进模型安全行为

C2：基于二元偏好的可扩展评分增强奖励建模

DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

提交意见反馈