用于校准概率预测的可验证奖励

arXiv cs.LG 2026/07/02 04:00 论文

摘要

该论文提出了一种可验证的无标签奖励，用于通过强化学习训练校准的概率预测器，避免了因奖励单个结果而导致的校准退化。应用于NFL胜率预测，使用该奖励训练的7B模型达到了与博彩市场相当的校准水平。

arXiv:2607.00164v1 公告类型：新提交摘要：具有可验证奖励的强化学习原则上可以训练校准的概率预测器，因为像布里尔分数这样的适当评分规则仅从结果中计算，并且期望值由真实概率最小化。在实践中，它会退化校准，而现有的补救措施处理认知不确定性，即模型的置信度伴随着可验证的正确或错误答案。我们研究偶然性预测，其中预测本身是输出，标签是一个随机结果，以NFL比赛中胜率作为测试平台，博彩市场作为参考。对实现的每次比赛结果进行奖励会失败，因为单个结果是噪声目标，策略梯度会破坏思维链。我们引入一种可验证、无标签的奖励——基于过去结果估计的状态条件经验胜率——它消除了标签噪声，并且我们通过直接预测或梯度掩码使梯度远离推理，从而不会被破坏。仅使用这种奖励进行训练，无需人工标签或监督微调，一个7B模型通过直接预测达到了博彩市场的校准水平，且比零样本前沿模型校准得更好。该前沿模型和一个表格估计器达到了与该模型相同的布里尔分数，将市场剩余的小优势识别为超越它们共享输入的实时比赛信息。使用梯度掩码而不是丢弃思维链，可以保留预测所依据的推理，而普通的思维链训练会破坏推理。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:36

# 面向校准概率预测的可验证奖励
来源：https://arxiv.org/html/2607.00164
###### 摘要

从原则上讲，使用可验证奖励的强化学习可以训练校准的概率预测器，因为诸如Brier分数之类的适当评分规则仅根据结果计算，并在期望意义上由真实概率最小化。但在实践中，它会降低校准效果，而现有的补救措施处理的是认知不确定性，即模型的置信度伴随着一个可验证正确或错误的答案。我们研究的是偶然性预测，其中预测本身是输出，而标签是一个随机结果，我们以NFL比赛中的获胜概率作为测试平台，并以博彩市场作为参考。对实际发生的单次比赛结果进行奖励的方法会失败，因为单个结果是一个有噪声的目标，并且策略梯度会破坏推理链。我们引入了一个可验证的、无标签的奖励——根据过去结果估计的状态条件经验胜率——它消除了标签噪声，并且我们通过直接预测或梯度掩码将梯度从推理中移除，使其不会被破坏。仅使用这种奖励进行训练，无需人工标签或监督微调，一个7B模型通过直接预测达到了博彩市场的校准水平，并且比零样本前沿模型校准得更好。该前沿模型和一个表格估计器达到了与该模型相同的Brier分数，这表明市场剩余的小优势是它们共享输入之外的实时比赛信息。使用梯度掩码（而不是丢弃推理链）保留了推理过程，而普通的链式推理训练则会破坏这种推理，使得预测从推理中得出。

## 1 引言

游戏状态：得分、时间、分差

天真方法：对结果奖励，训练整个完成内容
推理链：P = 88%
单个结果：y ∈ {0,1}，一个带噪声的伯努利样本
奖励：r = 1 - (p - y)²
对整个完成内容应用策略梯度：推理被破坏，过度自信

我们的方法：奖励比率，训练答案部分
推理链：P = 61%
经验比率：p̂(x)，相似状态下的胜率
奖励：r = 1 - (p - p̂)²
仅对答案部分应用梯度：推理得到保留，校准到市场水平

图 1：相同的游戏状态，两种训练7B模型以应对结果的方法。奖励单个实际发生的结果并更新整个完成内容会导致推理链给出极端、过度自信的数字。奖励状态条件经验胜率 p̂(x) 并将梯度限制在答案部分，则保持推理完整，并将预测器校准到博彩市场，无需人工标签和监督微调。

使用可验证奖励的强化学习（RLVR）根据从观察到的结果计算出的奖励来对语言模型进行后训练[1,2]。校准的概率预测是其自然目标：适当的评分规则（如Brier分数）仅根据结果计算，并在期望意义上由真实概率最小化[3,4]，因此优化它应该产生概率与观察频率匹配的预测。

在实践中，强化学习却产生了相反的效果，降低了校准效果并使模型过度自信，无论奖励是来自人类反馈[5]还是可验证的正确性信号[6,7]。纠正这一问题的现有工作处理的是认知不确定性，即模型回答一个有正确答案的问题，目标是校准的置信度，表明答案正确[8,6]。

第二种不确定性尚未得到处理。它是偶然性的：输出本身就是一个概率，而标签是随机事件的单个实际结果，没有可以被认为是正确的答案。NFL比赛中的获胜概率就是一个明显的例子。在比赛中的任何时刻，预测者给出控球队获胜的概率；实际实现的结果是从某个比率中提取的一个伯努利样本，没有模型能直接观察到该比率；而博彩市场提供了该比率的强有力且独立的估计。RLVR能否在这种机制下训练出一个校准的预测器，以及什么导致了它的失败，尚未被研究。

针对每次比赛Brier分数的强化学习通过两种机制使这种预测器失准。一场比赛的标签是单个实际结果，是从被估计的比率中提取的一个样本，因此针对它的奖励具有高方差，并将策略拉向实际发生的结果。当模型在回答之前用语言进行推理时，出现了第二个问题：优化最终概率重写了推理，使其变成不连贯的论证。我们通过奖励一个根据过去结果估计的状态条件经验胜率（一个可验证且无标签的目标）来消除方差，并通过直接预测或对答案 token 应用梯度掩码将策略梯度从推理中移除（图1）。我们训练 Qwen2.5-7B-Instruct，无需监督微调，并在保留赛季上针对博彩市场、前沿模型和经验比率表进行评估。

通过直接预测训练的模型在保留比赛上与博彩市场的校准相匹配，期望校准误差（ECE）为 0.029，而市场为 0.027，且比零样本前沿模型校准得更好，无需人工标签，也无需访问市场。在 Brier 分数上，它与前沿模型和一个表格估计器（公共游戏状态所允许的极限）相匹配；市场剩余的小优势是它们都无法看到的实时比赛信息。使用梯度掩码而不是丢弃推理，可以保持推理链的忠实性，将所述概率不遵循推理的比例从 22.4% 降低到 4.4%，但锐度略有损失。

#### 贡献。

1. 1. 我们的奖励——根据实际结果估计的状态条件经验胜率——是可验证且无标签的，并取代了单个实际结果（其方差使每次比赛 Brier 训练失准）；在保留比赛上，它的 Brier 分数与博彩市场的差距在 0.007 以内（第 4.1 节）。
2. 2. 强化学习通过推理链上的梯度（而非通过奖励）使预测器失准：使用比率目标，训练整个完成内容使保留集的 ECE 从 0.19 增加到 0.30，而将梯度限制在答案部分（通过直接预测或答案跨度掩码）则使其接近市场水平（第 4.2 节）。
3. 3. 在丢弃推理链的情况下，模型达到了公共游戏状态的信息上限：它与博彩市场的校准相匹配（0.029 对比 0.027 ECE），比零样本前沿模型校准得更好，并且达到与前沿模型和表格比率估计器相同的 Brier 分数，将市场的优势归因于实时比赛信息（第 6 节）。

## 2 相关工作

强化学习提高了准确性，但降低了校准效果，使模型过度自信。Leng 等人 [5] 将其归因于人类反馈下奖励模型偏好自信的答案。Ma 等人 [6] 在可验证奖励下识别出准确性和校准梯度之间的冲突，并通过掩码梯度更新将两者解耦。Bereket 和 Leskovec [7] 将二元随机结果上的过度自信归因于群体相对优势中的标准差归一化，并移除了它。这些分析将实际结果作为目标。使用去噪的条件比率目标，我们反而发现归一化是必要的，并且过度自信是由推理上的梯度驱动的，而不是由优势驱动的。

第二类方法对口头表达的置信度奖励一个适当的评分规则。Damani 等人 [8] 在正确性奖励中添加了 Brier 分数项，Bani-Harouni 等人 [9] 使用了对数分数，Band 等人 [10] 奖励下游阅读器的准确性。这些是对正确或错误答案的置信度进行评分。我们的做法是针对预测本身，根据状态条件经验比率进行评分，其中标签是单个随机结果，正确性未定义。

语言模型也被训练和评估为事件预测器。Halawi 等人 [11] 通过检索和聚合接近人类群体的准确性，Pratt 等人 [12] 发现提示策略无法产生校准的预测。Turtel 等人 [13] 在预测市场和新闻问题上奖励实际结果，Turtel 等人 [14] 对自生成的预测与结果进行排名。两者都在保持推理链并奖励结果的同时提高了校准，而我们奖励条件比率并对推理应用梯度掩码。Paleka 等人 [15] 和 Karger 等人 [16] 记录了此类评估中的时间泄漏，我们通过基于解决的比赛进行赛季分离的评估来避免这一点。

我们的训练是在群体相对优化中的一种信用分配选择 [1]。DAPO [17] 和 GPG [18] 移除了 KL 惩罚和参考模型，我们也这样做。Zhang 等人 [19] 分析了当梯度集中在少数 token 上时 KL 估计器的不稳定性。Wang 等人 [20] 将更新限制在高熵 token 上，Wang 等人 [21]、Tan 等人 [22] 区分对待推理 token 和答案 token。我们的答案跨度掩码根据 token 角色限制梯度。

NFL 的获胜概率估计范围从随机森林 [23] 到 nflverse 流程中的提升模型 [24,25]，我们将其作为静态基线。Brill 等人 [26] 表明，逐场比赛数据限制了任何此类模型的准确性，这与我们将市场优势解释为结构性的一致。Polson 和 Stern [27] 将点差视为隐含波动率。众所周知，博彩市场比统计模型或个人投注者更准确地预测结果 [28,29,30,31]。我们按照 Štrumbelj [32] 的方法将市场赔率转换为概率，并仅将其用作参考。

## 3 设置与背景

我们预测美式足球比赛中的获胜概率。给定一次比赛的状态包括比分差、节次和剩余时间、档数和距离、场上位置、控球队以及公开的赛前点差。预测器返回一个单一概率，表示控球队获胜的概率。我们从国家橄榄球联盟常规赛比赛中提取状态，并按赛季划分：在 2015 年至 2022 年上训练，在 2023 年上选择，在 2024 年上测试，这样任何比赛都不会出现在超过一个分区中。提示中唯一的市场信号是赛前点差，它在开球前已确定且是公开的；市场在比赛期间引用的实时获胜概率对模型和奖励均不可见，仅在评估时进入。

输出是一个概率，而标签是随机事件的单个实际结果。这将该任务与强化学习中通常研究的校准问题区分开来，后者中模型回答一个有正确答案的问题，感兴趣的量是其对答案正确的置信度 [8,6]。那种不确定性是认知性的，更强的模型原则上可以减少它。这里的不确定性是偶然性的：给定状态，结果是随机的，没有预测器可以消除它。因此，校准的目标是条件获胜率 η(x) = Pr(win | x)，而不是答案的正确性。

我们通过预测的概率与观察到的频率的接近程度来衡量预测器。Brier 分数，即预测 p 与结果 y ∈ {0,1} 之间的均方误差 (p - y)² [3]，是严格适当的：在所有关于状态的函数中，其期望值由 η(x) 唯一最小化 [4]。它可分解为可靠性、分辨率和不确定性 [33]。可靠性就是校准，即所述概率与实现频率之间的一致性；分辨率是锐度，即预测在不同结果率状态上的分散程度；不确定性由基率固定。由于两个预测器可以具有相同的校准但仅通过分辨率在 Brier 分数上有所差异，我们单独报告校准，通过期望和最大校准误差以及可靠性图 [34,35,36]。我们使用基于比赛的对偶自助法 [37] 比较预测器。校准误差还测试训练是否找到了 η 而不是记住了训练结果，因为记住结果的模型在保留比赛上会失准。

我们将博彩市场视为上限：它针对每个状态引用实时获胜概率，并且比基于比赛特征构建的统计模型更准确地预测结果 [28,29]。我们将其赔率转换为概率 [32]。然后，预测器与市场之间的差距衡量了公共状态所缺乏的实时比赛信息。

## 4 方法

我们使用群体相对强化学习对预测器进行后训练，根据状态条件胜率估计值而不是实际结果来计算奖励，并将策略梯度限制在携带答案的 token 上，而不是整个完成内容。

### 4.1 条件比率奖励

理想的奖励将根据真实比率 η(x) 对每个预测进行评分，但 η(x) 从未

用于校准概率预测的可验证奖励

相似文章

校准偏好学习：以标签排序为例

分布过程奖励模型：通过条件最优传输校准未来奖励的预测

概率校准是大语言模型中的一项可训练能力

PEBS: 每个评分者的经验贝叶斯收缩用于RLHF奖励模型校准

校准评估者：概率校准能否缓解LLM代理反馈循环中的偏好耦合？

提交意见反馈