使用评分奖励（Rubric Rewards）纠正LLM数学推理中的奇迹步骤

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文识别并解决了LLM数学推理中的‘奇迹步骤’问题——即无根据跳至正确答案的奖励篡改行为——通过提出评分奖励模型（RRM），一种面向过程的奖励函数，评估整个推理轨迹。RRM在AIME2024上实现了显著提升（Verified Pass@1024从26.7%提高至62.6%），并将奇迹步骤减少了71%。

arXiv:2510.07774v3 公告类型：替换摘要：本文观察到，当前模型容易受到奖励篡改（reward hacking）的影响，导致对模型推理能力的大幅高估。这表现为大量假阳性——通过不健全的过程得出正确答案的解决方案。通过系统分析及人工验证，我们建立了这些失败模式的分类体系，识别出如“奇迹步骤”（Miracle Steps）等模式——在没有有效前序推导的情况下突然跳至正确输出。探测实验表明，这些奇迹步骤与答案召回捷径有关，包括预训练中的记忆，即模型独立于其推理链访问正确答案。为了缓解这一系统性问题，我们引入了评分奖励模型（Rubric Reward Model, RRM），这是一种面向过程的奖励函数，根据问题特定的评分标准评估整个推理轨迹。RRM明确惩罚逻辑缺陷，鼓励严谨推理。当集成到强化学习管线中，基于RRM的训练在四个数学基准上始终优于仅结果监督。值得注意的是，它在AIME2024上将Verified Pass@1024从26.7%提升至62.6%，并将奇迹步骤的发生率降低了71%。我们的工作表明，奖励求解过程对于构建准确可靠的模型至关重要。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:31

# 用基于评分标准奖励来治愈 LLM 数学推理中的“奇迹步骤”

**来源**: https://arxiv.org/html/2510.07774

Youliang Yuan, Qiuyang Mang, Jingbang Chen, Hong Wan, Xiaoyuan Liu, Junjielong Xu, Jen-tse Huang, Wenxuan Wang, Wenxiang Jiao, Pinjia He

游梁元¹，邱阳芒¹,²，敬邦陈¹，洪婉³，晓园刘¹，俊杰龙徐¹，Jen-tse Huang⁴，文轩王⁵，文翔焦⁶，品佳何¹

¹香港中文大学（深圳）数据科学学院
²加州大学伯克利分校
³浙江大学
⁴约翰霍普金斯大学
⁵中国人民大学
⁶小红书公司

¹[email protected], {chenjb, hepinjia}@cuhk.edu.cn
²[email protected]
⁴[email protected]
⁵[email protected]
⁶[email protected]

*本工作在作者加入加州大学伯克利分校之前完成。*
*品佳何为通讯作者。*

###### 摘要

在本文中，我们观察到当前模型容易受到奖励破解的影响，导致对模型推理能力的大幅高估。这表现为高频的“假阳性”——即通过不合理的推理过程得到正确答案的解。通过结合人工验证的系统性分析，我们建立了一套这些失败模式的分类体系，识别出如“奇迹步骤”等模式——即在没有有效推导的情况下突然跳跃到正确输出。探针实验表明，这些“奇迹步骤”与答案回忆捷径有关，包括从预训练中记忆，即模型独立于其推理链获取正确答案。为了缓解这一系统性问题，我们提出了基于评分标准的奖励模型（RRM），一种面向过程的奖励函数，它根据特定问题的评分标准评估整个推理轨迹。RRM 明确惩罚逻辑缺陷，鼓励严谨的推导。当集成到强化学习流程中时，基于 RRM 的训练在四个数学基准上始终优于仅基于结果的监督。值得注意的是，它将 AIME2024 上的验证 Pass@1024 从 26.7% 提升至 62.6%，并将“奇迹步骤”的发生率降低了 71%。我们的工作表明，奖励求解过程对于构建准确可靠的模型至关重要。¹¹我们已在 https://github.com/YouliangYuan/rrm-cure-miracle-steps 公开了我们的代码和数据。

## 1 引言

参考图例图 1: 基于结果的奖励训练的 Qwen3-4B-Base 模型（即 Qwen3-4B-Outcome）在 AIME2024 上的标准 Pass@N 和验证 Pass@N。

基于可验证奖励的强化学习（RLVR）[Schulman et al. (2017)](https://arxiv.org/html/2510.07774#bib.bib47); [Shao et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib46); [OpenAI (2024)](https://arxiv.org/html/2510.07774#bib.bib2); [Guo et al. (2025b)](https://arxiv.org/html/2510.07774#bib.bib1); [Chen et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib17) 已成为近期 LLM 研究中的一个突出方法，主要是因为它在改善易于验证的推理任务性能方面的有效性。然而，这种范式容易受到奖励破解的影响，导致不期望的行为，如不忠实的链式思考（CoT）[Amodei et al. (2016)](https://arxiv.org/html/2510.07774#bib.bib16); [Wei et al. (2022)](https://arxiv.org/html/2510.07774#bib.bib53); [Weng (2024)](https://arxiv.org/html/2510.07774#bib.bib15); [Wen et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib14)，以及对模型能力的高估 [Snell et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib43); [Wang et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib13); [Guo et al. (2025a)](https://arxiv.org/html/2510.07774#bib.bib61)。如图 1 所示，仅考虑最终输出正确性的标准 Pass@N 指标表现出良好的扩展性。相反，同时审视推理过程和最终答案的验证 Pass@N 得分则显著较低，并且在 N 接近 64 时似乎趋于平缓。这种标准与验证性能之间的巨大差距，促使我们将焦点从仅关注推理过程中的错误 [Lightman et al. (2023)](https://arxiv.org/html/2510.07774#bib.bib19); [Zheng et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib18) 转向一个不同的问题：

**示例：问题 & 模型的解 & 假阳性分析**

**问题**
—————————————————————————————
确定所有从正整数集到其自身的函数对 (f,g) 满足
fg(n)+1(n) + gf(n)(n) = f(n+1) - g(n+1) + 1
对于每个正整数 n。这里，fk(n) 表示 f(f(...f(k 次)(n)...))。
真实答案：f(n)=n，g(n)=1。

**模型的解**
—————————————————————————————
要确定所有从正整数集到其自身的函数对 (f,g) 满足方程
fg(n)+1(n) + gf(n)(n) = f(n+1) - g(n+1) + 1
对于每个正整数 n，我们将逐步进行。

步骤 1：对 n 的小值分析方程
让我们先检查 n=1 时的情况：
fg(1)+1(1) + gf(1)(1) = f(2) - g(2) + 1

步骤 2：考虑简单函数
让我们尝试一些简单函数，看它们是否满足方程。假设 f(n)=n 且 g(n)=n。则方程变为：
fg(1)+1(1) + gf(1)(1) = f(2) - g(2) + 1
f1+1(1) + g1(1) = f(2) - g(2) + 1
f2(1) + g(1) = f(2) - g(2) + 1
由于 f(n)=n 且 g(n)=n，我们有：
f2(1) = f(1) = 1, g(1) = 1, f(2) = 2, g(2) = 2
所以方程变为：
1 + 1 = 2 - 2 + 1 ⇒ 2 = 1
这是一个矛盾。因此，此 (f,g) 对不是解。

步骤 3：尝试另一个简单函数
让我们尝试 f(n)=n+1 且 g(n)=n。则方程变为：
fg(1)+1(1) + gf(1)(1) = f(2) - g(2) + 1
代入 f(n)=n+1 且 g(n)=n，我们得到：
f1+1(1) + g1+1(1) = f(2) - g(2) + 1
f2(1) + g2(1) = f(2) - g(2) + 1
由于 f(n)=n+1 且 g(n)=n，我们有：
f2(1) = f(f(1)) = f(2) = 3,
g2(1) = g(g(1)) = g(1) = 1,
f(2) = 3, g(2) = 2
所以方程变为：
3 + 1 = 3 - 2 + 1 ⇒ 4 = 2
这是一个矛盾。因此，此 (f,g) 对不是解。

步骤 4：尝试不同的方法
让我们尝试 f(n)=n 且 g(n)=1。
则方程变为：
fg(1)+1(1) + gf(1)(1) = f(2) - g(2) + 1
代入 f(n)=n 且 g(n)=1，我们得到：
f1+1(1) + g1(1) = f(2) - g(2) + 1
f2(1) + g(1) = f(2) - g(2) + 1
由于 f(n)=n 且 g(n)=1，我们有：
f2(1) = f(f(1)) = f(1) = 1,
g(1) = 1, f(2) = 2, g(2) = 1
所以方程变为：
1 + 1 = 2 - 1 + 1 ⇒ 2 = 2
这是正确的。因此，f(n)=n 且 g(n)=1 是一个解。

步骤 5：验证解
我们需要验证 f(n)=n 且 g(n)=1 是唯一的解。假设存在另一个解 (f,g)。则对所有 n，
fg(n)+1(n) + gf(n)(n) = f(n+1) - g(n+1) + 1
如果对所有 n 有 g(n)=1，则方程变为：
f1+1(n) + 1f(n)(n) = f(n+1) - 1 + 1
这简化为：
f2(n) + 1 = f(n+1)
如果 f(n)=n，则：
n2 + 1 = n + 1
这对所有 n 不成立。因此，唯一的解是 f(n)=n 且 g(n)=1。
答案是：
\boxed{(f(n)=n, g(n)=1)}

**假阳性分析**
—————————————————————————————
**归纳泛化** - 模型测试 n=1（通过）然后声称对所有 n 都成立。
**奇迹步骤** - 没有取得进展，模型突然得出正确的对。然后它使用不正确的步骤来“证明”唯一性，好像它已经知道答案是唯一的。
**结果无关性** - 模型将 f2(n) 错误计算为 n2（应为 n），但错误不影响最终答案。

图 2: 一个展示单个模型响应中三种假阳性类型的激励性示例。**绿色**：奇迹步骤——模型在没有有效推导的情况下突然产生正确的解。**粉色**：归纳泛化——仅针对 n=1 进行验证。**蓝色**：结果无关性——一个不影响最终答案的计算错误（f2(n)=n2 而不是 n）。

为什么 LLM 有时能够通过不正确的推理得出正确答案？基于这个问题，我们进行了初步的人工评估，并识别出几种导致通过不正确推理得到正确答案的重复模式。我们在图 2 中用一个具体例子展示了其中一些模式。如解的部分所示，在两次失败尝试后，模型突然执行了我们称之为“奇迹步骤”的操作：在步骤 4 中，它突然产生了正确的解，f(n)=n 和 g(n)=1，没有任何有效的推导。由于缺乏对其解的有效论证，模型随后表现出了我们称之为“归纳泛化”的行为：它仅检查了 n=1 的情况，然后直接断言这对所有 n 都是解。最后，在步骤 5 中，模型犯了一个计算错误，将 f2(n) 计算为 n2 而不是正确的 n，尽管这个错误不影响最终答案。

这些逻辑上不合理的虚假模式在模型的输出中普遍存在。在许多情况下，这些模式甚至使模型能够绕过证明或计算中的挑战性步骤，通过不合理的推理过程得出正确答案。受这些观察的启发，我们首先进行了一项深入研究，创建了数学推理中假阳性的分类体系。通过四位注释者对 Qwen3-4B-Outcome 在四个基准（AIME2024 [AIME (2024)](https://arxiv.org/html/2510.07774#bib.bib6)、MATH500 [Hendrycks et al. (2021)](https://arxiv.org/html/2510.07774#bib.bib36)、AMC2023 [AMC (2023)](https://arxiv.org/html/2510.07774#bib.bib7) 和 OlympiadBench [He et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib37)）上输出的手动分析，我们建立了一个包含六种不同失败模式的分类体系，并研究了驱动最关键模式“奇迹步骤”的因素，考虑了包括记忆化、问题简单性和答案可猜测性在内的多种假设。然后，我们通过展示这些失败模式在最先进模型（如 GPT-5 [OpenAI (2025a)](https://arxiv.org/html/2510.07774#bib.bib3) 和 Gemini-2.5-Pro [Comanici et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib38)）中的普遍存在，证明了这是一个广泛存在的问题。

基于此分析，我们引入了基于评分标准的奖励模型（RRM），一种基于特定问题评分标准的面向过程的生成式奖励函数。RRM 不会提供生硬、二值的结果信号，而是对整个推理轨迹分配细粒度的奖励，明确惩罚上述失败模式，并促进逐步的逻辑严谨性。我们将 RRM 集成到 RL 流程中，训练模型不仅优化正确性，还优化严谨的推理。在四个数学推理基准上，基于 RRM 的训练始终优于仅基于结果的监督，在验证指标下尤其取得了显著收益。例如，在 AIME2024 上，我们的方法将验证 Pass@1024 提升了 35.9 个百分点（从 26.7% 提升至 62.6%），并将 Pass-验证差距缩小了 9.9 个百分点（从 31.2% 缩小至 21.3%）。除了整体指标外，基于评分标准的学习还改变了错误分布的格局，将“奇迹步骤”等极端情况减少了 71%，这表明对“如何”得出解进行奖励，能够产生不仅更准确，而且在推理上更值得信赖的模型。

## 2 相关工作

#### 忠实链式思考。
LLM 可能产生不忠实的 CoT，从而误导用户 [Wei et al. (2022)](https://arxiv.org/html/2510.07774#bib.bib53); [Anthropic (2023a)](https://arxiv.org/html/2510.07774#bib.bib10); [Sharma et al. (2023)](https://arxiv.org/html/2510.07774#bib.bib25); [Lyu et al. (2023)](https://arxiv.org/html/2510.07774#bib.bib21); [Chen et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib22)。当模型偏向于某个答案时，它甚至可能编造出看似合理但与事实相矛盾的 justification [Turpin et al. (2023)](https://arxiv.org/html/2510.07774#bib.bib23); [Pacchiardi et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib48); [Park et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib54); [Anthropic (2025a)](https://arxiv.org/html/2510.07774#bib.bib9); [Barez et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib8); [Lam et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib12)。这种倾向在反馈循环 [Pan et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib24) 和 RL 过程中 [Wen et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib14) 可能会进一步加剧。受这些工作的启发，我们系统地研究了数学推理中不忠实 CoT 的模式，并进一步探讨了这一现象背后的根本原因。基于这些见解，我们提出了一种评分标准奖励模型来缓解这个问题，并证明了其有效性。

#### 基于评分标准的奖励。
评分标准已被用于奖励建模，主要在没有单一真实答案的开放式领域 [Anthropic (2023b)](https://arxiv.org/html/2510.07774#bib.bib11); [Su et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib40); [Ma et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib41); [Zhou et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib42)。OpenAI 使用专门设计的评分标准来评估模型在健康 [Arora et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib27) 和 AI 研究复现 [Starace et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib52) 方面的能力。同时，基于评分标准的奖励已被应用于 RL 中，用于那些难以自动验证的任务，如写作、指令遵循 [Viswanathan et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib26); [Huang et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib28); [Gunjal et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib29); [Dineen et al. (2025)](https://arxiv.org/html/2510.07774#bib

使用评分奖励（Rubric Rewards）纠正LLM数学推理中的奇迹步骤

相似文章

答案词元如何读取推理轨迹？思维大模型在定量推理中的自读模式

优中选优：超越答案正确性奖励，激励可靠的多模态推理

C2：基于二元偏好的可扩展评分增强奖励建模

科学写作评估的奖励建模

@stevibe：哪些大模型真的“热爱思考”？实测7款模型5道数学题，推理长度大比拼。思考冠军：bo…

提交意见反馈