使用评分奖励(Rubric Rewards)纠正LLM数学推理中的奇迹步骤
摘要
本文识别并解决了LLM数学推理中的‘奇迹步骤’问题——即无根据跳至正确答案的奖励篡改行为——通过提出评分奖励模型(RRM),一种面向过程的奖励函数,评估整个推理轨迹。RRM在AIME2024上实现了显著提升(Verified Pass@1024从26.7%提高至62.6%),并将奇迹步骤减少了71%。
arXiv:2510.07774v3 公告类型:替换
摘要:本文观察到,当前模型容易受到奖励篡改(reward hacking)的影响,导致对模型推理能力的大幅高估。这表现为大量假阳性——通过不健全的过程得出正确答案的解决方案。通过系统分析及人工验证,我们建立了这些失败模式的分类体系,识别出如“奇迹步骤”(Miracle Steps)等模式——在没有有效前序推导的情况下突然跳至正确输出。探测实验表明,这些奇迹步骤与答案召回捷径有关,包括预训练中的记忆,即模型独立于其推理链访问正确答案。为了缓解这一系统性问题,我们引入了评分奖励模型(Rubric Reward Model, RRM),这是一种面向过程的奖励函数,根据问题特定的评分标准评估整个推理轨迹。RRM明确惩罚逻辑缺陷,鼓励严谨推理。当集成到强化学习管线中,基于RRM的训练在四个数学基准上始终优于仅结果监督。值得注意的是,它在AIME2024上将Verified Pass@1024从26.7%提升至62.6%,并将奇迹步骤的发生率降低了71%。我们的工作表明,奖励求解过程对于构建准确可靠的模型至关重要。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 用基于评分标准奖励来治愈 LLM 数学推理中的“奇迹步骤” **来源**: https://arxiv.org/html/2510.07774 Youliang Yuan, Qiuyang Mang, Jingbang Chen, Hong Wan, Xiaoyuan Liu, Junjielong Xu, Jen-tse Huang, Wenxuan Wang, Wenxiang Jiao, Pinjia He 游梁元¹,邱阳芒¹,²,敬邦陈¹,洪婉³,晓园刘¹,俊杰龙徐¹,Jen-tse Huang⁴,文轩王⁵,文翔焦⁶,品佳何¹ ¹香港中文大学(深圳)数据科学学院 ²加州大学伯克利分校 ³浙江大学 ⁴约翰霍普金斯大学 ⁵中国人民大学 ⁶小红书公司 ¹[email protected], {chenjb, hepinjia}@cuhk.edu.cn ²[email protected] ⁴[email protected] ⁵[email protected] ⁶[email protected] *本工作在作者加入加州大学伯克利分校之前完成。* *品佳何为通讯作者。* ###### 摘要 在本文中,我们观察到当前模型容易受到奖励破解的影响,导致对模型推理能力的大幅高估。这表现为高频的“假阳性”——即通过不合理的推理过程得到正确答案的解。通过结合人工验证的系统性分析,我们建立了一套这些失败模式的分类体系,识别出如“奇迹步骤”等模式——即在没有有效推导的情况下突然跳跃到正确输出。探针实验表明,这些“奇迹步骤”与答案回忆捷径有关,包括从预训练中记忆,即模型独立于其推理链获取正确答案。为了缓解这一系统性问题,我们提出了基于评分标准的奖励模型(RRM),一种面向过程的奖励函数,它根据特定问题的评分标准评估整个推理轨迹。RRM 明确惩罚逻辑缺陷,鼓励严谨的推导。当集成到强化学习流程中时,基于 RRM 的训练在四个数学基准上始终优于仅基于结果的监督。值得注意的是,它将 AIME2024 上的验证 Pass@1024 从 26.7% 提升至 62.6%,并将“奇迹步骤”的发生率降低了 71%。我们的工作表明,奖励求解过程对于构建准确可靠的模型至关重要。¹¹我们已在 https://github.com/YouliangYuan/rrm-cure-miracle-steps 公开了我们的代码和数据。 ## 1 引言 参考图例图 1: 基于结果的奖励训练的 Qwen3-4B-Base 模型(即 Qwen3-4B-Outcome)在 AIME2024 上的标准 Pass@N 和验证 Pass@N。 基于可验证奖励的强化学习(RLVR)[Schulman et al. (2017)](https://arxiv.org/html/2510.07774#bib.bib47); [Shao et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib46); [OpenAI (2024)](https://arxiv.org/html/2510.07774#bib.bib2); [Guo et al. (2025b)](https://arxiv.org/html/2510.07774#bib.bib1); [Chen et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib17) 已成为近期 LLM 研究中的一个突出方法,主要是因为它在改善易于验证的推理任务性能方面的有效性。然而,这种范式容易受到奖励破解的影响,导致不期望的行为,如不忠实的链式思考(CoT)[Amodei et al. (2016)](https://arxiv.org/html/2510.07774#bib.bib16); [Wei et al. (2022)](https://arxiv.org/html/2510.07774#bib.bib53); [Weng (2024)](https://arxiv.org/html/2510.07774#bib.bib15); [Wen et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib14),以及对模型能力的高估 [Snell et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib43); [Wang et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib13); [Guo et al. (2025a)](https://arxiv.org/html/2510.07774#bib.bib61)。如图 1 所示,仅考虑最终输出正确性的标准 Pass@N 指标表现出良好的扩展性。相反,同时审视推理过程和最终答案的验证 Pass@N 得分则显著较低,并且在 N 接近 64 时似乎趋于平缓。这种标准与验证性能之间的巨大差距,促使我们将焦点从仅关注推理过程中的错误 [Lightman et al. (2023)](https://arxiv.org/html/2510.07774#bib.bib19); [Zheng et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib18) 转向一个不同的问题: **示例:问题 & 模型的解 & 假阳性分析** **问题** ————————————————————————————— 确定所有从正整数集到其自身的函数对 (f,g) 满足 fg(n)+1(n) + gf(n)(n) = f(n+1) - g(n+1) + 1 对于每个正整数 n。这里,fk(n) 表示 f(f(...f(k 次)(n)...))。 真实答案:f(n)=n,g(n)=1。 **模型的解** ————————————————————————————— 要确定所有从正整数集到其自身的函数对 (f,g) 满足方程 fg(n)+1(n) + gf(n)(n) = f(n+1) - g(n+1) + 1 对于每个正整数 n,我们将逐步进行。 步骤 1:对 n 的小值分析方程 让我们先检查 n=1 时的情况: fg(1)+1(1) + gf(1)(1) = f(2) - g(2) + 1 步骤 2:考虑简单函数 让我们尝试一些简单函数,看它们是否满足方程。假设 f(n)=n 且 g(n)=n。则方程变为: fg(1)+1(1) + gf(1)(1) = f(2) - g(2) + 1 f1+1(1) + g1(1) = f(2) - g(2) + 1 f2(1) + g(1) = f(2) - g(2) + 1 由于 f(n)=n 且 g(n)=n,我们有: f2(1) = f(1) = 1, g(1) = 1, f(2) = 2, g(2) = 2 所以方程变为: 1 + 1 = 2 - 2 + 1 ⇒ 2 = 1 这是一个矛盾。因此,此 (f,g) 对不是解。 步骤 3:尝试另一个简单函数 让我们尝试 f(n)=n+1 且 g(n)=n。则方程变为: fg(1)+1(1) + gf(1)(1) = f(2) - g(2) + 1 代入 f(n)=n+1 且 g(n)=n,我们得到: f1+1(1) + g1+1(1) = f(2) - g(2) + 1 f2(1) + g2(1) = f(2) - g(2) + 1 由于 f(n)=n+1 且 g(n)=n,我们有: f2(1) = f(f(1)) = f(2) = 3, g2(1) = g(g(1)) = g(1) = 1, f(2) = 3, g(2) = 2 所以方程变为: 3 + 1 = 3 - 2 + 1 ⇒ 4 = 2 这是一个矛盾。因此,此 (f,g) 对不是解。 步骤 4:尝试不同的方法 让我们尝试 f(n)=n 且 g(n)=1。 则方程变为: fg(1)+1(1) + gf(1)(1) = f(2) - g(2) + 1 代入 f(n)=n 且 g(n)=1,我们得到: f1+1(1) + g1(1) = f(2) - g(2) + 1 f2(1) + g(1) = f(2) - g(2) + 1 由于 f(n)=n 且 g(n)=1,我们有: f2(1) = f(f(1)) = f(1) = 1, g(1) = 1, f(2) = 2, g(2) = 1 所以方程变为: 1 + 1 = 2 - 1 + 1 ⇒ 2 = 2 这是正确的。因此,f(n)=n 且 g(n)=1 是一个解。 步骤 5:验证解 我们需要验证 f(n)=n 且 g(n)=1 是唯一的解。假设存在另一个解 (f,g)。则对所有 n, fg(n)+1(n) + gf(n)(n) = f(n+1) - g(n+1) + 1 如果对所有 n 有 g(n)=1,则方程变为: f1+1(n) + 1f(n)(n) = f(n+1) - 1 + 1 这简化为: f2(n) + 1 = f(n+1) 如果 f(n)=n,则: n2 + 1 = n + 1 这对所有 n 不成立。因此,唯一的解是 f(n)=n 且 g(n)=1。 答案是: \boxed{(f(n)=n, g(n)=1)} **假阳性分析** ————————————————————————————— **归纳泛化** - 模型测试 n=1(通过)然后声称对所有 n 都成立。 **奇迹步骤** - 没有取得进展,模型突然得出正确的对。然后它使用不正确的步骤来“证明”唯一性,好像它已经知道答案是唯一的。 **结果无关性** - 模型将 f2(n) 错误计算为 n2(应为 n),但错误不影响最终答案。 图 2: 一个展示单个模型响应中三种假阳性类型的激励性示例。**绿色**:奇迹步骤——模型在没有有效推导的情况下突然产生正确的解。**粉色**:归纳泛化——仅针对 n=1 进行验证。**蓝色**:结果无关性——一个不影响最终答案的计算错误(f2(n)=n2 而不是 n)。 为什么 LLM 有时能够通过不正确的推理得出正确答案?基于这个问题,我们进行了初步的人工评估,并识别出几种导致通过不正确推理得到正确答案的重复模式。我们在图 2 中用一个具体例子展示了其中一些模式。如解的部分所示,在两次失败尝试后,模型突然执行了我们称之为“奇迹步骤”的操作:在步骤 4 中,它突然产生了正确的解,f(n)=n 和 g(n)=1,没有任何有效的推导。由于缺乏对其解的有效论证,模型随后表现出了我们称之为“归纳泛化”的行为:它仅检查了 n=1 的情况,然后直接断言这对所有 n 都是解。最后,在步骤 5 中,模型犯了一个计算错误,将 f2(n) 计算为 n2 而不是正确的 n,尽管这个错误不影响最终答案。 这些逻辑上不合理的虚假模式在模型的输出中普遍存在。在许多情况下,这些模式甚至使模型能够绕过证明或计算中的挑战性步骤,通过不合理的推理过程得出正确答案。受这些观察的启发,我们首先进行了一项深入研究,创建了数学推理中假阳性的分类体系。通过四位注释者对 Qwen3-4B-Outcome 在四个基准(AIME2024 [AIME (2024)](https://arxiv.org/html/2510.07774#bib.bib6)、MATH500 [Hendrycks et al. (2021)](https://arxiv.org/html/2510.07774#bib.bib36)、AMC2023 [AMC (2023)](https://arxiv.org/html/2510.07774#bib.bib7) 和 OlympiadBench [He et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib37))上输出的手动分析,我们建立了一个包含六种不同失败模式的分类体系,并研究了驱动最关键模式“奇迹步骤”的因素,考虑了包括记忆化、问题简单性和答案可猜测性在内的多种假设。然后,我们通过展示这些失败模式在最先进模型(如 GPT-5 [OpenAI (2025a)](https://arxiv.org/html/2510.07774#bib.bib3) 和 Gemini-2.5-Pro [Comanici et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib38))中的普遍存在,证明了这是一个广泛存在的问题。 基于此分析,我们引入了基于评分标准的奖励模型(RRM),一种基于特定问题评分标准的面向过程的生成式奖励函数。RRM 不会提供生硬、二值的结果信号,而是对整个推理轨迹分配细粒度的奖励,明确惩罚上述失败模式,并促进逐步的逻辑严谨性。我们将 RRM 集成到 RL 流程中,训练模型不仅优化正确性,还优化严谨的推理。在四个数学推理基准上,基于 RRM 的训练始终优于仅基于结果的监督,在验证指标下尤其取得了显著收益。例如,在 AIME2024 上,我们的方法将验证 Pass@1024 提升了 35.9 个百分点(从 26.7% 提升至 62.6%),并将 Pass-验证差距缩小了 9.9 个百分点(从 31.2% 缩小至 21.3%)。除了整体指标外,基于评分标准的学习还改变了错误分布的格局,将“奇迹步骤”等极端情况减少了 71%,这表明对“如何”得出解进行奖励,能够产生不仅更准确,而且在推理上更值得信赖的模型。 ## 2 相关工作 #### 忠实链式思考。 LLM 可能产生不忠实的 CoT,从而误导用户 [Wei et al. (2022)](https://arxiv.org/html/2510.07774#bib.bib53); [Anthropic (2023a)](https://arxiv.org/html/2510.07774#bib.bib10); [Sharma et al. (2023)](https://arxiv.org/html/2510.07774#bib.bib25); [Lyu et al. (2023)](https://arxiv.org/html/2510.07774#bib.bib21); [Chen et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib22)。当模型偏向于某个答案时,它甚至可能编造出看似合理但与事实相矛盾的 justification [Turpin et al. (2023)](https://arxiv.org/html/2510.07774#bib.bib23); [Pacchiardi et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib48); [Park et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib54); [Anthropic (2025a)](https://arxiv.org/html/2510.07774#bib.bib9); [Barez et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib8); [Lam et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib12)。这种倾向在反馈循环 [Pan et al. (2024)](https://arxiv.org/html/2510.07774#bib.bib24) 和 RL 过程中 [Wen et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib14) 可能会进一步加剧。受这些工作的启发,我们系统地研究了数学推理中不忠实 CoT 的模式,并进一步探讨了这一现象背后的根本原因。基于这些见解,我们提出了一种评分标准奖励模型来缓解这个问题,并证明了其有效性。 #### 基于评分标准的奖励。 评分标准已被用于奖励建模,主要在没有单一真实答案的开放式领域 [Anthropic (2023b)](https://arxiv.org/html/2510.07774#bib.bib11); [Su et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib40); [Ma et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib41); [Zhou et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib42)。OpenAI 使用专门设计的评分标准来评估模型在健康 [Arora et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib27) 和 AI 研究复现 [Starace et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib52) 方面的能力。同时,基于评分标准的奖励已被应用于 RL 中,用于那些难以自动验证的任务,如写作、指令遵循 [Viswanathan et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib26); [Huang et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib28); [Gunjal et al. (2025)](https://arxiv.org/html/2510.07774#bib.bib29); [Dineen et al. (2025)](https://arxiv.org/html/2510.07774#bib
相似文章
答案词元如何读取推理轨迹?思维大模型在定量推理中的自读模式
研究发现,思维大模型中的答案词元在定量推理时遵循结构化自读模式——前向漂移+聚焦关键锚点,并据此提出免训练 SRQ 引导方法,无需微调即可提升准确率。
优中选优:超越答案正确性奖励,激励可靠的多模态推理
研究者提出 Groupwise Ranking Reward,解决多模态强化学习中的“推理-答案不一致”问题,将可靠性条件下的准确率从 47.4% 提升至 54.7%,超越标准 RLVR。
C2:基于二元偏好的可扩展评分增强奖励建模
C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。
科学写作评估的奖励建模
本文提出 SciRM,一种经济高效的开源奖励模型,通过两阶段训练框架专门用于评估科学写作,该框架优化了评估偏好和推理能力。这些模型可以泛化到多种科学写作任务,无需任务特定的重新训练,解决了现有基于 LLM 的评判器在特定领域评估标准上的局限性。
@stevibe:哪些大模型真的“热爱思考”?实测7款模型5道数学题,推理长度大比拼。思考冠军:bo…
7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。