TD-Grokking:通过训练时分解从零奖励问题中学习

arXiv cs.LG 论文

摘要

提出TD-Grokking,一种训练时分解框架,递归地将棘手的零奖励问题分解为可验证的子问题,使大语言模型能够从失败轨迹中学习。在数学和医学推理任务上优于普通GRPO及基线方法。

arXiv:2606.09883v1 公告类型:新发布 摘要:大语言模型在推理任务上取得了显著进展,这主要得益于后训练范式,尤其是基于可验证奖励的强化学习(RLVR)。然而,一个关键瓶颈仍然存在:RLVR在极具挑战性的零奖励问题上失效,因为所有采样的推理轨迹都产生一致的失败结果,无法提供优化信号来驱动模型改进。先前应对这一局限的努力(如密集过程监督、部分奖励分配或前缀引导探索)要么受限于任务固有约束,要么未能使策略模型充分具备解决原始棘手问题所需的能力。针对此问题,我们提出了TD-Grokking,一种针对零奖励问题的训练时分解框架。它递归地将棘手的根问题分解为自包含、可验证的子问题,形成层次树结构,其中可解的叶节点提供非零奖励。在数学和医学任务上的评估表明,TD-Grokking优于普通GRPO以及所有基线方法。结合详细分析,这些结果证实了训练时分解能有效将零奖励样本转化为可用的训练信号,从而实现持续的性能提升。我们的代码和数据集可在 https://anonymous.4open.science/r/TD-Grokking-6567/ 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:16

# TD-Grokking:通过训练时分解从零奖励问题中学习 来源:https://arxiv.org/html/2606.09883

###### 摘要

大型语言模型(LLMs)在推理任务上取得了显著进展,这主要得益于后训练范式,特别是基于可验证奖励的强化学习(RLVR)。然而,一个关键瓶颈依然存在:RLVR 在面对极具挑战性的零奖励问题时会失效,因为所有采样的推理轨迹都给出了一致的失败结果,无法提供优化信号来驱动模型改进。先前解决这一局限性的努力,例如密集过程监督、部分奖励分配或前缀引导探索,要么受限于固有的任务约束,要么未能完全装备策略模型以解决原始棘手问题所需的能力。

为了解决这个问题,我们提出了 TD-Grokking,一个专门针对零奖励问题的训练时分解框架。它将难以处理的根问题递归地分解成自包含、可验证的子问题,形成层级树,其中可解的叶子节点提供非零奖励。在数学和医学任务上的评估表明,TD-Grokking 优于原版 GRPO 以及所有基线方法。结合详细的分析,这些结果证实训练时分解能有效地将零奖励示例转化为可用的训练信号,从而实现一致性的性能提升。我们的代码和数据集可在 https://anonymous.4open.science/r/TD-Grokking-6567/ 获取。

11footnotetext:香港城市大学数据科学系。
22footnotetext:香港城市大学香港人工智能科学研究所。
33footnotetext:理想汽车。
††footnotetext:通讯作者:缪宁 ([email protected])。

## 1 引言

大型语言模型(LLMs)在数学和算法推理方面取得了显著进展,在精心设计的后训练范式下,其性能持续快速提升 (Shao et al., 2024 (https://arxiv.org/html/2606.09883#bib.bib15); Guo et al., 2025 (https://arxiv.org/html/2606.09883#bib.bib16); Yang et al., 2025 (https://arxiv.org/html/2606.09883#bib.bib42))。作为后训练的重要组成部分,基于可验证奖励的强化学习(RLVR)通过对比成功和不成功的推理轨迹,解锁了 LLMs 固有的推理能力 (Shao et al., 2024 (https://arxiv.org/html/2606.09883#bib.bib15); Guo et al., 2025 (https://arxiv.org/html/2606.09883#bib.bib16))。这自然引出了一个基础性的研究问题:LLMs 如何获得解决那些没有任何成功尝试的极具挑战性问题的能力?从这样的零奖励问题中学习构成了一个关键瓶颈:在这些问题上进行训练无法提供优化信号,因为所有采样的轨迹都导致一致性的失败结果。由此产生的恒定零奖励信号会阻碍模型优化,使标准 RLVR 无效。

先前的研究为缓解零奖励问题的不可学习性做出了大量努力。例如,Lightman et al. (2024 (https://arxiv.org/html/2606.09883#bib.bib36)) 证明,密集的过程监督(例如过程奖励模型 PRMs)可以为生成的推理轨迹中的中间步骤提供分数,从而在最终答案监督之外细化信用分配。在代码生成任务中,Sun et al. (2026 (https://arxiv.org/html/2606.09883#bib.bib40)) 引入了部分正确性的概念,对通过了部分测试用例的代码生成给予部分分数。他们的观察揭示了一种类似“顿悟”(grokking)的现象:全通过奖励在大约 450 步 RL 训练后开始增加,反映了在监督学习中观察到的 grokking 现象。尽管在经验上有效,但过程或部分奖励策略存在固有的局限性和任务约束。在数学推理中,在前沿问题上训练准确的 PRM 仍然困难,并且评估一个解的局部正确性通常是不可行的。

另一条研究路线通过使模型生成条件于部分解轨迹或特权提示,来促进在难题上的探索 (Li et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib19); Zhang et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib20); Chen et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib21); Liao et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib22); Xia et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib23))。这种前缀引导式探索允许策略模型专注于解的后半部分,从而增加了获得非零奖励的机会。虽然作为探索辅助手段有效,但这种方法缩短了当前 rollout 的视界,而不是赋予模型解决原始问题所需的所有核心能力。换句话说,模型学会了从带有部分已解轨迹的中间状态继续推理,但到达这些中间状态所需的上游推理能力仍未建模。

参见图注

图 1:TD-Grokking 概览。(a) 常规 GRPO 在具有挑战性的零奖励问题上停滞不前。(b) 通过训练时分解,TD-Grokking 获得了密集的训练信号。

在这项工作中,我们提出了一个训练时分解框架——TD-Grokking,它专门针对从具有挑战性的零奖励问题中进行有效学习而设计。对于每个难以处理的零奖励根问题,我们使用一个分解生成器来构建自包含、可验证的子问题,这些子问题封装了解答原始问题所需的关键子能力。如果生成的子问题仍然超出当前策略模型的能力范围,我们会递归地应用分解过程。这个流水线将难以处理的零奖励问题转化为层级分解树,其中可解的叶子子问题在标准的最终答案验证下提供非零的结果奖励。RL 训练从这些富含奖励的叶子节点开始,一旦子问题被可靠解决,渐进优化就会向上传播,以增强父节点(包括根节点)的性能。图 1 (https://arxiv.org/html/2606.09883#S1.F1) 展示了我们基于分解的训练流水线。

根据经验,我们在数学和医学领域评估了 TD-Grokking,这两个领域都包含具有挑战性的零奖励问题的数据集。在数学基准测试上,TD-Grokking 在 AIME 24 和 25 上的准确率比原版 GRPO (Shao et al., 2024 (https://arxiv.org/html/2606.09883#bib.bib15)) 提高了约 4%,优于所有基线方法。在医学任务上,TD-Grokking 的准确率比原版 GRPO 高出高达 6.2%。这些结果表明,分解作为一种有效的训练时机制,可以将零奖励示例转化为可用的学习信号,从而在具有挑战性的基准测试上产生一致性的性能提升。

## 2 相关工作

现在我们介绍先前为帮助 LLMs 解决难题所做的工作。我们从推理时的 LLMs 增强开始,然后讨论学习解决难题的两种主要方法。

#### 推理时问题分解。
分解在推理时也被广泛使用。思维链(Chain-of-thought)聚合了中间推理路径 (Wei et al., 2022 (https://arxiv.org/html/2606.09883#bib.bib30))。Least-to-most prompting、Decomposed prompting、Self-Ask 和 Plan-and-Solve 通过子问题、计划、模块化提示或工具介导的步骤进一步结构化推理过程 (Zhou et al., 2023 (https://arxiv.org/html/2606.09883#bib.bib31); Khot et al., 2023 (https://arxiv.org/html/2606.09883#bib.bib32); Press et al., 2023 (https://arxiv.org/html/2606.09883#bib.bib33); Wang et al., 2023 (https://arxiv.org/html/2606.09883#bib.bib34))。思维树(Tree-of-thought)方法通过使用前瞻、回溯或自我评估在多个中间推理状态上进行搜索来扩展这个想法 (Yao et al., 2023 (https://arxiv.org/html/2606.09883#bib.bib35))。这些方法将分解用作固定模型的推理时脚手架。它们可以改善模型组织推理的方式,但不会直接训练所需但缺失的推理技能。因此,只有当所需的子技能已经在模型可达的技能库中时,它们才最有效。我们的设置不同:初始模型在根问题上几乎得不到零个可验证奖励。因此,我们将分解用作训练时机制,其中每个子问题成为一个独立的 RL 实例,而不是单个推理尝试中的中间提示。

#### 过程级和部分反馈。
当问题如此之难以至于 LLM 在多次尝试后仍无法得出正确答案时,所有生成的奖励都将为零,这使得学习变得不可能。缓解此问题的第一种方法是给部分正确的解以奖励。例如,过程监督训练奖励模型来评分中间推理步骤,而不仅仅是最终答案,并且已被证明可以改善数学推理和验证 (Lightman et al., 2024 (https://arxiv.org/html/2606.09883#bib.bib36))。后续工作通过自动构建步骤级标签或通过搜索收集过程奖励数据来降低标注成本,如 Math-Shepherd 和 OmegaPRM 所做的那样 (Wang et al., 2024 (https://arxiv.org/html/2606.09883#bib.bib37); Luo et al., 2024 (https://arxiv.org/html/2606.09883#bib.bib38))。然而,训练一个单独的过程奖励模型成本非常高,并且现有 PRM 的准确性和泛化能力使其不适合用于 SOTA 模型的 RL 训练 (Zheng et al., 2025 (https://arxiv.org/html/2606.09883#bib.bib39))。在编码任务中,特殊的局部正确性信号也可以从测试用例的子集中获得,允许 RL 在程序达到完全正确之前就给予奖励 (Sun et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib40))。

#### 训练时提示和支架式探索。
一个相关的工作线路通过在训练期间使难题变得更容易来改善探索。QuestA 用部分解草图增强难题 (Li et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib19));Scaf-GRPO 在 GRPO 遇到全失败 rollout 组时注入层级提示 (Zhang et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib20));NuRL 和自提示方法使用生成的线索将困难提示移动到可学习区域 (Chen et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib21); Liao et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib22));HiLL 研究了提示转移的成功是否能泛化到无提示设置 (Xia et al., 2026 (https://arxiv.org/html/2606.09883#bib.bib23))。这些方法是有效的探索辅助手段,但以提示为条件的轨迹与求解原始的根问题不同。模型可能学会从有用的提示继续,而没有学会自己生成隐藏的推理状态。相比之下,我们的方法使用分解不仅仅是为了缩短 rollout 视界,而是为了将隐藏的推理需求转化为具有独立可验证奖励的子问题。

## 3 方法

TD-Grokking 的核心目标是从那些在标准直接 RLVR 下无法产生有用结果奖励的具挑战性推理问题中提取可用的训练信号。给定一个困难的推理问题,TD-Grokking 不会修改最终答案验证器,不会引入学习到的过程奖励模型,也不会通过提供特权提示来使根 rollout 更容易。相反,它重新组织了基础训练单元:将零奖励问题扩展为更小的、自包含的、完全可验证的子问题,这些子问题捕捉了解答原始根问题所需的推理需求。然后在这些子问题上使用标准的结果基奖励进行强化学习,使模型能够逃离零奖励区间,并恢复在原始根问题上的性能。

### 3.1 问题设置

设 \(x\) 表示一个根推理问题,其真实可验证答案为 \(y\)。策略模型 \(\pi_{\theta}\) 生成一个解轨迹 \(o \sim \pi_{\theta}(\cdot \mid x)\),从中提取出一个答案 \(\hat{y}(o)\)。标准的结果奖励为 \(R(x, o) = \mathbf{1}\left[\operatorname{Verify}\bigl(\hat{y}(o), y\bigr)=1\right]\)。对于任何具有目标答案 \(a\) 的可验证问题 \(q\),我们定义其在策略 \(\pi\) 和采样预算 \(K\) 下的经验验证准确率为:
\[\operatorname{Acc}^{\pi}_{K}(q)=\frac{1}{K}\sum_{k=1}^{K}\mathbf{1}\left[\operatorname{Verify}\bigl(\hat{a}(o_{k}), a\bigr)=1\right], \qquad o_{k}\sim\pi(\cdot \mid q).\]

问题 \(q\) 可以是原始的根问题,也可以是分解后的子问题。对于一个初始策略 \(\pi_{\theta_{0}}\),一个根问题 \(x\) 在预算 \(K\) 下被称为“零奖励”问题,如果 \(\operatorname{Acc}^{\pi_{\theta_{0}}}_{K}(x)=0\)。这个定义依赖于策略和预算:该问题并非假定为本质上不可解,而是因为所有采样的 rollout 都得到零奖励,所以对于直接的结果基 RL 来说是无信息的。

### 3.2 构建可验证的子问题

对于每个困难的根问题 \(x\),TD-Grokking 生成一组标记的候选实例:
\[\mathcal{D}(x)=\{(s_{x,1}, a_{x,1}), \ldots, (s_{x,m_{x}}, a_{x,m_{x}})\},\]
其中 \(s_{x,j}\) 表示一个候选子问题,\(a_{x,j}\) 是其用于验证的目标答案。我们使用术语“子问题”来指代问题 \(s_{x,j}\) 本身,而配对 \((s_{x,j}, a_{x,j})\) 则指代对应的可验证训练实例。

一个候选子问题 \(s_{x,j}\) 仅在满足三个条件时才被保留。第一,它是“根条件化”的:它对应于解决父根问题时所用的局部推理需求,而不是一个通用的技能标签。第二,它是“自包含”的:解决它所需的所有假设都在子问题本身中陈述,不依赖于根的解或其他子问题的答案。第三,它是“可验证”的:其最终答案有一个明确定义的目标 \(a_{x,j}\),并且可以在经过通常的答案提取和标准化后,通过用于 RLVR 的相同结果型验证器进行检查。

分解流水线被实现为一系列对分解生成器的结构化调用,随后进行验证。确切的提示模板、解析规则和生成超参数在附录中报告。主要方法有六个阶段。

#### 1. 困难根选择。
我们首先识别那些起始策略在反复采样下获得零可验证奖励的根问题。这将分解集中在那些直接结果基 RL 最难以利用的例子上。选择标准与基础策略、验证器和采样预算相关联;一个根在训练后可能会离开零奖励集。

#### 2. 引导准备。
对于每个选定的根,TD-Grokking 获取如上所述的分解引导。当数据集提供了解决方案时,该引导取自源数据,并经过答案一致性检查。当数据集未提供时,分解生成器首先产生一个解草图,其最终答案必须与已知目标答案验证一致。这一步使得后续的分解是解引导的,而非纯关联性的:子问题是从解中提取的。

相似文章

GRLO:从零开始迈向开放环境下的通用强化学习

arXiv cs.LG

GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。

语言模型中Grokking的预训练类比:追踪延迟的语法泛化

arXiv cs.LG

本文提出了一种基于暴露的框架,用于研究LLM预训练过程中类似Grokking的延迟泛化现象,使用了BLiMP最小对立对和关键短语。作者观察到五种语法现象均出现延迟泛化,并分析了内部变化,如概念向量的可预测性和注意力头的集中。

当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化

arXiv cs.LG

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。