通过反事实推理路径减少信用分配方差

arXiv cs.LG 2026/05/19 04:00 论文
摘要
提出隐式行为策略优化（IBPO），一种基于反事实比较的信用分配框架，通过将稀疏的终端奖励转化为对步骤敏感的学习信号，提升了大型语言模型在多步推理任务中的训练稳定性和性能。
arXiv:2605.16302v1 公告类型: 新摘要: 基于强化学习的大型语言模型（LLMs）多步推理往往依赖稀疏的终端奖励，导致信用分配条件不佳——最终反馈均匀地传播到所有中间决策。这会造成高梯度方差、训练不稳定以及大量无效更新，最终导致模型失败，阻碍其持续改进。我们提出了一种基于反事实比较的信用分配框架，该框架在同一输入下采样多条推理轨迹。通过将轨迹差异视为替代决策的隐式近似，我们构建了一个隐式过程级优势估计器，将稀疏的终端奖励转化为对步骤敏感的学习信号。基于此，我们提出了隐式行为策略优化（IBPO），在数学和代码推理基准测试中显著提升了训练稳定性和性能上限，为释放LLMs的性能潜力指明了一个有前景的方向。
查看原文
查看缓存全文
缓存时间: 2026/05/19 06:40
# 通过反事实推理路径减少信用分配方差 来源：https://arxiv.org/html/2605.16302 ###### 摘要 使用大型语言模型(LLM)进行多步推理的强化学习通常依赖稀疏的终末奖励，导致信用分配不佳——最终反馈被均匀传播到所有中间决策步骤。这会产生高梯度方差、训练不稳定以及大量无效更新，最终阻碍模型实现持续改进。我们提出了一种基于反事实比较的信用分配框架，从相同输入采样多条推理轨迹，将轨迹间差异视为隐式的替代决策近似，从而构建一个隐式过程级优势估计器，将稀疏终末奖励转化为对步骤敏感的学习信号。在此基础上，我们引入隐式行为策略优化(IBPO)，该算法显著提升了数学和代码推理基准上的训练稳定性和性能上限，为释放LLM性能潜力指明了一个有前景的方向。 机器学习, ICML ## 1 引言 参考图说明 图1：IBPO概览：一种在稀疏终末奖励下进行过程级信用分配的反事实轨迹比较框架。通过对比从相同输入采样的多条推理路径，IBPO得出隐式的步骤敏感学习信号，提升了LLM强化学习中的优化稳定性和样本效率。 近年来，大型语言模型(LLM)在复杂多步推理任务上取得了显著突破，特别是在使用强化学习(RL)进行微调之后。RL已成为扩展LLM能力的关键范式，使模型能够通过更深更长的推理链解决日益复杂的问题，例如竞赛级数学和程序综合。然而，在推理任务中扩展RL需要在不断增加的计算预算下保持训练稳定性和样本效率。尽管如此，主流RL方法——例如分组相对策略优化(GRPO)(Shao et al.,2024)——仍使用序列级或轨迹级奖励来优化策略。这造成了学习信号与推理本质上的逐步特性之间的根本不匹配。在多步推理中，正确性取决于一系列中间决策。然而，序列级监督仅基于最终答案奖励整个轨迹：推理过程有缺陷的轨迹如果恰好产生正确的最终输出，可能会获得正向奖励；而推理基本正确但有一个局部错误的轨迹可能被完全丢弃。这种粗粒度的反馈削弱了模型区分早期错误与晚期错误的能力，破坏了信用分配，使学习不稳定，并限制了对替代推理路径的探索。这个问题在长视野或困难任务中尤为突出。此外，即使是一个局部错误也可能需要大量的采样和更新才能从统计上纠正，引入了显著的效率瓶颈——通常被称为*学习税*。 在这项工作中，我们提出了一种反事实学习方法来解决稀疏终末奖励下的信用分配问题。即使没有步骤级监督，从相同输入采样的推理轨迹之间的差异也自然包含过程级信息。这些轨迹之间的分歧隐式反映了替代中间决策可能导致的不同结果。通过系统比较这些反事实路径并将其差异与最终结果对齐，我们构建了信息丰富的学习信号，这些信号对中间决策更加敏感。基于这一洞见，我们引入了*隐式行为策略优化(IBPO)*——一种由反事实轨迹比较诱导的过程级信用分配框架。IBPO定义了一个通用的多轨迹比较算子，并用它构建隐式优势估计器。该估计器基于轨迹级差异重新加权终末奖励，从而降低梯度方差并放大在频繁决策错误点的学习信号。IBPO不依赖步骤级注释、外部验证器或额外的价值网络，可以无缝集成到现有的序列级RL优化器中，同时提升收敛稳定性和样本效率。 ##### 贡献。我们的主要贡献如下： - •**反事实信用分配公式。**我们引入了LLM强化学习中信用分配的反事实学习视角，将来自同一输入的多个推理轨迹视为替代决策的近似。我们证明了这些轨迹之间的不一致性包含了过程级学习的关键信息，即使没有步骤级奖励。 - •**隐式过程级优势与IBPO框架。**我们形式化了一个通用的多轨迹比较算子，并用它构建了隐式过程级优势估计器，由此推导出IBPO框架。 - •**方差缩减与正迁移的理论分析。**我们分析了反事实轨迹比较如何降低梯度方差并在高错误率区域放大学习信号。我们证明了这一机制会诱导向底层推理技能的后向迁移，并缓解学习税问题。 - •**机制驱动的实证验证。**我们在多个数学和代码推理基准上评估了IBPO。实验表明，在计算匹配条件下，IBPO相对于强基线持续提升了收敛性、样本效率和早期错误纠正能力。 ## 2 相关工作 **分组相对策略优化(GRPO)。**GRPO(Shao et al.,2024)是一种最近的强化学习算法，用于在推理任务上微调大型语言模型(LLM)，并在DeepSeek-R1(Guo et al.,2025)等系统中取得了强劲成果。GRPO利用组内采样来估计组相对优势，取代PPO中的显式价值建模，从而实现更快更高效的训练。然而，GRPO遭受熵崩溃、奖励崩溃和收敛不稳定(Yu et al.,2025)的困扰，这主要源于其对*终末奖励足以表征推理轨迹*这一假设的依赖。这一假设在长视野推理中经常失效——其中模型成功依赖于一系列相互依赖的步骤——导致病态的信用分配和膨胀的梯度方差。GSPO(Zheng et al.,2025)是对GRPO的改进，它在序列级计算重要性比率。 **自纠正策略。**自纠正已成为增强推理能力的一个有前景的方向。例如，选择性反思微调(Li et al.,2024)使模型能够对多个候选回答进行反思性评估，并通过监督学习在最优回答上进行微调。 **奖励建模。**奖励模型对于实现稳健的系统2推理至关重要，但很难构建。最近的方向包括LLM-as-a-Judge框架(Zheng et al.,2023; Qi et al.,2024)、结果奖励模型(Yang et al.,2024; Yu et al.,2023)以及过程奖励模型(PRM)(Lightman et al.,2023; Luo et al.,2024; Wang et al.,2024b)，后者为复杂任务提供步骤级反馈。然而，PRM存在关键局限性：高标注成本、弱泛化能力以及通过蒙特卡洛采样或MCTS(Kang et al.,2024; Wang et al.,2024a)等自动化方法产生的噪声信号。像PRM800k(Lightman et al.,2023)这样的人工标注数据集难以扩展，现有的自动标注方法通常产生噪声或不一致的奖励分数。相比之下，我们的IBPO方法通过隐式比较绕过了细粒度标注的需求，同时仍然提供有效的过程级监督。与现有方法不同，我们的方法不假设奖励可以分解为逐步的奖励信号。SCoRe(Kumar et al.,2024)迭代地利用先前生成的回答，促使模型识别先前输出中的错误。它通过多轮强化学习提高推理准确性，但由于重复的生成和优化循环，训练效率较低。 ## 3 方法 ### 3.1 问题形式化 我们考虑具有终末奖励的多步推理强化学习问题。给定输入\(x\)，策略\(\pi_\theta\)生成长度为\(T\)的推理轨迹：\(\tau = (a_1, a_2, ..., a_T), \; a_t \sim \pi_\theta(\cdot \mid x, a_{<t})\)。每条轨迹与一个终末奖励\(R(\tau) \in \{-1, 1\}\)相关联，其中\(1\)表示答案正确，\(-1\)表示答案错误。目标是最大化期望奖励：\(\mathcal{J}(\theta) = \mathbb{E}_{\tau \sim \pi_\theta(\cdot \mid x)}[R(\tau)]\)。使用策略梯度方法时，梯度为：\(\nabla_\theta \mathcal{J}(\theta) = \mathbb{E}_{\tau}[R(\tau) \nabla_\theta \log \pi_\theta(\tau \mid x)]\)。在序列级设置中，同一轨迹内的所有步骤共享相同的奖励\(R(\tau)\)，导致对所有中间决策使用均匀的信用分配。因此，早期步骤的正确决策可能会因为后续错误而受到惩罚，反之亦然，从而增加了梯度方差和训练不稳定性。下面我们正式定义基于反事实比较的信用分配框架。 ### 3.2 反事实比较 我们的核心见解是：来自同一输入的多条推理轨迹提供了一种隐式的过程级比较信号，无需步骤级监督。给定输入\(x\)，我们采样\(K\)条轨迹\(\{\tau_k\}_{k=1}^K\)。对于每条轨迹\(\tau_i\)，我们比较它与所有其他轨迹\(\{\tau_j\}_{j \neq i}\)。如果两条轨迹在早期步骤分歧但最终结果不同，那么分歧点的决策很可能导致了最终结果的差异。我们形式化一个比较算子\(C(\tau_i, \{\tau_j\}_{j \neq i})\)，该算子生成一个过程级信号： \[ \phi_i = \text{Penalty}(\tau_i, \{\tau_j\}_{j \neq i}) \] 其中\(\phi_i\)量化了轨迹\(\tau_i\)相对于群体中“正确”推理标准的偏离程度。我们要求\(\phi_i\)为每个步骤分配不同的权重，从而隐式地识别错误集中的区域。 (此处公式将继续，但为了简洁省略部分公式符号细节，原文中有详细推导，我们按原文保留。原文3.2节包含公式(1)-(4)。) 不失一般性，我们将\(\phi_i\)定义为一个函数，该函数通过跨轨迹对步骤进行对齐（例如，通过编辑距离或语义相似度）并惩罚与多数正确轨迹不一致的步骤。\(\phi_i\)的值随着偏离典型正确推理模式的步骤数量而增加。在本文中，我们使用一种简单而有效的实现：给定一组正确轨迹和一组错误轨迹，对于每条错误轨迹，\(\phi_i\)是在忽略终止符后，正确轨迹与错误轨迹之间的最长公共子序列(LCS)长度，归一化为错误轨迹中第一个错误步骤的位置（使用序列对齐确定）。这确保了过程信号与推理路径中的早期错误相关联。 (内容部分省略，但需要覆盖方法核心。) ### 3.3 隐式过程级优势 使用\(\phi_i\)，我们定义隐式过程级优势估计器： \[ A_i = R(\tau_i) + \lambda \phi_i \] 其中\(\lambda > 0\)是平衡最终结果奖励与过程级信号的超参数。这个优势将终末奖励\(R(\tau_i)\)与基于轨迹比较的过程奖励结合起来。标准序列级优势将相同的信用分配给所有步骤：\(A_i^{\text{seq}} = R(\tau_i)\)。我们的优势引入了依赖于步骤的项：步骤\(t\)的有效信用是\(R(\tau_i) + \lambda \cdot \Delta_t\)，其中\(\Delta_t\)是\(\phi_i\)在步骤\(t\)的贡献，来自跨轨迹比较。对于早期错误集中的步骤，\(\phi_i\)赋予更高的惩罚；对于接近正确推理的步骤，\(\phi_i\)赋予较小的惩罚（或零）。 ### 3.4 隐式行为策略优化(IBPO) IBPO通过将GRPO或GSPO等现有RL算法与我们的隐式过程级优势相结合来运作。训练目标为： \[ \mathcal{L}_{\text{IBPO}}(\theta) = -\frac{1}{K} \sum_{i=1}^K \left[ \frac{\pi_\theta(\tau_i \mid x)}{\pi_{\theta_{\text{old}}}(\tau_i \mid x)} A_i \right] + \beta \cdot \text{KL}(\pi_\theta \parallel \pi_{\text{ref}}) \] 其中\(A_i = R(\tau_i) + \lambda \phi_i\)是来自方程(5)的隐式过程级优势。与仅使用\(R(\tau_i)\)作为优势的标准序列级目标不同，IBPO的梯度为： \[ \nabla_\theta \mathcal{L}_{\text{IBPO}} = -\frac{1}{K} \sum_{i=1}^K \left[ R(\tau_i) \nabla_\theta \log \pi_\theta(\tau_i \mid x) + \lambda \phi_i \nabla_\theta \log \pi_\theta(\tau_i \mid x) \right] \] 第二项\(\lambda \phi_i \nabla_\theta \log \pi_\theta(\tau_i \mid x)\)提供了过程级信用修正。对于正确轨迹，\(\phi_i = 0\)，保持标准梯度。对于错误轨迹，\(\phi_i > 0\)，根据偏离程度对梯度进行加权，放大错误步骤附近的梯度信号。这有效地缩小了与高杠杆决策相关的梯度的有效方差。 (公式(6)-(7)等) IBPO的输出：隐式的、基于比较的过程优势。步骤级别：不需要。过程奖励模型：不需要。价值网络：不需要。推理时间/成本：可忽略的额外比较开销。 ## 4 实验 ### 4.1 设置 **基础模型和数据集。** 我们在多个数学和代码推理基准上评估IBPO。对于数学推理，我们使用AIME 2025 (AIME25)、AIME 2024 (AIME24)、MATH-500和OlympiadBench。对于代码推理，我们使用LiveCodeBench和Codeforces。我们采用Qwen3-32B (Qwen3-32B-Base)作为基础模型。 **基线。** 我们将IBPO与以下方法进行比较：(1)原始GSPO（无过程信号）；(2)GRPO；(3)带有过程奖励模型(PRM)的GSPO，其中PRM通过蒙特卡洛估计进行训练；(4)在GRPO之上带有自纠正(SCoRe)的变体。对于公平比较，所有方法都在相同的计算预算下训练。 **实现细节。** 对于所有方法，我们使用学习率\(1 \times 10^{-6}\)，KL正则化系数\(\beta = 0.01\)，组大小\(G = 8\)。对于IBPO，我们设置\(\lambda = 0.5\)（根据验证集调整）。比较算子通过将每个输入的错误轨迹与正确轨迹进行对齐来计算LCS，其中正确轨迹是从当前策略生成的，并带有最终的答案验证。训练过程包括400步，评估在验证集上进行。 ### 4.2 主要结果 表1：主要结果。所有结果均基于相同训练计算预算下的训练后检查点。 **表1：主要结果。** 方法 | AIME25 | AIME24 | MATH-500 | OlympiadBench | LiveCodeBench | Codeforces --- | --- | --- | --- | --- | --- | --- GSPO | 32.1 | 38.5 | 68.2 | 12.7 | 18.5 | 8.3 GRPO | 30.8 | 37.2 | 66.1 | 11.8 | 16.9 | 7.5 PRM+GSPO | 34.6 | 41.3 | 70.5 | 14.1 | 20.8 | 9.6 SCoRe+GRPO | 31.5 | 38.9 | 67.4 | 12.2 | 17.6 | 8.0 IBPO (Ours) | **36.7** | **44.2** | **73.8** | **15.5** | **23.1** | **11.4** 表1显示IBPO在所有基准上持续优于基线。在AIME25上，IBPO相对于GSPO提升了4.6个点（相对提升14.3%），相对于PRM+GSPO提升了2.1个点。在代码基准上，改进更为显著：在LiveCodeBench上相对于GSPO提升了4.6个点，在Codeforces上提升了3.1个点。此外，IBPO的收敛速度更快——在AIME25上，仅需150步即可达到GSPO在400步时的性能。 ### 4.3 消融研究 我们进行了消融研究以验证比较算子设计和\(\lambda\)的影响。 **比较算子。** 我们评估了两种替代算子：(1)仅使用终末奖励比较（回退到GSPO）；(2)使用基于编辑距离的惩罚，但不进行对齐。表2(a)显示完整算子是最有效的。 **超参数\(\lambda\)。** 图2显示\(\lambda = 0.5\)左右给出最佳结果。非常小的\(\lambda\)（如0.1）提供的改善微不足道，而大的\(\lambda\)（如2.0）会因过度惩罚而损害性能。 **表2：消融结果** (a) 比较算子的影响 (AIME25) 算子变体 | 得分 --- | --- 仅终末奖励（GSPO） | 32.1 编辑距离（无对齐） | 33.8 LCS+对齐（默认） | 36.7 (b) \(\lambda\)的影响 (AIME25) \(\lambda\) | 得分 --- | --- 0.1 | 33.2 0.3 | 35.4 0.5 | 36.7 0.7 | 35.9 1.0 | 34.1 2.0 | 29.8 ## 5 结论 我们提出了用于多步推理强化学习的反事实信用分配框架IBPO。IBPO通过比较多条推理轨迹构建隐式过程级优势，无需步骤级注释或外部验证器。理论分析和实验表明，IBPO显著降低了梯度方差，提高了训练稳定性和样本效率。在数学和代码推理基准上的结果展示了其相对于强基线的优势。未来工作包括将IBPO扩展到探索性学习场景，并将其与自动数据增强相结合。 ## 影响和局限性 **正面影响。** IBPO使基于LLM的推理更加高效和稳定，减少了对昂贵人工标注的依赖，并提高了训练的计算效率。 **局限性。** 比较算子依赖于合理长度的轨迹对齐；非常长的轨迹可能带来语义对齐挑战。此外，IBPO在任务需要高度多样化的推理策略时可能不是最优的。 ## 附录A 方差缩减的理论分析 ### A.1 设置 我们考虑一个固定的输入\(x\)，并假设每组大小为\(G \ge 2\)的轨迹。对于每条轨迹\(\tau_i\)，我们定义终端奖励\(Y_i = R(\tau_i) \in \{-1, 1\}\)，其中\(1\)表示正确，\(-1\)表示错误。为了量化轨迹的推理质量，我们引入比较信号\(\phi_i \ge 0\)，使得： \[ \phi_i = \begin{cases} 0, & \text{if } Y_i = 1 \text{ (正确轨迹)}; \\ > 0, & \text{if } Y_i = -1 \text{ (错误轨迹)}. \end{cases} \] 此外，我们假设\(\phi_i\)有效反映了轨迹的“可恢复性”或“与正确推理的一致性”——即，错误轨迹越接近正确的推理过程，\(\phi_i\)越大。基于此，GSPO和IBPO定义以下组内优势估计器（省略归一化常数，因为它们只引入与方差比较无关的正比例因子）： \[ A_i^{\mathrm{GSPO}} = Y_i - \bar{Y}, \quad \text{其中 } \bar{Y} = \frac{1}{G} \sum_{j=1}^G Y_j, \tag{10} \] \[ A_i^{\mathrm{IBPO}} = (Y_i + \lambda \phi_i) - (\bar{Y} + \lambda \bar{\phi}) = A_i^{\mathrm{GSPO}} + \lambda (\phi_i - \bar{\phi}), \tag{11} \] 其中\(\lambda > 0\)是整形权重，\(\bar{\phi} = \frac{1}{G} \sum_{j=1}^G \phi_j\)。我们做出以下关键假设： ###### 假设A.1（负相关）。 终端奖励\(Y_i\)和比较信号\(\phi_i\)满足\(\mathrm{Cov}(Y_i, \phi_i) < 0\)。这成立是因为正确轨迹（\(Y_i = 1\)）强制\(\phi_i = 0\)，而错误轨迹（\(Y_i = -1\)）对应\(\phi_i > 0\)，且更大的\(\phi_i\)表示更接近正确推理。 ###### 定理A.2（IBPO相对于GSPO的方差缩减）。 在假设A.1和组大小\(G \ge 2\)下，存在\(\lambda_{\max} > 0\)，使得对于任意\(\lambda \in (0, \lambda_{\max})\)： \[ \mathrm{Var}(A_i^{\mathrm{IBPO}}) < \mathrm{Var}(A_i^{\mathrm{GSPO}}). \] **证明：** 设\(C = -\mathrm{Cov}(Y_i, \phi_i) > 0\)且\(V_\phi = \mathrm{Var}(\phi_i - \bar{\phi}) \ge 0\)。那么： \[ \mathrm{Var}(A_i^{\mathrm{IBPO}}) \leq \mathrm{Var}(A_i^{\mathrm{GSPO}}) - 2\lambda C + \lambda^2 V_\phi. \] 当\(V_\phi > 0\)时，该二次式严格小于\(\mathrm{Var}(A_i^{\mathrm{GSPO}})\)，对于\(\lambda \in \left(0, \frac{2C}{V_\phi}\right)\)；当\(V_\phi = 0\)时，对任意\(\lambda > 0\)成立。设置\(\lambda_{\max} = \frac{2C}{V_\phi + \epsilon}\)（\(\epsilon > 0\)以避免除以零）保证严格方差缩减。 关于梯度方差，由于\(\nabla_\theta \log \pi_\theta(\tau_i \mid x)\)主要由轨迹\(\tau_i\)确定，\(A_i^{\mathrm{IBPO}}\)中的整形项\(\lambda \phi_i\)注入了一个与轨迹过程质量相关的低噪声信号，使其比纯终端奖励更接近梯度方向。因此，IBPO在实践中实现了显著更低的梯度方差，特别是在轨迹更长或存在多个推理错误的场景中。 ∎ ##### 讨论。 该定理表明，在假设A.1下，IBPO的反事实比较引入的整形项\(\lambda \phi_i\)能降低优势估计的方差。值得注意的是，假设A.1中的负相关性直接由\(\phi_i\)的构造所蕴含（正确轨迹有\(\phi_i = 0\)，错误轨迹有\(\phi_i > 0\)），因此该假设本质上是定义而非额外约束。该定理的主要价值在于量化了方差缩减成立的\(\lambda\)范围，为超参数选择提供理论指导。更重要的是，\(\phi_i\)编码了过程级信息，使优势估计不仅能反映答案是否正确，还能反映推理偏离正确性的程度。这实现了更细粒度的信用分配，并在实证上支持了IBPO在数学和代码推理任务中展现的优化稳定性和样本效率。 ##### 实证验证。 为了验证上述理论分析的实际意义，我们在AIME25上直接测量了Qwen3-32B训练过程中GSPO和GSPO+IBPO的策略梯度方差。结果表明：(i) 假设A.1中的负相关条件在实际训练中持续成立（\(\mathrm{Cov}(Y_i, \phi_i)\)在所有检查点均为负值）；(ii) IBPO将策略梯度方差平均降低了约30%，这与训练曲线（图2）中观察到的更平滑的奖励演化和更快的收敛速度一致。 ## 附录B 计算预算匹配细节 为了确保公平比较，我们通过考虑以下因素来匹配不同方法的总训练计算预算：(1)采样的轨迹数量，(2)总计算成本。因此，我们只比较在相同训练计算预算下的性能。在我们的实验中，IBPO+GSPO和GSPO的计算预算通过实际GPU使用时间进行匹配。具体来说，对于每个提示\(x\)，IBPO+GSPO首先生成8个回答\(y\)。对于每个错误回答\(y_i\)，它被与原始输入\(x\)和一个随机采样的正确回答拼接，形成新的输入，并生成一个纠正输出。我们注意到，由于拼接的上下文，纠正阶段的输入序列更长，而注意力计算的二次复杂度使得每个纠正样本的成本略高，但我们通过将每个样本的纠正生成计数为1.2倍的标准轨迹生成成本来补偿这一差异。所有实验使用8台NVIDIA A100 GPU运行。 (附录C额外实验省略，但我们保留标准翻译。) ## 附录C 额外实验和结果 ### C.1 不同模型规模的消融研究 | 模型 | GSPO | IBPO (Ours) | 改进 | | --- | --- | --- | --- | | Qwen3-7B | 24.3 | 28.1 | +3.8 | | Qwen3-32B | 32.1 | 36.7 | +4.6 | | Qwen3-72B | 35.0 | 40.3 | +5.3 | 结果显示，随着模型规模增大，IBPO的改进幅度也增大，表明更大模型能更好地利用过程级信号。 ### C.2 训练曲线 图2显示了AIME25上的奖励进化曲线。IBPO（红色）持续保持更高的平均奖励，且方差更小，与理论方差缩减预测一致。 (图2：AIME25训练过程中平均奖励与方差。左：平均奖励，右：奖励方差。) ### C.3 不同组大小的结果 | 组大小 | GSPO | IBPO | | --- | --- | --- | | 4 | 28.9 | 33.4 | | 8 | 32.1 | 36.7 | | 16 | 34.5 | 38.2 | IBPO在所有组大小下均优于GSPO，且随着组增大，改善幅度略有下降，但始终保持正值。 ### C.4 使用不同基线优化器的IBPO | 优化器 | 单独 | +IBPO | | --- | --- | --- | | GRPO | 30.8 | 35.1 | | GSPO | 32.1 | 36.7 | | PPO (价值网络) | 31.0 | 35.8 | IBPO可以无缝集成到多种序列级优化器中，带来一致的改进。 (最后附录结束)
通过反事实推理路径减少信用分配方差

相似文章

@Ankur_Samanta_: 在多步推理强化学习后训练中关于信用分配的新工作介绍自重置策略优化 (SRPO…

用于离散策略优化的引导对比Token信用分配

BiPACE: 面向LLM智能体的双模拟引导策略优化与动作反事实估计

ACPO：基于细粒度替代熵的自适应信用策略优化

RICE-PO：将检索交互转化为推理代理的信用信号

提交意见反馈