@Ankur_Samanta_: 在多步推理强化学习后训练中关于信用分配的新工作介绍自重置策略优化 (SRPO…

X AI KOLs Timeline 2026/06/22 19:26 论文

credit-assignment multi-step-reasoning reinforcement-learning policy-optimization self-reset counterfactual-learning

摘要

自重置策略优化 (SRPO) 通过在多步推理强化学习后训练中定位第一个错误的推理步骤并从中学习反事实延续，而无需外部监督，来解决信用分配问题。

🚀在多步推理强化学习后训练中关于信用分配的新工作🚀 介绍自重置策略优化 (SRPO): i) 定位第一个错误的推理步骤, ii) 重置到该步骤, iii) 从那里学习反事实延续 – 无需外部监督。🧵 https://t.co/A1KHt2CRCF

查看原文

查看缓存全文

缓存时间: 2026/06/23 16:12

🚀多步推理强化学习后训练中的信用分配新工作🚀
提出自重置策略优化（SRPO）：i) 定位首个错误推理步骤，ii) 重置到该步骤，iii) 从那里学习反事实延续——无需外部监督。🧵 https://t.co/A1KHt2CRCF

在强化学习中，能够重置到任意状态的能力极其强大（参见例如 Go-Explore），但往往不切实际。

然而对于 LLM，状态即 token，因此重置自然可行！在 @Ankur_Samanta_ 领导的工作中，我们提出了一种 GRPO 变体，使模型能够“自重置然后重新采样”。

如今的 RLVR 对多步轨迹中的每一步都施加相同的结局奖励。实际导致失败的那一步与正确步骤获得相同的信用。信用分配被破坏——从而浪费了信号。
[2\n]

那么，这如何改善信用分配呢？从错误推理步骤重新采样提供了密集的、策略内的自纠正信号——这些是可改进的决策点，存在严格更优的动作，因此更多延续能产生更好的梯度。
[3\n]

为了量化重置到首个错误推理步骤相比随机重置的优势，我们通过保守策略迭代（CPI；Kakade & Langford, 2002）的视角对两者进行了分析。CPI-RR 在轨迹内随机重置到一个状态。
[4\n]

CPI-CARO 使用一个信用分配预言机——一种检测可改进状态（优势 > τ）的测试——仅重置到尚有改进空间的地方。我们证明，与 CPI-RR 相比，CPI-CARO 降低了样本复杂度并增加了每轮迭代的改进量。
[5\n]

改进的两个来源：i) 更好的信噪比，以及 ii) 仅在能够显著改进的状态上进行针对性更新。

我们希望这能为在策略优化中更好地理解信用分配提供一个框架。
[6\n]

SRPO 在实践中实例化了 CPI-CARO：自定位充当预言机。定位质量是关键——干净的前缀产生的正确后缀组数量接近两倍——因此有效的步骤级自定位是一个未来的关键方向。
[7\n]

在包含 10 个基准测试（数学、科学、策略、常识）的套件中，SRPO 击败了 GRPO 及其他自纠正/树基基线。优势延伸至代码生成：SRPO 收敛到更高的通过率，并且学习速度比无重置（GRPO）和随机重置（RRPO）快 2–3 倍。
[8\n]

总体而言，我们研究了如何将重置作为强化学习后训练的信用分配原语。自定位重置在性能和样本效率上均优于随机重置和无重置——而自定位虽不完美，却是信用分配预言机的有效代理。
[9\n]

随着智能体轨迹越来越长，包含多个中间决策步骤，我们预计针对性的信用分配对于设计更高效的后训练方法至关重要。

论文：https://arxiv.org/abs/2605.25507
代码：https://github.com/Ankur-Samanta/SRPO…
[10\n]

衷心感谢团队：Akshayaa Magesh、@Ayushj240、于优亮、@danielrjiang、Kavosh Asadi、@KavehHassani、@BMEChairCU、Jalaj Bhandari、@EfroniYonathan

相似文章