@Ankur_Samanta_: 在多步推理强化学习后训练中关于信用分配的新工作 介绍自重置策略优化 (SRPO…

X AI KOLs Timeline 论文

摘要

自重置策略优化 (SRPO) 通过在多步推理强化学习后训练中定位第一个错误的推理步骤并从中学习反事实延续,而无需外部监督,来解决信用分配问题。

🚀在多步推理强化学习后训练中关于信用分配的新工作🚀 介绍自重置策略优化 (SRPO): i) 定位第一个错误的推理步骤, ii) 重置到该步骤, iii) 从那里学习反事实延续 – 无需外部监督。🧵 https://t.co/A1KHt2CRCF
查看原文
查看缓存全文

缓存时间: 2026/06/23 16:12

🚀多步推理强化学习后训练中的信用分配新工作🚀
提出自重置策略优化(SRPO):i) 定位首个错误推理步骤,ii) 重置到该步骤,iii) 从那里学习反事实延续——无需外部监督。🧵 https://t.co/A1KHt2CRCF

在强化学习中,能够重置到任意状态的能力极其强大(参见例如 Go-Explore),但往往不切实际。

然而对于 LLM,状态即 token,因此重置自然可行!在 @Ankur_Samanta_ 领导的工作中,我们提出了一种 GRPO 变体,使模型能够“自重置然后重新采样”。

如今的 RLVR 对多步轨迹中的每一步都施加相同的结局奖励。实际导致失败的那一步与正确步骤获得相同的信用。信用分配被破坏——从而浪费了信号。
[2\n]

那么,这如何改善信用分配呢?从错误推理步骤重新采样提供了密集的、策略内的自纠正信号——这些是可改进的决策点,存在严格更优的动作,因此更多延续能产生更好的梯度。
[3\n]

为了量化重置到首个错误推理步骤相比随机重置的优势,我们通过保守策略迭代(CPI;Kakade & Langford, 2002)的视角对两者进行了分析。CPI-RR 在轨迹内随机重置到一个状态。
[4\n]

CPI-CARO 使用一个信用分配预言机——一种检测可改进状态(优势 > τ)的测试——仅重置到尚有改进空间的地方。我们证明,与 CPI-RR 相比,CPI-CARO 降低了样本复杂度并增加了每轮迭代的改进量。
[5\n]

改进的两个来源:i) 更好的信噪比,以及 ii) 仅在能够显著改进的状态上进行针对性更新。

我们希望这能为在策略优化中更好地理解信用分配提供一个框架。
[6\n]

SRPO 在实践中实例化了 CPI-CARO:自定位充当预言机。定位质量是关键——干净的前缀产生的正确后缀组数量接近两倍——因此有效的步骤级自定位是一个未来的关键方向。
[7\n]

在包含 10 个基准测试(数学、科学、策略、常识)的套件中,SRPO 击败了 GRPO 及其他自纠正/树基基线。优势延伸至代码生成:SRPO 收敛到更高的通过率,并且学习速度比无重置(GRPO)和随机重置(RRPO)快 2–3 倍。
[8\n]

总体而言,我们研究了如何将重置作为强化学习后训练的信用分配原语。自定位重置在性能和样本效率上均优于随机重置和无重置——而自定位虽不完美,却是信用分配预言机的有效代理。
[9\n]

随着智能体轨迹越来越长,包含多个中间决策步骤,我们预计针对性的信用分配对于设计更高效的后训练方法至关重要。

论文:https://arxiv.org/abs/2605.25507
代码:https://github.com/Ankur-Samanta/SRPO…
[10\n]

衷心感谢团队:Akshayaa Magesh、@Ayushj240、于优亮、@danielrjiang、Kavosh Asadi、@KavehHassani、@BMEChairCU、Jalaj Bhandari、@EfroniYonathan

相似文章

通过反事实推理路径减少信用分配方差

arXiv cs.LG

提出隐式行为策略优化(IBPO),一种基于反事实比较的信用分配框架,通过将稀疏的终端奖励转化为对步骤敏感的学习信号,提升了大型语言模型在多步推理任务中的训练稳定性和性能。

面向多模态推理的结构化角色感知策略优化

arXiv cs.AI

本文介绍了结构化角色感知策略优化(SRPO),该方法通过在大视觉-语言模型的强化学习框架内,根据感知和推理的不同角色分配令牌级信用,从而提升多模态推理能力。

RICE-PO:将检索交互转化为推理代理的信用信号

arXiv cs.CL

RICE-PO 是一个无需评判器的策略优化框架,它将检索交互转化为局部化信用信号,用于训练推理代理。在相同检索器设置下,该框架在 BRIGHT 和 BEIR 基准测试中持续优于基于提示的代理和基于组的强化学习基线。

GraphPO:面向推理模型的基于图策略优化

arXiv cs.CL

GraphPO 是一种新颖的基于图的强化学习框架,它将轨迹表示为一个有向无环图,合并语义等价的推理路径,以减少冗余探索并改进大型推理模型的信用分配。