Tandem Reinforcement Learning with Verifiable Rewards

arXiv cs.AI 论文

摘要

提出了串联强化学习(Tandem Reinforcement Learning, TRL),将串联训练范式扩展到基于可验证奖励的强化学习(RLVR),以提升推理在较弱模型和人类中的兼容性与可读性。结果表明,TRL在保持单模型性能的同时,增强了交接鲁棒性并减少了分布偏移。

arXiv:2606.28166v1 公告类型: 新 摘要: 基于可验证奖励的强化学习(RLVR)显著提升了大语言模型的推理能力,在竞赛数学等领域达到了专家甚至超人类水平。然而,较弱智能体与人类能否真正利用这一能力尚不确定,已有研究表明RLVR会导致推理向特定模式偏移,如可读性差和语言混杂。串联训练是一种近期提出的针对该兼容性问题的范式:一个经过训练的较强高级模型与一个冻结的较弱低级模型协同生成每次采样,两者作为一个团队获得奖励,从而推动高级模型以低级模型可跟随的方式进行推理。但该范式目前仅在概念验证场景中得到展示,尚不清楚其能否扩展到现代RLVR流水线中的长思维链。本文提出了串联强化学习(Tandem Reinforcement Learning, TRL),将串联训练范式引入RLVR。在TRL中,高级模型与冻结的低级模型随机交替协同生成推理过程,生成的序列获得奖励,并对高级模型应用标准的GRPO损失。在竞赛数学任务上训练Qwen3-4B-Instruct后,我们发现TRL在单体推理能力上与标准GRPO相当,同时从相同的采样结构中浮现出三个特性:更强的低级模型交接鲁棒性、更小的低级模型分布偏移,以及更易于低级模型理解的思维链。我们的结果展示了RLVR在多模型通信与人类兼容性方面具有实际回报的可行路径。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:28

# 具有可验证奖励的串行强化学习 来源: https://arxiv.org/html/2606.28166 焦迪凡†∗Raghav Singhal‡Robert West‡Ashton Anderson†∗ †多伦多大学‡EPFL ∗联系方式:\{difanjiao, ashton\}@cs\.toronto\.edu ###### 摘要 具有可验证奖励的强化学习(RLVR)显著提升了大语言模型的推理能力,在竞赛数学等领域达到了专家甚至超人类水平。然而,较弱的智能体和人类能否真正利用这种能力远未确定,已有文献记载RLVR会使推理向一些奇特的模式偏移,例如可读性差和语言混合。串行训练是一种新近引入的范式,旨在解决这种兼容性问题:一个经过训练的、更强的资深模型与一个冻结的、较弱的初级模型共同生成每次轨迹,两者作为一个团队获得奖励,从而推动资深模型以初级模型能够遵循的方式进行推理。然而,迄今为止,这种范式仅在概念验证场景中展示过,尚不清楚它是否能扩展到现代RLVR管道的长思维链。在这项工作中,我们提出了串行强化学习(TRL),将串行训练范式引入RLVR。在TRL中,资深模型和冻结的初级模型随机交替协作生成推理过程,生成的推理获得奖励,并对资深模型应用标准的GRPO损失。在竞赛数学任务上训练Qwen3-4B-Instruct,我们发现TRL在独立推理能力上与vanilla GRPO相当,同时从相同的轨迹结构中涌现出三个特性:与初级模型更强的交接鲁棒性、与初级模型之间的分布漂移减少,以及对初级模型更可读的思维链。我们的结果为RLVR展示了一条有前景的路径,在多模型通信和人机兼容性方面具有实际价值。111代码库可在https://github.com/CSSLab/Tandem-RLVR获取。 ## 1引言 具有可验证奖励的强化学习(RLVR)已成为语言模型后训练中的主导范式。在RLVR中,模型采样一个解,外部验证器评估最终答案,策略优化则强化成功的轨迹。这个简单的循环已被证明非常有效,在数学和竞赛类基准测试上取得了巨大提升,并在无需过程监督的情况下引出了长程、自我纠正的思维链(Shao et al., 2024 (https://arxiv.org/html/2606.28166#bib.bib3); Guo et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib22); Yu et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib27))。 然而,这个目标有一个重要缺点:它可以在不要求推理轨迹与更弱智能体保持兼容的情况下提升基准性能。一个模型可能变得更擅长解决问题,但同时其推理模式却朝着其RL之前的基模型、更弱的伙伴模型或人类监督者更难预测、延续或理解的方向发展。这种担忧并非假设:已知RLVR会引发与基策略的显著分布漂移(Guo et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib22); Li et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib37); Meng et al., 2026 (https://arxiv.org/html/2606.28166#bib.bib36)),最近的研究表明,某些推理行为可能集中在奇特的token模式中,而非透明的表层解释(Kirchner et al., 2024 (https://arxiv.org/html/2606.28166#bib.bib48); Karpov et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib31); Skaf et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib32))。对于监督和多智能体系统而言,这是一个严重的弱点,因为模型的推理通常只有在较弱的用户、监控器或伙伴模型仍能跟随并据此行动时才有用(Burns et al., 2023 (https://arxiv.org/html/2606.28166#bib.bib34); Lightman et al., 2023 (https://arxiv.org/html/2606.28166#bib.bib5); Davidson et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib28))。针对这种漂移的标准防御方法,例如针对参考策略的KL惩罚(Ziegler et al., 2019 (https://arxiv.org/html/2606.28166#bib.bib43); Ouyang et al., 2022 (https://arxiv.org/html/2606.28166#bib.bib25))、监督蒸馏(Hinton et al., 2015 (https://arxiv.org/html/2606.28166#bib.bib45); Magister et al., 2023 (https://arxiv.org/html/2606.28166#bib.bib46))或过程监督(Uesato et al., 2022 (https://arxiv.org/html/2606.28166#bib.bib47); Lightman et al., 2023 (https://arxiv.org/html/2606.28166#bib.bib5)),都要求设计者事先明确承诺“可理解”推理看起来是什么样,并将其编码为参考分布或标注轨迹。在狭窄的部署环境之外,这样的规范很难写出来(Bai et al., 2022 (https://arxiv.org/html/2606.28166#bib.bib4); Lightman et al., 2023 (https://arxiv.org/html/2606.28166#bib.bib5))。 串行训练(tandem training),一种新近引入的训练范式(Hamade et al., 2024 (https://arxiv.org/html/2606.28166#bib.bib2); West et al., 2026 (https://arxiv.org/html/2606.28166#bib.bib1)),提供了一个潜在的解决方案。它不是惩罚与固定参考的距离,而是让一个经过训练的*资深*模型与一个冻结的*初级*伙伴模型共同生成每条轨迹,整个团队作为整体获得奖励。这样,成功的轨迹,按其构造方式,就是初级模型本可以延续的轨迹。可理解性因此通过结果来操作化,而非事先声明。先前的工作在国际象棋(Hamade et al., 2024 (https://arxiv.org/html/2606.28166#bib.bib2))和简化推理环境(West et al., 2026 (https://arxiv.org/html/2606.28166#bib.bib1))中展示了概念验证,但仍不清楚该范式能否为现代RLVR管道提供可理解性。 参见图注 图1:串行强化学习(TRL)概览。 在这项工作中,我们引入了串行强化学习(Tandem Reinforcement Learning),将串行训练范式带入GRPO风格的RLVR。如图1 (https://arxiv.org/html/2606.28166#S1.F1)所示,一个可训练的资深模型和一个冻结的初级模型,两者均从相同的基模型初始化,通过随机交替生成词边界来协作生成每个回答。完成的回答接收通常的二元验证器奖励,资深模型在其发射的token上使用标准GRPO目标进行更新。因此,TRL只改变了轨迹的生产方式,而不改变奖励、验证器或策略梯度损失,TRL和GRPO训练的资深模型之间的差异可完全归因于轨迹结构。在竞赛数学任务上训练Qwen3-4B-Instruct,我们发现,仅仅改变轨迹结构,三个属性便同时涌现。首先,与匹配的GRPO基线相比,TRL在竞赛基准测试上保留了独立的推理能力。其次,我们发现TRL提高了交接鲁棒性(handoff robustness)。在推理阶段,当按照推理步骤计划与冻结的初级模型配对使用时,TRL资深模型在AIME上的pass@8得分比GRPO资深模型高出最多+6.6个百分点。第三,分布漂移显著减小,可读性提高。TRL的边际token分布与基模型在词汇表上的分布保持得更近(KL散度降低14%);在GRPO位移最大的500个token中,87%在TRL下向基模型回移;并且,资深模型的思维链对基模型变得更可读,在初级模型下的每个token交叉熵下降了高达17%。一个在vanilla GRPO基础上增加每个token朝向初级模型的KL惩罚的消融实验,未能复现这些增益,这表明这些增益来自串行轨迹结构,而非朝向初级模型的正则化。我们的结果表明,与较弱伙伴的兼容性、对基模型的分布锚定以及完整的RLVR能力,可以通过对轨迹结构的同一干预获得,而无需修改奖励、验证器或损失。这昭示了轨迹结构是RLVR管道中一个尚未充分探索的设计维度,在多模型通信和人机兼容性方面具有实际价值。 ## 2相关工作 串行训练。串行训练由Hamade等人(2024 (https://arxiv.org/html/2606.28166#bib.bib2))首先在国际象棋中引入,他们展示了优化伙伴兼容性(即与较弱协作者一起赢得团队比赛)是一个不同于优化原始能力的独立目标。在West等人(2026 (https://arxiv.org/html/2606.28166#bib.bib1))的工作中,这种串行训练范式被带入语言建模,在GSM8K上证明了在RL期间随机将任务交接给冻结的初级模型,可以在保持任务准确性的同时,教会更强的资深模型放弃行话并使其语言适应较弱的伙伴。 具有可验证奖励的强化学习(RLVR)。推理后训练的近期进展利用了具有可验证奖励的强化学习(RLVR)。Shao等人(2024 (https://arxiv.org/html/2606.28166#bib.bib3))引入了群体相对策略优化(Group Relative Policy Optimization, GRPO)作为该场景的实用方案,Guo等人(2025 (https://arxiv.org/html/2606.28166#bib.bib22))证明了仅使用结果型RL就能在不需过程监督的情况下引出强大的推理能力。一个不断增长的后续文献沿着两个维度扩展了GRPO的设计空间:优化侧的变体重新审视稳定性、优化偏差和比率汇聚(Yu et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib27); Liu et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib21); Zheng et al., 2025a (https://arxiv.org/html/2606.28166#bib.bib16); Zhao et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib17); Chu et al., 2025a (https://arxiv.org/html/2606.28166#bib.bib18); Zeng et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib19)),而轨迹侧的工作则针对采样效率、提示过滤和高信号轨迹的重放(Zhang et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib38); Zhan et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib39); Zheng et al., 2025b (https://arxiv.org/html/2606.28166#bib.bib40))。TRL的粒度比这两个维度都更精细:它在单条轨迹内修改了谁发射每个token这一*轨迹结构*,而损失聚合和轨迹管理策略均保持不变。 RLVR引起的分布漂移。一个已有文档记载的RLVR实证规律是,经过训练的策略会明显偏离预训练基分布。DeepSeek-R1-Zero,一个纯结果型RLVR模型,表现出训练带来的副作用:可读性差和未经提示的语言混杂(Guo et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib22))。Li等人(2025 (https://arxiv.org/html/2606.28166#bib.bib37))明确指出RLVR是触发双语推理模型中英中代码切换的后训练阶段,近期工作进一步揭示了隐写式的思维链模式,其中推理成为承载负荷但下游监控器无法检测的模式(Kirchner et al., 2024 (https://arxiv.org/html/2606.28166#bib.bib48); Karpov et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib31); Skaf et al., 2025 (https://arxiv.org/html/2606.28166#bib.bib32))。这种漂移也会带来下游成本,因为近期工作发现,教师和学生之间兼容的token级分布是成功的同策略蒸馏的一个控制性条件(Li et al., 2026 (https://arxiv.org/html/2606.28166#bib.bib49))。另一方面,近期一条互补的工作线认为,并非所有漂移都是无益的。Meng等人(2026 (https://arxiv.org/html/2606.28166#bib.bib36))通过token级交叉采样干预表明,一小部分高散度的位置在功能上负责RLVR的推理增益。 串行训练迄今为止仅在RLVR管道之外的概念验证环境中得到展示。我们将该范式引入RLVR——当前推理型LLM背后的主流后训练框架——并观察所得模型在独立运行时以及与较弱协作者合作时的行为表现。 ## 3串行强化学习 ### 3.1预备知识:串行训练 串行训练(serial training)(Hamade et al., 2024 (https://arxiv.org/html/2606.28166#bib.bib2); West et al., 2026 (https://arxiv.org/html/2606.28166#bib.bib1))是一种新近引入的训练范式,其中两个语言模型共同产生每条轨迹。一个可训练的*资深*策略πsen\\pi\_\{\\text\{sen\}\}和一个冻结的*初级*策略πjun\\pi\_\{\\text\{jun\}\}随机交替生成,在预设的交接边界(如token、单词或句子)处通过抛硬币决定下一个活跃模型(例如,如果我们选择在token级别交替,那么对每个token我们都抛硬币决定哪个模型生成下一个token)。共同构建的轨迹作为一条轨迹由一个奖励函数评分,资深模型使用策略梯度算法针对该奖励进行更新,而初级模型保持不变。 串行训练旨在产生更*兼容*的模型。兼容性(或称可理解性)的一个操作性定义是*交接鲁棒性*(handoff robustness)(West et al., 2026 (https://arxiv.org/html/2606.28166#bib.bib1)):如果一个模型的输出可以被另一个智能体在不破坏轨迹的前提下延续,那么这个模型的输出对该智能体就是可理解的。如果一条串行训练轨迹成功结束,那么资深模型必定是以初级模型能够延续而不破坏轨迹的方式进行生成。因此,强化这样的轨迹会选择那些初级模型能成功协作的资深行为,从而促进兼容性。在这种设置中,不需要对“可理解性”给出明确定义——因为我们使用可验证奖励,我们可以直接衡量资深-初级串行团队在任意给定点的成功程度。这很有吸引力,因为可理解性否则很难编码:明确的方法,如系统提示或对标准解进行监督微调,都需要一种依赖于部署环境的*a priori*规范(West et al., 2026 (https://arxiv.org/html/2606.28166#bib.bib1); Bai et al., 2022 (https://arxiv.org/html/2606.28166#bib.bib4); Lightman et al., 2023 (https://arxiv.org/html/2606.28166#bib.bib5))。 在这项工作中,我们将串行训练范式推广到具有可验证奖励的强化学习(RLVR),这是当代大型推理模型的基石。我们将我们的实例化称为串行强化学习(Tandem Reinforcement Learning, TRL)。为适应RLVR,我们做出三个设计选择:资深和初级模型从相同的基模型初始化(§3.2 (https://arxiv.org/html/2606.28166#S3.SS2));交接发生在词级别(§3.3 (https://arxiv.org/html/2606.28166#S3.SS3));资深模型使用与群体相对策略优化(GRPO)(Shao et al., 2024 (https://arxiv.org/html/2606.28166#bib.bib3))相同的方式,在其自身发射的token上进行更新(§3.4 (https://arxiv.org/html/2606.28166#S3.SS4))。我们现在依次讨论这些选择。 ### 3.2串行对 在一般串行训练中,资深智能体通常比初级更强,或至少在风格上不同,这样资深模型必须调整以与能力较弱的伙伴兼容。在本文中将串行训练适配到RLVR的工作中,这种非对称配对仍然可行,但我们从自然的选择开始:将初级模型设置为资深模型自身在RL之前的初始化——训练之前,初级和资深模型从彼此的相同副本开始。这种自我配对提供了方法论上的好处。

相似文章

视频模型可通过可验证奖励进行推理

Hugging Face Daily Papers

VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。

Reasoning Arena: 当可验证奖励不足时的追踪锦标赛

Hugging Face Daily Papers

Reasoning Arena 通过使用追踪锦标赛和Bradley-Terry模型,从非多样化奖励组中生成有意义的梯度,从而改进了基于可验证奖励的强化学习,实现了更快的训练和更好的推理性能。

通过图灵奖励训练用户模拟器

Hugging Face Daily Papers

本文介绍了一种名为Turing-RL的强化学习方法,该方法利用基于图灵测试的奖励来训练语言模型,使其在对话和论坛场景中生成与人类用户无法区分的回复,性能优于基线方法。