标签
提出了串联强化学习(Tandem Reinforcement Learning, TRL),将串联训练范式扩展到基于可验证奖励的强化学习(RLVR),以提升推理在较弱模型和人类中的兼容性与可读性。结果表明,TRL在保持单模型性能的同时,增强了交接鲁棒性并减少了分布偏移。