tandem-training

#tandem-training

Tandem Reinforcement Learning with Verifiable Rewards

arXiv cs.AI ↗ · 昨天缓存

提出了串联强化学习（Tandem Reinforcement Learning, TRL），将串联训练范式扩展到基于可验证奖励的强化学习（RLVR），以提升推理在较弱模型和人类中的兼容性与可读性。结果表明，TRL在保持单模型性能的同时，增强了交接鲁棒性并减少了分布偏移。

0 人收藏 0 人点赞