tandem-training

标签

Cards List
#tandem-training

Tandem Reinforcement Learning with Verifiable Rewards

arXiv cs.AI · 昨天 缓存

提出了串联强化学习(Tandem Reinforcement Learning, TRL),将串联训练范式扩展到基于可验证奖励的强化学习(RLVR),以提升推理在较弱模型和人类中的兼容性与可读性。结果表明,TRL在保持单模型性能的同时,增强了交接鲁棒性并减少了分布偏移。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈