标签
本文介绍PaW,一种协同训练框架,在在线策略强化学习(on-policy RL)轨迹中向策略学习添加辅助世界模型监督,无需额外计算开销即可改进语言代理的训练。
本文研究了使用PPO进行在线强化学习中的时间相关性问题,表明从轨迹中随机丢弃固定比例的转换可以减少梯度冗余并稳定训练,而不会降低性能。
本文识别了同策略强化学习方法(如GRPO)中的模式崩溃问题,并提出了DMPO,该方法通过近似前向KL散度最小化来保持解的多样性。在NP难组合优化和数学推理任务上取得了显著改进。