on-policy-rl

#on-policy-rl

大规模并行在策略强化学习的信任区域扩散策略

arXiv cs.LG ↗ · 2026-06-16 缓存

介绍了TruDi，一种通过使用信任区域优化规则来强制KL散度约束，从而在大规模并行在策略强化学习中训练扩散策略的方法，在73个任务中取得了强劲性能。

0 人收藏 0 人点赞

#on-policy-rl

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

本文介绍PaW，一种协同训练框架，在在线策略强化学习（on-policy RL）轨迹中向策略学习添加辅助世界模型监督，无需额外计算开销即可改进语言代理的训练。

0 人收藏 0 人点赞

#on-policy-rl

arXiv cs.LG ↗ · 2026-05-26 缓存

本文研究了使用PPO进行在线强化学习中的时间相关性问题，表明从轨迹中随机丢弃固定比例的转换可以减少梯度冗余并稳定训练，而不会降低性能。

0 人收藏 0 人点赞

#on-policy-rl

arXiv cs.AI ↗ · 2026-05-20 缓存

本文识别了同策略强化学习方法（如GRPO）中的模式崩溃问题，并提出了DMPO，该方法通过近似前向KL散度最小化来保持解的多样性。在NP难组合优化和数学推理任务上取得了显著改进。

0 人收藏 0 人点赞