on-policy-rl

标签

Cards List
#on-policy-rl

语言代理的策略与世界模型协同训练

Hugging Face Daily Papers · 2026-06-01 缓存

本文介绍PaW,一种协同训练框架,在在线策略强化学习(on-policy RL)轨迹中向策略学习添加辅助世界模型监督,无需额外计算开销即可改进语言代理的训练。

0 人收藏 0 人点赞
#on-policy-rl

并非所有转换都重要:来自PPO的证据

arXiv cs.LG · 2026-05-26 缓存

本文研究了使用PPO进行在线强化学习中的时间相关性问题,表明从轨迹中随机丢弃固定比例的转换可以减少梯度冗余并稳定训练,而不会降低性能。

0 人收藏 0 人点赞
#on-policy-rl

超越模式崩溃:面向多样化推理的分布匹配

arXiv cs.AI · 2026-05-20 缓存

本文识别了同策略强化学习方法(如GRPO)中的模式崩溃问题,并提出了DMPO,该方法通过近似前向KL散度最小化来保持解的多样性。在NP难组合优化和数学推理任务上取得了显著改进。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈