gradient-diversity

标签

Cards List
#gradient-diversity

并非所有转换都重要:来自PPO的证据

arXiv cs.LG · 2026-05-26 缓存

本文研究了使用PPO进行在线强化学习中的时间相关性问题,表明从轨迹中随机丢弃固定比例的转换可以减少梯度冗余并稳定训练,而不会降低性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈