trust-region-optimization

标签

Cards List
#trust-region-optimization

大规模并行在策略强化学习的信任区域扩散策略

arXiv cs.LG · 3天前 缓存

介绍了TruDi,一种通过使用信任区域优化规则来强制KL散度约束,从而在大规模并行在策略强化学习中训练扩散策略的方法,在73个任务中取得了强劲性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈