trust-region-optimization

标签

#trust-region-optimization

大规模并行在策略强化学习的信任区域扩散策略

arXiv cs.LG ↗ · 3天前缓存

介绍了TruDi，一种通过使用信任区域优化规则来强制KL散度约束，从而在大规模并行在策略强化学习中训练扩散策略的方法，在73个任务中取得了强劲性能。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈