关于通过元强化学习学习探索的一些思考

OpenAI Blog 2018/03/03 08:00 论文

摘要

OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法，旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。

暂无内容

查看缓存全文

缓存时间: 2026/04/20 14:45

# 关于通过元强化学习学习探索的若干思考来源: https://openai.com/index/some-considerations-on-learning-to-explore-via-meta-reinforcement-learning/ OpenAI ## 摘要我们研究了元强化学习中的探索问题。提出了两个新的元强化学习算法：E-MAML 和 E-RL2。我们在一个新型环境"Krazy World"以及一系列迷宫环境上呈现了结果。我们展示了 E-MAML 和 E-RL2 在探索至关重要的任务上提供了更好的性能。 - 学习范式 (https://openai.com/research/index/?tags=learning-paradigms) ## 作者 Bradly Stadie, Ge Yang, Rein Houthooft, Xi Chen, Yan Duan, Yuhuai Wu, Pieter Abbeel, Ilya Sutskever

关于通过元强化学习学习探索的一些思考

相似文章

#探索：深度强化学习中基于计数的探索方法研究

深度强化学习中的安全探索基准测试

进化策略梯度

@SergioPaniego：OpenEnv的教程增长迅速。如果你刚开始接触强化学习环境，不妨去看看 > 评估……

通过参数噪声实现更好的探索

提交意见反馈