关于通过元强化学习学习探索的一些思考

OpenAI Blog 论文

摘要

OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:45

# 关于通过元强化学习学习探索的若干思考 来源: https://openai.com/index/some-considerations-on-learning-to-explore-via-meta-reinforcement-learning/ OpenAI ## 摘要 我们研究了元强化学习中的探索问题。提出了两个新的元强化学习算法:E-MAML 和 E-RL2。我们在一个新型环境"Krazy World"以及一系列迷宫环境上呈现了结果。我们展示了 E-MAML 和 E-RL2 在探索至关重要的任务上提供了更好的性能。 - 学习范式 (https://openai.com/research/index/?tags=learning-paradigms) ## 作者 Bradly Stadie, Ge Yang, Rein Houthooft, Xi Chen, Yan Duan, Yuhuai Wu, Pieter Abbeel, Ilya Sutskever

相似文章

深度强化学习中的安全探索基准测试

OpenAI Blog

OpenAI 提议将约束强化学习标准化作为安全探索的形式化框架,并推出 Safety Gym——一个用于评估高维连续控制任务中安全深度强化学习算法的基准测试套件,这些任务包含安全约束。

进化策略梯度

OpenAI Blog

OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。

通过参数噪声实现更好的探索

OpenAI Blog

OpenAI 提出了参数噪声技术,该方法向神经网络策略参数添加自适应噪声,而不是向动作空间添加噪声,使得智能体能够比传统动作噪声方法快得多地学习任务。该方法在 HalfCheetah 上实现了 2 倍的学习速度提升,代表了进化策略与 TRPO、DDPG 等深度强化学习方法之间的平衡点。