通过Q集合进行UCB探索

OpenAI Blog 2017/06/05 07:00 论文

reinforcement-learning exploration q-learning ucb ensemble-methods deep-rl atari

摘要

OpenAI提出了一种针对深度强化学习的新型探索策略，使用具有上置信界(UCB)的Q函数集合，在Atari基准上展现了显著的性能提升。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:45

# 通过Q-集合的UCB探索来源：https://openai.com/index/ucb-exploration-via-q-ensembles/ OpenAI ## 摘要我们展示了如何利用Q*函数的集合在深度强化学习中实现更有效的探索。我们建立在来自bandit问题领域的成熟算法基础上，并将其适配到Q-学习设置中。我们提出了一种基于上置信界(UCB)的探索策略。我们的实验在Atari基准上展示了显著的性能提升。

相似文章

#探索：深度强化学习中基于计数的探索方法研究

OpenAI Blog

OpenAI研究人员展示了一种使用哈希码的简单计数型探索方法，在高维深度强化学习基准测试中可以达到近似最优性能，这挑战了计数型方法无法扩展到连续状态空间的传统假设。

深度强化学习中的安全探索基准测试

OpenAI Blog

OpenAI 提议将约束强化学习标准化作为安全探索的形式化框架，并推出 Safety Gym——一个用于评估高维连续控制任务中安全深度强化学习算法的基准测试套件，这些任务包含安全约束。

从单个演示中学习蒙特祖玛的复仇

OpenAI Blog

OpenAI 展示了一种通过单个人类演示来训练强化学习智能体玩蒙特祖玛的复仇的方法，通过课程学习和仔细的超参数调优来解决稀疏奖励的挑战。该方法在这款臭名昭著的 Atari 游戏上取得了强劲表现，但在其他游戏上的泛化能力有限。

关于通过元强化学习学习探索的一些思考

OpenAI Blog

OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法，旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。

大规模好奇心驱动学习研究

OpenAI Blog

OpenAI 展示了一项大规模实证研究，研究了在 54 个基准环境中不依赖外在奖励的好奇心驱动强化学习，展现了强大的性能，并探讨了特征空间在基于预测的奖励信号中的作用。

相似文章

#探索：深度强化学习中基于计数的探索方法研究

深度强化学习中的安全探索基准测试

从单个演示中学习蒙特祖玛的复仇

关于通过元强化学习学习探索的一些思考

大规模好奇心驱动学习研究

提交意见反馈