#探索：深度强化学习中基于计数的探索方法研究

OpenAI Blog 2016/11/15 08:00 论文

摘要

OpenAI研究人员展示了一种使用哈希码的简单计数型探索方法，在高维深度强化学习基准测试中可以达到近似最优性能，这挑战了计数型方法无法扩展到连续状态空间的传统假设。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:45

# 探索：深度强化学习中基于计数的探索研究来源：https://openai.com/index/exploration/ OpenAI ## 摘要在与表格强化学习（RL）方法结合用于求解小型离散马尔可夫决策过程（MDP）时，基于计数的探索算法已知能接近最优性能。通常认为基于计数的方法无法应用于高维状态空间，因为大多数状态只会出现一次。最近的深度强化学习探索策略能够通过复杂的启发式方法处理高维连续状态空间，通常依赖于不确定性下的乐观主义或内在动机。在这项工作中，我们描述了一个令人惊讶的发现：经典基于计数方法的简单泛化可以在各种高维和/或连续深度强化学习基准任务上达到接近最先进的性能。状态被映射到哈希码，这允许使用哈希表对其出现次数进行计数。这些计数随后被用来根据经典基于计数的探索理论计算奖励奖励。我们发现简单的哈希函数可以在许多具有挑战性的任务上取得令人惊讶的好结果。此外，我们展示了特定领域的学习哈希码可以进一步改进这些结果。详细的分析揭示了好的哈希函数的重要方面：1）具有适当的粒度，2）编码与求解MDP相关的信息。这种探索策略在连续控制任务和Atari 2600游戏上都达到接近最先进的性能，因此为求解需要相当探索的MDP提供了一个简单而强大的基线。

#探索：深度强化学习中基于计数的探索方法研究

相似文章

深度强化学习中的安全探索基准测试

通过Q集合进行UCB探索

学习探索：通过探索感知策略优化扩展代理推理

关于通过元强化学习学习探索的一些思考

大规模好奇心驱动学习研究

提交意见反馈