#探索:深度强化学习中基于计数的探索方法研究
摘要
OpenAI研究人员展示了一种使用哈希码的简单计数型探索方法,在高维深度强化学习基准测试中可以达到近似最优性能,这挑战了计数型方法无法扩展到连续状态空间的传统假设。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:45
# 探索:深度强化学习中基于计数的探索研究
来源:https://openai.com/index/exploration/
OpenAI
## 摘要
在与表格强化学习(RL)方法结合用于求解小型离散马尔可夫决策过程(MDP)时,基于计数的探索算法已知能接近最优性能。通常认为基于计数的方法无法应用于高维状态空间,因为大多数状态只会出现一次。最近的深度强化学习探索策略能够通过复杂的启发式方法处理高维连续状态空间,通常依赖于不确定性下的乐观主义或内在动机。在这项工作中,我们描述了一个令人惊讶的发现:经典基于计数方法的简单泛化可以在各种高维和/或连续深度强化学习基准任务上达到接近最先进的性能。状态被映射到哈希码,这允许使用哈希表对其出现次数进行计数。这些计数随后被用来根据经典基于计数的探索理论计算奖励奖励。我们发现简单的哈希函数可以在许多具有挑战性的任务上取得令人惊讶的好结果。此外,我们展示了特定领域的学习哈希码可以进一步改进这些结果。详细的分析揭示了好的哈希函数的重要方面:1)具有适当的粒度,2)编码与求解MDP相关的信息。这种探索策略在连续控制任务和Atari 2600游戏上都达到接近最先进的性能,因此为求解需要相当探索的MDP提供了一个简单而强大的基线。
相似文章
深度强化学习中的安全探索基准测试
OpenAI 提议将约束强化学习标准化作为安全探索的形式化框架,并推出 Safety Gym——一个用于评估高维连续控制任务中安全深度强化学习算法的基准测试套件,这些任务包含安全约束。
通过Q集合进行UCB探索
OpenAI提出了一种针对深度强化学习的新型探索策略,使用具有上置信界(UCB)的Q函数集合,在Atari基准上展现了显著的性能提升。
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
关于通过元强化学习学习探索的一些思考
OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。
大规模好奇心驱动学习研究
OpenAI 展示了一项大规模实证研究,研究了在 54 个基准环境中不依赖外在奖励的好奇心驱动强化学习,展现了强大的性能,并探讨了特征空间在基于预测的奖励信号中的作用。