深度强化学习中的安全探索基准测试
摘要
OpenAI 提议将约束强化学习标准化作为安全探索的形式化框架,并推出 Safety Gym——一个用于评估高维连续控制任务中安全深度强化学习算法的基准测试套件,这些任务包含安全约束。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:55
# 深度强化学习中的安全探索基准测试
来源:https://openai.com/index/benchmarking-safe-exploration-in-deep-reinforcement-learning/
## 摘要
强化学习(RL)智能体需要探索其环境,以便通过试错学习最优策略。在许多环境中,安全是一个关键问题,某些错误是不可接受的:例如,与人类互动的机器人系统在探索时绝不应该伤害人类。虽然目前通常在模拟中训练 RL 智能体,安全问题最少,但我们预计模拟现实世界复杂性的挑战(如人工智能与人类的互动)将导致转向直接在现实世界中训练 RL 智能体,其中安全问题至关重要。因此,我们认为安全探索应该被视为 RL 研究的关键重点领域,在这项工作中我们做出三项贡献来推进安全探索的研究。首先,基于关于安全强化学习的广泛前期工作,我们提议将约束 RL 标准化为安全探索的主要形式化方法。其次,我们提出了 Safety Gym 基准套件,这是一套新的高维连续控制环境,用于衡量约束 RL 研究的进展。最后,我们在 Safety Gym 环境上对多个约束深度 RL 算法进行基准测试,建立未来工作可以基于的基线。
相似文章
Safety Gym
OpenAI 推出 Safety Gym,这是一个新的基准环境和工具包,用于研究受约束的强化学习和安全探索。该平台包含多个机器人和任务,旨在通过成本函数与奖励函数一起量化和衡量安全探索。
#探索:深度强化学习中基于计数的探索方法研究
OpenAI研究人员展示了一种使用哈希码的简单计数型探索方法,在高维深度强化学习基准测试中可以达到近似最优性能,这挑战了计数型方法无法扩展到连续状态空间的传统假设。
OpenAI Gym Beta
OpenAI 发布了 OpenAI Gym 公开测试版,这是一个用于开发和比较强化学习算法的工具包,包含不断增长的环境套件和可复现研究的平台。该工具包旨在标准化强化学习基准,并为研究社区提供多样化、易于使用的环境。
必须快速学习:强化学习泛化能力的新基准
OpenAI 推出了一个基于音速小子(Sonic the Hedgehog)的新型强化学习基准,用于测量 RL 智能体的迁移学习和小样本学习性能,同时包括基线算法的评估。
关于通过元强化学习学习探索的一些思考
OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。