深度强化学习中的安全探索基准测试

OpenAI Blog 2019/11/21 08:00 论文

摘要

OpenAI 提议将约束强化学习标准化作为安全探索的形式化框架，并推出 Safety Gym——一个用于评估高维连续控制任务中安全深度强化学习算法的基准测试套件，这些任务包含安全约束。

暂无内容

查看缓存全文

缓存时间: 2026/04/20 14:55

# 深度强化学习中的安全探索基准测试来源：https://openai.com/index/benchmarking-safe-exploration-in-deep-reinforcement-learning/ ## 摘要强化学习（RL）智能体需要探索其环境，以便通过试错学习最优策略。在许多环境中，安全是一个关键问题，某些错误是不可接受的：例如，与人类互动的机器人系统在探索时绝不应该伤害人类。虽然目前通常在模拟中训练 RL 智能体，安全问题最少，但我们预计模拟现实世界复杂性的挑战（如人工智能与人类的互动）将导致转向直接在现实世界中训练 RL 智能体，其中安全问题至关重要。因此，我们认为安全探索应该被视为 RL 研究的关键重点领域，在这项工作中我们做出三项贡献来推进安全探索的研究。首先，基于关于安全强化学习的广泛前期工作，我们提议将约束 RL 标准化为安全探索的主要形式化方法。其次，我们提出了 Safety Gym 基准套件，这是一套新的高维连续控制环境，用于衡量约束 RL 研究的进展。最后，我们在 Safety Gym 环境上对多个约束深度 RL 算法进行基准测试，建立未来工作可以基于的基线。

深度强化学习中的安全探索基准测试

相似文章

Safety Gym

#探索：深度强化学习中基于计数的探索方法研究

OpenAI Gym Beta

必须快速学习：强化学习泛化能力的新基准

关于通过元强化学习学习探索的一些思考

提交意见反馈