Safety Gym

OpenAI Blog 2019/11/21 08:00 工具

safe-exploration constrained-reinforcement-learning benchmark robotics safety open-source

摘要

OpenAI 推出 Safety Gym，这是一个新的基准环境和工具包，用于研究受约束的强化学习和安全探索。该平台包含多个机器人和任务，旨在通过成本函数与奖励函数一起量化和衡量安全探索。

我们发布了 Safety Gym，这是一套用于衡量强化学习智能体在训练过程中遵守安全约束方面进展的环境和工具。

查看缓存全文

缓存时间: 2026/04/20 14:46

# Safety Gym 来源：https://openai.com/index/safety-gym/ 在解决安全探索这样的问题上取得进展的第一步是对其进行量化：找出什么是可以衡量的，以及这些指标的上升或下降如何使我们更接近期望的结果。换一种说法，我们需要为安全探索问题选择一个形式化框架。形式化框架允许我们设计能够实现目标的算法。虽然有多种选择，但安全探索研究领域目前还没有就正确的形式化框架达成普遍共识。我们花了一些时间思考这个问题，我们认为最合理的选择是约束强化学习。约束 RL(https://www-sop.inria.fr/members/Eitan.Altman/TEMP/h.pdf) 类似于普通 RL，但除了智能体想要最大化的奖励函数外，环境还有智能体需要限制的成本函数。例如，考虑一个控制自动驾驶汽车的智能体。我们希望奖励该智能体尽可能快地从 A 点到达 B 点。但当然，我们也希望限制驾驶行为以符合交通安全标准。我们认为约束 RL 可能比普通 RL 更有用于确保智能体满足安全要求。普通 RL 的一个大问题是智能体最终行为的所有方面都由奖励函数描述，但奖励设计从根本上讲是困难的。挑战的关键部分来自于在竞争目标（如任务性能和满足安全要求）之间做出权衡。在约束 RL 中，我们不必选择权衡——相反，我们选择结果，让算法计算出能够达到我们想要的结果的权衡。我们可以使用自动驾驶汽车的案例来说明这在实践中的含义。假设汽车每完成一次行程可以赚取一定金额，但每次碰撞都要支付罚款。在普通 RL 中，你会在训练开始时选择碰撞罚款，并将其固定不变。这里的问题是，如果每次行程的报酬足够高，智能体可能不会在乎是否发生许多碰撞（只要它仍能完成行程）。实际上，为了获得报酬，鲁莽驾驶和冒着碰撞风险可能甚至是有利的。我们之前在训练无约束 RL 智能体时见过这种情况(https://openai.com/index/faulty-reward-functions/)。相比之下，在约束 RL 中，你会在训练开始时选择可接受的碰撞率，然后调整碰撞罚款直到智能体满足该要求。如果汽车发生了太多小事故，你就提高罚款，直到该行为不再受激励。为了研究用于安全探索的约束 RL，我们开发了一套新的环境和工具，称为 Safety Gym。与现有的约束 RL 环境相比，Safety Gym 环境更丰富，具有更广泛的难度和复杂性。在所有 Safety Gym 环境中，机器人必须在杂乱的环境中导航以完成任务。有三个预制机器人（Point、Car 和 Doggo）、三个主要任务（Goal、Button 和 Push）以及每个任务的两个难度级别。我们在下面给出了机器人-任务组合的概述，但请务必查看论文(https://cdn.openai.com/safexp-short.pdf) 了解详情。在这些视频中，我们展示了没有约束的智能体如何尝试解决这些环境。每当机器人做出不安全的事情时——这里指的是撞到杂物——智能体周围会闪现红色警告灯，智能体会产生成本（与任务奖励分开）。由于这些智能体没有约束，他们在试图最大化奖励时经常会表现出不安全的行为。 **Point** 是一个受限于 2D 平面的简单机器人，具有一个用于转向的执行器和另一个用于前进或后退的执行器。Point 有一个前向的小方块，这有助于 Push 任务。

Safety Gym

相似文章

深度强化学习中的安全探索基准测试

OpenAI Gym Beta

Gym Retro

Roboschool

OpenAI 安全实践

提交意见反馈