Roboschool

OpenAI Blog 2017/05/15 07:00 工具

open-source robot-simulation reinforcement-learning gym multi-agent physics-engine

摘要

OpenAI 发布 Roboschool，这是一个与 OpenAI Gym 集成的开源机器人模拟环境，包含12个环境，涵盖增强型人形机器人运动任务和 Pong 等多智能体设置。

我们发布 Roboschool：一款用于机器人模拟的开源软件，与 OpenAI Gym 集成。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:43

# Roboschool 来源：https://openai.com/index/roboschool/ OpenAI 发布了 Roboschool：一个用于机器人仿真的开源软件，已与 OpenAI Gym 集成。 Roboschool 包含十二个环境，既有熟悉的 Mujoco 任务，也有新的挑战，例如更难版本的 Humanoid 行走任务和多人 Pong 游戏环境。我们计划随着时间推移扩展这个集合，也期待社区的贡献。对于现有的 MuJoCo 环境，除了将它们移植到 Bullet 之外，我们还修改了它们以使其更逼真。以下是我们移植的三个环境，并说明了它们与现有环境的区别。你可以在 GitHub 仓库的 `[agent_zoo](https://github.com/openai/roboschool/tree/master/agent_zoo)` 文件夹中找到所有这些环境的已训练策略。你也可以访问 `[demo_race](https://github.com/openai/roboschool/blob/master/agent_zoo/demo_race2.py)` 脚本来发起三个机器人之间的竞速。在以前的几个 OpenAI Gym 环境中，目标是学习行走控制器。但这些环境涉及问题的非常基础版本，目标仅仅是向前移动。实际上，行走策略会学到一个单一的循环轨迹，留下大部分状态空间未访问。此外，最终的策略往往非常脆弱：一个小推力通常会导致机器人崩溃和摔倒。我们用 3D humanoid 添加了两个额外的环境，使得运动问题变得更有趣和更具挑战性。这些环境需要*交互控制*——机器人必须跑向一个标志，其位置随时间随机变化。 HumanoidFlagrun 用于教导机器人减速和转向。目标是朝向标志跑去，标志位置随机变化。 HumanoidFlagrunHarder 还允许机器人摔倒并给它时间重新站起来。它还会在每集开始时直立或躺在地上，机器人会不断被白色立方体击中而偏离其轨迹。我们提供了 HumanoidFlagrun（在新窗口打开）(https://github.com/openai/roboschool/blob/master/agent_zoo/RoboschoolHumanoidFlagrun_v0_2017may.py) 和 HumanoidFlagrunHarder（在新窗口打开）(https://github.com/openai/roboschool/blob/master/agent_zoo/RoboschoolHumanoidFlagrunHarder_v0_2017may.py) 的已训练策略。这些行走不如常规 humanoid 快速和自然，但这些策略可以从许多情况中恢复，并且知道如何转向。这个策略本身仍然是一个多层感知器，没有内部状态，所以我们认为在某些情况下代理使用其手臂来存储信息。 Roboschool 让你可以在同一个环境中运行和训练多个代理。我们从 RoboschoolPong 开始，随后会有更多环境。通过多智能体训练，你可以训练同一个代理为双方都玩（自我对战），可以用同一算法训练两个不同的代理，甚至可以让两个不同的算法相互对抗。多智能体设置呈现了一些有趣的挑战。如果你同时训练两个玩家，你可能会看到如下学习曲线（来自策略梯度方法）：图11 Pong 的学习曲线，其中策略由同时运行的策略梯度算法更新。以下是发生的情况： - 代理 1（绿色）学到它有时可以在顶部击球，所以它移动到顶部。 - 代理 2（紫色）发现其对手在顶部，所以它将球送到底部并过度拟合其他代理远离的情况。 - 代理 1 最终发现它可以通过移动到底部来保护自己，但现在总是呆在底部，因为代理 2 总是将球送到底部。这样，策略会振荡，经过数小时的训练后，两个代理都没有学到任何有用的东西。如同生成对抗网络一样，在对抗设置中学习是棘手的，但我们认为这是一个有趣的研究问题，因为这种相互作用即使在简单环境中也能导致复杂策略，并且可以提供一个自然的课程。

Roboschool

相似文章

OpenAI Gym Beta

Safety Gym

学习的机器人

Gym Retro

@rohanpaul_ai: 机器人技术进展缓慢，因为每次更改都需要物理设置、人员、空间以及反复的实地运行。物理AI需要...

提交意见反馈