Roboschool
摘要
OpenAI 发布 Roboschool,这是一个与 OpenAI Gym 集成的开源机器人模拟环境,包含12个环境,涵盖增强型人形机器人运动任务和 Pong 等多智能体设置。
我们发布 Roboschool:一款用于机器人模拟的开源软件,与 OpenAI Gym 集成。
查看缓存全文
缓存时间:
2026/04/20 14:43
# Roboschool
来源:https://openai.com/index/roboschool/
OpenAI 发布了 Roboschool:一个用于机器人仿真的开源软件,已与 OpenAI Gym 集成。
Roboschool 包含十二个环境,既有熟悉的 Mujoco 任务,也有新的挑战,例如更难版本的 Humanoid 行走任务和多人 Pong 游戏环境。我们计划随着时间推移扩展这个集合,也期待社区的贡献。
对于现有的 MuJoCo 环境,除了将它们移植到 Bullet 之外,我们还修改了它们以使其更逼真。以下是我们移植的三个环境,并说明了它们与现有环境的区别。
你可以在 GitHub 仓库的 `[agent_zoo](https://github.com/openai/roboschool/tree/master/agent_zoo)` 文件夹中找到所有这些环境的已训练策略。你也可以访问 `[demo_race](https://github.com/openai/roboschool/blob/master/agent_zoo/demo_race2.py)` 脚本来发起三个机器人之间的竞速。
在以前的几个 OpenAI Gym 环境中,目标是学习行走控制器。但这些环境涉及问题的非常基础版本,目标仅仅是向前移动。实际上,行走策略会学到一个单一的循环轨迹,留下大部分状态空间未访问。此外,最终的策略往往非常脆弱:一个小推力通常会导致机器人崩溃和摔倒。
我们用 3D humanoid 添加了两个额外的环境,使得运动问题变得更有趣和更具挑战性。这些环境需要*交互控制*——机器人必须跑向一个标志,其位置随时间随机变化。
HumanoidFlagrun 用于教导机器人减速和转向。目标是朝向标志跑去,标志位置随机变化。
HumanoidFlagrunHarder 还允许机器人摔倒并给它时间重新站起来。它还会在每集开始时直立或躺在地上,机器人会不断被白色立方体击中而偏离其轨迹。
我们提供了 HumanoidFlagrun(在新窗口打开)(https://github.com/openai/roboschool/blob/master/agent_zoo/RoboschoolHumanoidFlagrun_v0_2017may.py) 和 HumanoidFlagrunHarder(在新窗口打开)(https://github.com/openai/roboschool/blob/master/agent_zoo/RoboschoolHumanoidFlagrunHarder_v0_2017may.py) 的已训练策略。这些行走不如常规 humanoid 快速和自然,但这些策略可以从许多情况中恢复,并且知道如何转向。这个策略本身仍然是一个多层感知器,没有内部状态,所以我们认为在某些情况下代理使用其手臂来存储信息。
Roboschool 让你可以在同一个环境中运行和训练多个代理。我们从 RoboschoolPong 开始,随后会有更多环境。
通过多智能体训练,你可以训练同一个代理为双方都玩(自我对战),可以用同一算法训练两个不同的代理,甚至可以让两个不同的算法相互对抗。
多智能体设置呈现了一些有趣的挑战。如果你同时训练两个玩家,你可能会看到如下学习曲线(来自策略梯度方法):
图11
Pong 的学习曲线,其中策略由同时运行的策略梯度算法更新。
以下是发生的情况:
- 代理 1(绿色)学到它有时可以在顶部击球,所以它移动到顶部。
- 代理 2(紫色)发现其对手在顶部,所以它将球送到底部并过度拟合其他代理远离的情况。
- 代理 1 最终发现它可以通过移动到底部来保护自己,但现在总是呆在底部,因为代理 2 总是将球送到底部。
这样,策略会振荡,经过数小时的训练后,两个代理都没有学到任何有用的东西。如同生成对抗网络一样,在对抗设置中学习是棘手的,但我们认为这是一个有趣的研究问题,因为这种相互作用即使在简单环境中也能导致复杂策略,并且可以提供一个自然的课程。
相似文章
OpenAI Blog
OpenAI 发布了 OpenAI Gym 公开测试版,这是一个用于开发和比较强化学习算法的工具包,包含不断增长的环境套件和可复现研究的平台。该工具包旨在标准化强化学习基准,并为研究社区提供多样化、易于使用的环境。
OpenAI Blog
OpenAI 推出 Safety Gym,这是一个新的基准环境和工具包,用于研究受约束的强化学习和安全探索。该平台包含多个机器人和任务,旨在通过成本函数与奖励函数一起量化和衡量安全探索。
OpenAI Blog
# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟
OpenAI Blog
OpenAI 发布 Gym Retro,这是一个强化学习研究环境,汇集了来自经典游戏主机(世嘉创世纪、NES、SNES、Game Boy 等)的游戏,用于研究智能体在不同游戏和关卡中的泛化能力。
X AI KOLs Following
Antioch 推出了 Antioch Agent,这是一个基于浏览器的机器人模拟器,让开发者可以在没有物理硬件的情况下,在封闭的智能体循环中测试机器人软件,从而加速开发周期。