OpenAI Gym Beta

OpenAI Blog 工具

摘要

OpenAI 发布了 OpenAI Gym 公开测试版,这是一个用于开发和比较强化学习算法的工具包,包含不断增长的环境套件和可复现研究的平台。该工具包旨在标准化强化学习基准,并为研究社区提供多样化、易于使用的环境。

我们发布了 OpenAI Gym 的公开测试版,这是一个用于开发和比较强化学习(RL)算法的工具包。它包含不断增长的环境套件(从仿真机器人到 Atari 游戏),以及一个用于比较和复现研究结果的平台。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:45

# OpenAI Gym 公测版 来源:https://openai.com/index/openai-gym-beta/ 我们很高兴推出 OpenAI Gym 的公测版,这是一个用于开发和比较强化学习(RL)算法的工具包。它包含一个不断增长的环境套件(从模拟机器人到雅达利游戏),以及一个用于比较和重现结果的网站。 OpenAI Gym 与任何框架(如 [TensorFlow](https://www.tensorflow.org/) 和 [Theano](https://github.com/Theano/Theano))编写的算法兼容。这些环境使用 Python 编写,但我们很快会使它们易于从任何语言使用。我们最初开发 OpenAI Gym 作为加速我们自己强化学习研究的工具。我们希望它对更广泛的社区同样有用。 强化学习(RL)是机器学习的一个子领域,专注于决策和运动控制。它研究智能体如何在复杂、不确定的环境中学习实现目标。它令人兴奋有两个原因: - **RL 非常通用,涵盖所有涉及做出一系列决策的问题**:例如,控制机器人的马达使其能够[奔跑](https://gym.openai.com/envs/Humanoid-v0)和[跳跃](https://gym.openai.com/envs/Hopper-v0),做出商业决策,如定价和库存管理,或玩[视频游戏](https://gym.openai.com/envs#atari)和[棋盘游戏](https://gym.openai.com/envs#board_game)。RL 甚至可以应用于具有[序列化](http://arxiv.org/abs/1511.06732)或[结构化](http://arxiv.org/abs/1601.01705)输出的监督学习问题。 - **RL 算法已经开始在许多困难的环境中取得良好成果**。RL 有悠久的历史,但在深度学习的最近进展之前,它需要大量针对具体问题的工程优化。DeepMind 的[雅达利成果](https://deepmind.com/dqn.html)、来自 [Pieter Abbeel](https://openai.com/index/welcome-pieter-and-shivon/) 团队的 [BRETT](http://news.berkeley.edu/2015/05/21/deep-learning-robot-masters-skills-via-trial-and-error/) 和 [AlphaGo](https://googleblog.blogspot.com/2016/01/alphago-machine-learning-game-go.html) 都使用了深度 RL 算法,这些算法不会对环境做出太多假设,因此可以应用于其他场景。 然而,RL 研究也受到两个因素的制约: - **需要更好的基准**。在监督学习中,进展由大型标注数据集(如 [ImageNet](http://www.image-net.org/))驱动。在 RL 中,最接近的等价物是大型且多样化的环境集合。然而,现有的开源 RL 环境集合缺乏足够的多样性,而且通常很难设置和使用。 - **论文中使用的环境缺乏标准化**。问题定义中的微妙差异,例如奖励函数或动作集,可能会大幅改变任务的难度。这个问题使得难以重现已发表的研究并比较来自不同论文的结果。 OpenAI Gym 试图解决这两个问题。 我们已经使得[上传结果](https://gym.openai.com/docs#uploading)到 OpenAI Gym 变得容易。然而,我们选择不创建传统的排行榜。对研究重要的不是你的分数(可能会过度拟合或针对特定任务手工制作解决方案),而是你的技术的通用性。 我们首先维护一个[精选列表](https://gym.openai.com/docs#review),其中包含关于算法能力的有趣发现。从长期来看,我们希望这种策划能成为社区的努力,而不是我们所有的东西。我们必然需要随着时间推移逐步解决细节,我们非常欢迎你的[帮助](https://gym.openai.com/docs#help)。

相似文章

Safety Gym

OpenAI Blog

OpenAI 推出 Safety Gym,这是一个新的基准环境和工具包,用于研究受约束的强化学习和安全探索。该平台包含多个机器人和任务,旨在通过成本函数与奖励函数一起量化和衡量安全探索。

Gym Retro

OpenAI Blog

OpenAI 发布 Gym Retro,这是一个强化学习研究环境,汇集了来自经典游戏主机(世嘉创世纪、NES、SNES、Game Boy 等)的游戏,用于研究智能体在不同游戏和关卡中的泛化能力。

Roboschool

OpenAI Blog

OpenAI 发布 Roboschool,这是一个与 OpenAI Gym 集成的开源机器人模拟环境,包含12个环境,涵盖增强型人形机器人运动任务和 Pong 等多智能体设置。

收集人类反馈

OpenAI Blog

OpenAI 发布了 RL-Teacher,这是一个开源工具,可以通过人类反馈而不是手工设计的奖励函数来训练 AI 系统,应用于安全 AI 开发和复杂强化学习问题。

深度强化学习中的安全探索基准测试

OpenAI Blog

OpenAI 提议将约束强化学习标准化作为安全探索的形式化框架,并推出 Safety Gym——一个用于评估高维连续控制任务中安全深度强化学习算法的基准测试套件,这些任务包含安全约束。