OpenAI Gym Beta

OpenAI Blog 2016/04/27 07:00 工具

reinforcement-learning open-source benchmark toolkit python deep-learning

摘要

OpenAI 发布了 OpenAI Gym 公开测试版，这是一个用于开发和比较强化学习算法的工具包，包含不断增长的环境套件和可复现研究的平台。该工具包旨在标准化强化学习基准，并为研究社区提供多样化、易于使用的环境。

我们发布了 OpenAI Gym 的公开测试版，这是一个用于开发和比较强化学习(RL)算法的工具包。它包含不断增长的环境套件（从仿真机器人到 Atari 游戏），以及一个用于比较和复现研究结果的平台。

查看缓存全文

缓存时间: 2026/04/20 14:45

# OpenAI Gym 公测版来源：https://openai.com/index/openai-gym-beta/ 我们很高兴推出 OpenAI Gym 的公测版，这是一个用于开发和比较强化学习（RL）算法的工具包。它包含一个不断增长的环境套件（从模拟机器人到雅达利游戏），以及一个用于比较和重现结果的网站。 OpenAI Gym 与任何框架（如 [TensorFlow](https://www.tensorflow.org/) 和 [Theano](https://github.com/Theano/Theano)）编写的算法兼容。这些环境使用 Python 编写，但我们很快会使它们易于从任何语言使用。我们最初开发 OpenAI Gym 作为加速我们自己强化学习研究的工具。我们希望它对更广泛的社区同样有用。强化学习（RL）是机器学习的一个子领域，专注于决策和运动控制。它研究智能体如何在复杂、不确定的环境中学习实现目标。它令人兴奋有两个原因： - **RL 非常通用，涵盖所有涉及做出一系列决策的问题**：例如，控制机器人的马达使其能够[奔跑](https://gym.openai.com/envs/Humanoid-v0)和[跳跃](https://gym.openai.com/envs/Hopper-v0)，做出商业决策，如定价和库存管理，或玩[视频游戏](https://gym.openai.com/envs#atari)和[棋盘游戏](https://gym.openai.com/envs#board_game)。RL 甚至可以应用于具有[序列化](http://arxiv.org/abs/1511.06732)或[结构化](http://arxiv.org/abs/1601.01705)输出的监督学习问题。 - **RL 算法已经开始在许多困难的环境中取得良好成果**。RL 有悠久的历史，但在深度学习的最近进展之前，它需要大量针对具体问题的工程优化。DeepMind 的[雅达利成果](https://deepmind.com/dqn.html)、来自 [Pieter Abbeel](https://openai.com/index/welcome-pieter-and-shivon/) 团队的 [BRETT](http://news.berkeley.edu/2015/05/21/deep-learning-robot-masters-skills-via-trial-and-error/) 和 [AlphaGo](https://googleblog.blogspot.com/2016/01/alphago-machine-learning-game-go.html) 都使用了深度 RL 算法，这些算法不会对环境做出太多假设，因此可以应用于其他场景。然而，RL 研究也受到两个因素的制约： - **需要更好的基准**。在监督学习中，进展由大型标注数据集（如 [ImageNet](http://www.image-net.org/)）驱动。在 RL 中，最接近的等价物是大型且多样化的环境集合。然而，现有的开源 RL 环境集合缺乏足够的多样性，而且通常很难设置和使用。 - **论文中使用的环境缺乏标准化**。问题定义中的微妙差异，例如奖励函数或动作集，可能会大幅改变任务的难度。这个问题使得难以重现已发表的研究并比较来自不同论文的结果。 OpenAI Gym 试图解决这两个问题。我们已经使得[上传结果](https://gym.openai.com/docs#uploading)到 OpenAI Gym 变得容易。然而，我们选择不创建传统的排行榜。对研究重要的不是你的分数（可能会过度拟合或针对特定任务手工制作解决方案），而是你的技术的通用性。我们首先维护一个[精选列表](https://gym.openai.com/docs#review)，其中包含关于算法能力的有趣发现。从长期来看，我们希望这种策划能成为社区的努力，而不是我们所有的东西。我们必然需要随着时间推移逐步解决细节，我们非常欢迎你的[帮助](https://gym.openai.com/docs#help)。

OpenAI Gym Beta

相似文章

Safety Gym

Gym Retro

Roboschool

收集人类反馈

深度强化学习中的安全探索基准测试

提交意见反馈