复古竞赛

OpenAI Blog 2018/04/05 07:00 事件

reinforcement-learning transfer-learning benchmark competition gym-retro generalization

摘要

OpenAI 推出了复古竞赛（Retro Contest），这是一项迁移学习竞赛，在来自经典 SEGA Genesis 游戏的未见过的视频游戏关卡上评估强化学习算法，于 2018 年 4 月至 6 月期间进行。该竞赛使用 Gym Retro 平台，包括基准实现和技术基准论文，证明当前的强化学习算法在泛化任务上的表现明显低于人类。

我们推出了一项迁移学习竞赛，用于测量强化学习算法从以往经验中进行泛化的能力。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:43

# 复古竞赛来源：https://openai.com/index/retro-contest/ 我们推出了一项迁移学习竞赛，用于衡量强化学习算法从以往经验中泛化的能力。 ## 为什么这很重要在典型的强化学习研究中，算法在训练环境中进行测试，这会偏向于擅长记忆且超参数众多的算法。相反，我们的竞赛在以前未见过的视频游戏关卡上测试算法。该竞赛使用 Gym Retro，一个将经典游戏集成到 Gym 中的新平台，首批包含 30 款 SEGA Genesis 游戏。 OpenAI 复古竞赛(https://contest.openai.com/)为你提供来自《刺猬索尼克(Sonic The Hedgehog)™》系列游戏的训练关卡集合，我们使用为本竞赛创建的自定义关卡集合来评估你的算法。竞赛将从 4 月 5 日进行到 6 月 5 日。为了帮助人们快速上手，我们发布了 retro-baselines(https://github.com/openai/retro-baselines)，展示如何在竞赛任务上运行多种强化学习算法。复古竞赛的基准结果（测试集）显示，强化学习算法的表现远低于人类，即使使用迁移学习也是如此。人类表现用虚线水平线表示。人类只玩了一小时，而算法玩了十八小时。在训练时，你可以使用任何环境或数据集，但在测试时，你在每个从未见过的关卡上只有大约 18 小时（100 万个时间步）。18 小时看起来是一个很长的时间来玩一个游戏关卡，但现有的强化学习算法在这个训练预算下的表现远差于人类。为了详细描述基准并提供一些基准结果，我们发布了一份技术报告：《Gotta Learn Fast: A New Benchmark for Generalization in RL》(https://arxiv.org/abs/1804.03720)。该报告包含有关基准的详细信息以及运行 Rainbow DQN(https://arxiv.org/abs/1710.02298)、PPO(https://openai.com/index/openai-baselines-ppo/) 和一个称为 JERK 的简单随机猜测算法的结果。JERK 以针对 Sonic 优化的方式对随机动作序列进行采样，随着训练的进行，它更频繁地重放得分最高的动作序列。我们发现，通过利用训练关卡中的经验，可以显著提升 PPO 在测试关卡上的性能。当网络在训练关卡上进行预训练，然后在测试关卡上进行微调时，其性能几乎翻倍，使其优于最强的替代基准。虽然这不是强化学习中成功迁移学习的第一个报告案例，但它令人兴奋，因为它表明迁移学习可以产生大规模且可靠的效果。但我们的算法还有很长的路要走，才能与人类表现相匹敌。如上所示，在训练关卡上练习两小时，在每个测试关卡上玩一小时后，人类能够达到的得分远高于强化学习算法，包括执行迁移学习的算法。我们创建了人类击败复古竞赛中使用的 Sonic 关卡的录制数据集(https://github.com/openai/retro-movies)。这些录制可用于让代理从每个关卡的随机点开始玩，使代理接触到许多它在仅从关卡开始处开始时可能看不到的区域。研究人员还可以使用这些录制来尝试训练从演示中学习的代理。我们发布了 Gym Retro，一个将经典视频游戏包装为强化学习环境的系统。这个初步版本包括来自 SEGA Mega Drive and Genesis Classics Steam Bundle(http://store.steampowered.com/app/34270/) 的 30 款 SEGA Genesis 游戏，以及来自 Arcade Learning Environment 的 62 款 Atari 2600 游戏。 Arcade Learning Environment(https://github.com/mgbellemare/Arcade-Learning-Environment)是一个包含 Atari 2600 游戏及强化学习接口的集合，在过去五年中一直是推动强化学习研究的主要力量。这些 Atari 游戏比之前的强化学习基准更多样化和复杂，因为它们的设计目的是挑战人类玩家的运动技能和问题解决能力。 Gym Retro Beta(https://github.com/openai/retro)使用了比 Atari 更现代的游戏机—SEGA Genesis—扩展了可用于强化学习研究的游戏的数量和复杂性。Genesis 上开发的游戏往往有许多在某些维度（物理、对象外观）相似但在其他方面（布局、物品）不同的关卡，这使它们成为迁移学习的良好测试场所。它们通常也比 Atari 游戏更复杂，因为它们利用了 Genesis 更好的硬件（例如，它的 RAM 是 Atari 的 500 多倍，控制输入范围更大，支持更好的图形）。 Gym Retro 受到 Retro Learning Environment(https://arxiv.org/abs/1611.02205) 的启发，但编写得比 RLE 更灵活；例如，在 Gym Retro 中，你可以通过 JSON 文件而不是 C++ 代码来指定环境定义，使集成新游戏更容易。 Gym Retro 是我们构建大规模强化学习环境数据集的第二代尝试。它建立在 2016 年末 Universe 的一些相同思想之上，但我们无法从该实现中获得良好的结果，因为 Universe 环境异步运行、只能实时运行，并且由于基于屏幕的游戏状态检测经常不可靠。Gym Retro 将 Arcade Learning Environment 的模型扩展到了更大的潜在游戏集合。要开始使用 Gym Retro，请查看 GitHub 上的"快速开始"部分。有时，算法可以在游戏中找到漏洞。在这里，经过 PPO 训练的策略发现它可以穿过关卡的墙壁向右移动并获得更高的得分——这是另一个例子，说明特定的奖励函数如何导致人工智能代理表现出奇怪的行为(https://openai.com/index/faulty-reward-functions/)。

复古竞赛

相似文章

复古竞赛：成果揭晓

Gym Retro

必须快速学习：强化学习泛化能力的新基准

从仿真泛化

从单个演示中学习蒙特祖玛的复仇

提交意见反馈