复古竞赛

OpenAI Blog 事件

摘要

OpenAI 推出了复古竞赛(Retro Contest),这是一项迁移学习竞赛,在来自经典 SEGA Genesis 游戏的未见过的视频游戏关卡上评估强化学习算法,于 2018 年 4 月至 6 月期间进行。该竞赛使用 Gym Retro 平台,包括基准实现和技术基准论文,证明当前的强化学习算法在泛化任务上的表现明显低于人类。

我们推出了一项迁移学习竞赛,用于测量强化学习算法从以往经验中进行泛化的能力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:43

# 复古竞赛 来源:https://openai.com/index/retro-contest/ 我们推出了一项迁移学习竞赛,用于衡量强化学习算法从以往经验中泛化的能力。 ## 为什么这很重要 在典型的强化学习研究中,算法在训练环境中进行测试,这会偏向于擅长记忆且超参数众多的算法。相反,我们的竞赛在以前未见过的视频游戏关卡上测试算法。该竞赛使用 Gym Retro,一个将经典游戏集成到 Gym 中的新平台,首批包含 30 款 SEGA Genesis 游戏。 OpenAI 复古竞赛(https://contest.openai.com/)为你提供来自《刺猬索尼克(Sonic The Hedgehog)™》系列游戏的训练关卡集合,我们使用为本竞赛创建的自定义关卡集合来评估你的算法。竞赛将从 4 月 5 日进行到 6 月 5 日。为了帮助人们快速上手,我们发布了 retro-baselines(https://github.com/openai/retro-baselines),展示如何在竞赛任务上运行多种强化学习算法。 复古竞赛的基准结果(测试集)显示,强化学习算法的表现远低于人类,即使使用迁移学习也是如此。人类表现用虚线水平线表示。人类只玩了一小时,而算法玩了十八小时。 在训练时,你可以使用任何环境或数据集,但在测试时,你在每个从未见过的关卡上只有大约 18 小时(100 万个时间步)。18 小时看起来是一个很长的时间来玩一个游戏关卡,但现有的强化学习算法在这个训练预算下的表现远差于人类。 为了详细描述基准并提供一些基准结果,我们发布了一份技术报告:《Gotta Learn Fast: A New Benchmark for Generalization in RL》(https://arxiv.org/abs/1804.03720)。该报告包含有关基准的详细信息以及运行 Rainbow DQN(https://arxiv.org/abs/1710.02298)、PPO(https://openai.com/index/openai-baselines-ppo/) 和一个称为 JERK 的简单随机猜测算法的结果。JERK 以针对 Sonic 优化的方式对随机动作序列进行采样,随着训练的进行,它更频繁地重放得分最高的动作序列。 我们发现,通过利用训练关卡中的经验,可以显著提升 PPO 在测试关卡上的性能。当网络在训练关卡上进行预训练,然后在测试关卡上进行微调时,其性能几乎翻倍,使其优于最强的替代基准。虽然这不是强化学习中成功迁移学习的第一个报告案例,但它令人兴奋,因为它表明迁移学习可以产生大规模且可靠的效果。 但我们的算法还有很长的路要走,才能与人类表现相匹敌。如上所示,在训练关卡上练习两小时,在每个测试关卡上玩一小时后,人类能够达到的得分远高于强化学习算法,包括执行迁移学习的算法。 我们创建了人类击败复古竞赛中使用的 Sonic 关卡的录制数据集(https://github.com/openai/retro-movies)。这些录制可用于让代理从每个关卡的随机点开始玩,使代理接触到许多它在仅从关卡开始处开始时可能看不到的区域。研究人员还可以使用这些录制来尝试训练从演示中学习的代理。 我们发布了 Gym Retro,一个将经典视频游戏包装为强化学习环境的系统。这个初步版本包括来自 SEGA Mega Drive and Genesis Classics Steam Bundle(http://store.steampowered.com/app/34270/) 的 30 款 SEGA Genesis 游戏,以及来自 Arcade Learning Environment 的 62 款 Atari 2600 游戏。 Arcade Learning Environment(https://github.com/mgbellemare/Arcade-Learning-Environment)是一个包含 Atari 2600 游戏及强化学习接口的集合,在过去五年中一直是推动强化学习研究的主要力量。这些 Atari 游戏比之前的强化学习基准更多样化和复杂,因为它们的设计目的是挑战人类玩家的运动技能和问题解决能力。 Gym Retro Beta(https://github.com/openai/retro)使用了比 Atari 更现代的游戏机—SEGA Genesis—扩展了可用于强化学习研究的游戏的数量和复杂性。Genesis 上开发的游戏往往有许多在某些维度(物理、对象外观)相似但在其他方面(布局、物品)不同的关卡,这使它们成为迁移学习的良好测试场所。它们通常也比 Atari 游戏更复杂,因为它们利用了 Genesis 更好的硬件(例如,它的 RAM 是 Atari 的 500 多倍,控制输入范围更大,支持更好的图形)。 Gym Retro 受到 Retro Learning Environment(https://arxiv.org/abs/1611.02205) 的启发,但编写得比 RLE 更灵活;例如,在 Gym Retro 中,你可以通过 JSON 文件而不是 C++ 代码来指定环境定义,使集成新游戏更容易。 Gym Retro 是我们构建大规模强化学习环境数据集的第二代尝试。它建立在 2016 年末 Universe 的一些相同思想之上,但我们无法从该实现中获得良好的结果,因为 Universe 环境异步运行、只能实时运行,并且由于基于屏幕的游戏状态检测经常不可靠。Gym Retro 将 Arcade Learning Environment 的模型扩展到了更大的潜在游戏集合。 要开始使用 Gym Retro,请查看 GitHub 上的"快速开始"部分。 有时,算法可以在游戏中找到漏洞。在这里,经过 PPO 训练的策略发现它可以穿过关卡的墙壁向右移动并获得更高的得分——这是另一个例子,说明特定的奖励函数如何导致人工智能代理表现出奇怪的行为(https://openai.com/index/faulty-reward-functions/)。

相似文章

复古竞赛:成果揭晓

OpenAI Blog

OpenAI 的复古竞赛圆满落幕,923 个团队参赛,利用 Sonic 基准开发可泛化的算法。排名靠前的团队主要使用了经过调优的现有算法,如 PPO 和 Rainbow DQN,其中 Dharmaraja 以 4,692 分(理论最高分为 10,000 分)赢得第一名。

Gym Retro

OpenAI Blog

OpenAI 发布 Gym Retro,这是一个强化学习研究环境,汇集了来自经典游戏主机(世嘉创世纪、NES、SNES、Game Boy 等)的游戏,用于研究智能体在不同游戏和关卡中的泛化能力。

从仿真泛化

OpenAI Blog

# 从仿真泛化 来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场,这可能会给人一种印象,即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数,比如行走任务,可以根据行进距离来评分

从单个演示中学习蒙特祖玛的复仇

OpenAI Blog

OpenAI 展示了一种通过单个人类演示来训练强化学习智能体玩蒙特祖玛的复仇的方法,通过课程学习和仔细的超参数调优来解决稀疏奖励的挑战。该方法在这款臭名昭著的 Atari 游戏上取得了强劲表现,但在其他游戏上的泛化能力有限。