复古竞赛：成果揭晓

OpenAI Blog 2018/06/22 07:00 事件

摘要

OpenAI 的复古竞赛圆满落幕，923 个团队参赛，利用 Sonic 基准开发可泛化的算法。排名靠前的团队主要使用了经过调优的现有算法，如 PPO 和 Rainbow DQN，其中 Dharmaraja 以 4,692 分（理论最高分为 10,000 分）赢得第一名。

我们首届复古竞赛现已圆满结束——该竞赛旨在探索开发能够从以往经验中泛化学习的算法。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:43

# Retro竞赛：成果公布来源：https://openai.com/index/retro-contest-results/ 我们首届Retro竞赛——探索能够从以往经验中泛化的算法开发——现已圆满落幕。虽然有很多方法被尝试过，但最优成绩都来自对PPO和Rainbow等现有算法的调优或扩展。进展空间仍然很大：最优性能在训练后达到4,692分，而理论最高分是10,000分。这些成果验证了我们的Sonic基准是社区可以深入投入的好问题：获胜方案是通用机器学习方法而非竞赛特定的技巧，说明你无法通过投机取巧来通过这个问题。 ![刺猬索尼克视频游戏截图。](image) 在为期两个月的竞赛中，共有923个团队报名，229个团队向排行榜提交了解决方案。我们的自动评估系统对提交的算法进行了总共4,448次评估，相当于每个团队平均约20次提交。参赛者可以在排行榜上看到分数上升，该排行榜基于我们使用关卡编辑器创建的五个低质量关卡的测试集。您可以通过点击[排行榜条目](https://contest.openai.com/leaderboard)来观看代理在其中一个关卡上的表现。 ![排行榜得分随时间变化的图表](image) 由于参赛者获得提交反馈的形式是得分和代理在关卡上测试的视频，他们可能很容易对排行榜测试集进行过度拟合。因此，我们为最终评估使用了完全不同的测试集。提交截止后，我们从排名前十的参赛者中获取最新提交，并针对11个由技术娴熟的关卡设计师创建的定制Sonic关卡测试他们的代理。为了减少噪声，我们对每位参赛者在每个关卡上进行了三次评估，并使用了不同的环境随机种子。最终评估中排名有所变化，但变化不是很大。排名前5的团队为： **Dharmaraja** 在竞赛期间位居排行榜榜首，并在最终评估中保持领先；**mistake** 险胜 **aborg** 获得第二名。排名前三的团队将获得奖杯。 ![三个奖杯的图片](image) 排名前三的团队在所有11个关卡上的学习曲线如下（显示从三次运行计算的标准误差）。 ![三个试验平均的学习曲线](image) 在所有关卡上取平均值，我们可以看到以下学习曲线。 ![在11个关卡和3次试验上平均的学习曲线](image) 请注意 **Dharmaraja** 和 **aborg** 从类似的分数开始，而 **mistake** 开始得分要低得多。如下所述，这两个团队使用PPO从预训练网络进行微调，而 **mistake** 使用Rainbow DQN从零开始训练。**mistake** 的学习曲线提前结束，因为他们在12小时后超时。 Dharmaraja是一个六人团队，成员包括Qing Da、Jing-Cheng Shi、Anxiang Zeng、Guangda Huzhang、Run-Ze Li和Yang Yu。[Qing Da](http://www.daqings.net/) 和Anxiang Zeng来自中国杭州阿里巴巴搜索部门内的AI团队。近年来，他们与[Yang Yu](http://lamda.nju.edu.cn/yuy)（南京大学计算机科学系副教授）一起研究如何在实际问题中应用强化学习，特别是在电子商务领域。 Dharmaraja的解决方案是联合PPO的一个变体（在我们的[技术报告](https://arxiv.org/abs/1804.03720)中描述），进行了一些改进。首先，它使用RGB图像而不是灰度图；其次，它使用了略微扩增的动作空间，包含更多常见的按钮组合；第三，它使用增强的奖励函数，奖励代理访问新状态（通过屏幕的感知哈希判断）。除了这些修改，团队还尝试了一些最终没有成功的东西：[DeepMimic](https://arxiv.org/abs/1804.02717)、通过[YOLO](https://arxiv.org/abs/1506.02640)进行物体检测，以及一些Sonic特定的想法。团队mistake由Peng Xu和Qiaoling Zhong组成。两人都是中国北京中国科学院计算技术研究所网络数据科学与技术重点实验室的二年级研究生。在空闲时间，Peng Xu喜欢打篮球，Qiaoling Zhong喜欢打羽毛球。他们最喜欢的电子游戏是《魂斗罗》和《超级马里奥》。 Mistake的解决方案基于Rainbow基准。他们进行了几项有助于提升性能的修改：为n步Q学习选择更好的n值；向模型添加了额外的CNN层，虽然训练变慢但效果更好；以及更低的DQN目标更新间隔。此外，该团队尝试了与Rainbow的联合训练，但发现这实际上会降低他们的性能。团队Aborg是Alexandre Borghi的个人努力。2011年完成计算机科学博士学位后，Alexandre在法国的不同公司工作，之后移居英国，现为深度学习研究工程师。作为一名视频游戏和机器学习爱好者，他将大部分空闲时间用于学习深度强化学习，这促使他参加了OpenAI Retro竞赛。 Aborg的解决方案与Dharmaraja的一样，是联合PPO的一个变体，进行了许多改进：使用来自Game Boy Advance和Master System Sonic游戏的更多训练关卡；不同的网络架构；以及专门为快速学习设计的微调超参数。关于最后一点的更多详情，Alexandre注意到微调的前150K个时间步不稳定（即性能有时会恶化），因此他调整了学习率来解决这个问题。除了上述更改，Alexandre尝试了几种无效的解决方案：不同的优化器、[MobileNetV2](https://arxiv.org/abs/1801.04381)、使用彩色图像等。最佳论文奖颁发给发表了描述他们所尝试方法的高质量文章的参赛者。现在，让我们认识一下这个奖项类别的获奖者。 Dylan目前住在法国巴黎。他是巴黎[42学校](https://en.wikipedia.org/wiki/42_(school))的软件开发学生。一年半前，他看了一个[遗传算法学会玩马里奥的视频](https://www.youtube.com/watch?v=qv6UVOQ0F44)后对机器学习产生了兴趣。这段视频激发了他的兴趣，使他想深入了解这个领域。他最喜欢的电子游戏是《塞尔达传说：暮光公主》和《魔兽世界》。 [Oleg Mürk](https://www.linkedin.com/in/oleg-m%C3%BCrk-5634b71/)来自旧金山湾区，但原籍爱沙尼亚塔尔图。白天，他在Planet OS公司担任首席架构师，从事分布式数据处理系统的工作。在空闲时间，他"花太多钱"租用GPU来运行TensorFlow深度学习实验。Oleg喜欢旅行、远足和风筝冲浪，计划在接下来的30年里最终学会冲浪。他最喜欢的电脑游戏（也是他唯一玩完的）是《德军总部3D》。他的总体计划是在未来20年开发一个自动编程者，然后退休。 Felix是一位住在香港的企业家。他对机器学习的最初接触是一个学校项目，他用PCA分析股票数据。在从事几年的创业后，他在2015年末进入了机器学习领域；他已成为一名[活跃的Kaggler](https://www.kaggle.com/renman)并从事过多个[副业项目](https://flyyufelix.github.io/)涉及计算机视觉和强化学习。这次竞赛最好的一点是看到参赛者互相帮助。许多人贡献了入门指南、实用脚本和对其他参赛者的故障排除支持。竞赛有可能改变关于最有效方法的普遍共识，因为参赛者会尝试各种不同的方法，最好的方法会获胜。在这次竞赛中，表现最好的方法与我们在OpenAI竞赛前发现有效的方法没有根本不同。我们很高兴看到几个顶级解决方案使用了迁移学习，从训练关卡进行微调。但是，我们惊讶地发现，一些顶级提交只是我们基准算法的调优版本。这强调了超参数的重要性，特别是在Rainbow DQN这样的强化学习算法中。我们计划在几个月内启动竞赛的另一轮。我们希望并期待一些更离奇的方法在第二轮中获得成功，因为现在人们知道了期望，并已开始深入思考强化学习中的快速学习和泛化问题。到时候见，我们期待观看您创新的解决方案爬上排行榜。 *得快速学习*

复古竞赛：成果揭晓

相似文章

复古竞赛

Gym Retro

必须快速学习：强化学习泛化能力的新基准

The International 2018：比赛结果

PaperBench：评估AI复现AI研究的能力

提交意见反馈