Procgen 和 MineRL 竞赛
摘要
OpenAI 联合组织 MineRL 2020 竞赛,推进样本高效的强化学习算法研究,这些算法能够利用人类示范。参赛者需要在仅有 800 万个模拟器样本和 4 天单 GPU 训练时间的限制下,在 Minecraft 中获得钻石,同时可以访问 6000 多万帧的人类示范数据集。
我们很高兴地宣布,OpenAI 正与 AIcrowd、卡内基梅隆大学和 DeepMind 联合组织 NeurIPS 2020 两场竞赛,使用 Procgen Benchmark 和 MineRL。
查看缓存全文
缓存时间:
2026/04/20 14:46
# Procgen和MineRL竞赛
来源:https://openai.com/index/procgen-minerl-competitions/
为了进一步推动这个方向的研究,我们共同组织了MineRL 2020竞赛(https://www.aicrowd.com/challenges/neurips-2020-minerl-challenge),旨在促进开发能够有效利用人类演示的算法,大幅减少解决复杂、分层和稀疏奖励环境所需的样本数量。为此,参与者将竞争开发系统,使用MineRL模拟器(http://minerl.io/docs)的800万个样本和单个GPU机器上4天的训练时间,从原始像素在Minecraft(http://minercraft.net/)中获取钻石。参与者将获得MineRL-v0数据集(网站(http://minerl.io/dataset/)、论文(https://arxiv.org/abs/1907.13440)),这是一个包含超过6000万帧人类演示的大规模集合,使他们能够利用专家轨迹来最小化算法与Minecraft模拟器的交互。
这场竞赛是MineRL 2019竞赛(https://www.aicrowd.com/challenges/neurips-2019-minerl-competition)的后续,在那次竞赛中,顶级团队的代理(https://arxiv.org/pdf/1912.08664v2.pdf)能够在这种极其有限的计算和模拟器交互预算下获得铁镐(https://www.youtube.com/watch?v=GHo8B4JMC38&feature=youtu.be)(竞赛的倒数第二个目标)。相比之下,最先进的标准强化学习系统需要在大型多GPU系统上进行数亿次的环境交互才能达到同样的目标。今年,我们预期参赛者将进一步推动最先进技术的发展。
为了确保参赛者开发出真正样本高效的算法,MineRL竞赛组织者在硬件、计算和模拟器交互方面实施严格约束,从头开始训练顶级团队的最终轮模型。MineRL 2020竞赛还采用了一种新颖的措施来避免特征工程和过拟合解决方案到特定领域。有关竞赛结构的更多详情可以在这里(https://www.aicrowd.com/challenges/neurips-2020-minerl-challenge)找到。
相似文章
OpenAI Blog
OpenAI 推出了视频预训练(VPT),这是一种半监督方法,通过学习 70,000 小时的未标注人类游戏视频和少量标注数据集来训练神经网络玩 Minecraft。该模型使用原生人类界面(键盘和鼠标)学习复杂的序列任务,展示了制作钻石工具和柱子跳跃等能力,代表了朝向通用计算机使用代理的进步。
OpenAI Blog
OpenAI推出Procgen Benchmark,这是一套程序生成的环境套件,旨在评估强化学习智能体在多样化任务中的泛化能力,解决Atari等传统基准中的过拟合问题。
OpenAI Blog
OpenAI 推出了复古竞赛(Retro Contest),这是一项迁移学习竞赛,在来自经典 SEGA Genesis 游戏的未见过的视频游戏关卡上评估强化学习算法,于 2018 年 4 月至 6 月期间进行。该竞赛使用 Gym Retro 平台,包括基准实现和技术基准论文,证明当前的强化学习算法在泛化任务上的表现明显低于人类。
YouTube AI Channels
Google DeepMind 的 Project Genie 是一个统一的世界模型,它将多样化的电子游戏视为条件视频预测任务,从而生成并与这些游戏进行交互。
OpenAI Blog
OpenAI 发布了 OpenAI Gym 公开测试版,这是一个用于开发和比较强化学习算法的工具包,包含不断增长的环境套件和可复现研究的平台。该工具包旨在标准化强化学习基准,并为研究社区提供多样化、易于使用的环境。