Procgen 和 MineRL 竞赛

OpenAI Blog 2020/06/20 07:00 事件

competition reinforcement-learning sample-efficiency minecraft minerl human-demonstrations

摘要

OpenAI 联合组织 MineRL 2020 竞赛，推进样本高效的强化学习算法研究，这些算法能够利用人类示范。参赛者需要在仅有 800 万个模拟器样本和 4 天单 GPU 训练时间的限制下，在 Minecraft 中获得钻石，同时可以访问 6000 多万帧的人类示范数据集。

我们很高兴地宣布，OpenAI 正与 AIcrowd、卡内基梅隆大学和 DeepMind 联合组织 NeurIPS 2020 两场竞赛，使用 Procgen Benchmark 和 MineRL。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:46

# Procgen和MineRL竞赛来源：https://openai.com/index/procgen-minerl-competitions/ 为了进一步推动这个方向的研究，我们共同组织了MineRL 2020竞赛(https://www.aicrowd.com/challenges/neurips-2020-minerl-challenge)，旨在促进开发能够有效利用人类演示的算法，大幅减少解决复杂、分层和稀疏奖励环境所需的样本数量。为此，参与者将竞争开发系统，使用MineRL模拟器(http://minerl.io/docs)的800万个样本和单个GPU机器上4天的训练时间，从原始像素在Minecraft(http://minercraft.net/)中获取钻石。参与者将获得MineRL-v0数据集(网站(http://minerl.io/dataset/)、论文(https://arxiv.org/abs/1907.13440))，这是一个包含超过6000万帧人类演示的大规模集合，使他们能够利用专家轨迹来最小化算法与Minecraft模拟器的交互。这场竞赛是MineRL 2019竞赛(https://www.aicrowd.com/challenges/neurips-2019-minerl-competition)的后续，在那次竞赛中，顶级团队的代理(https://arxiv.org/pdf/1912.08664v2.pdf)能够在这种极其有限的计算和模拟器交互预算下获得铁镐(https://www.youtube.com/watch?v=GHo8B4JMC38&feature=youtu.be)(竞赛的倒数第二个目标)。相比之下，最先进的标准强化学习系统需要在大型多GPU系统上进行数亿次的环境交互才能达到同样的目标。今年，我们预期参赛者将进一步推动最先进技术的发展。为了确保参赛者开发出真正样本高效的算法，MineRL竞赛组织者在硬件、计算和模拟器交互方面实施严格约束，从头开始训练顶级团队的最终轮模型。MineRL 2020竞赛还采用了一种新颖的措施来避免特征工程和过拟合解决方案到特定领域。有关竞赛结构的更多详情可以在这里(https://www.aicrowd.com/challenges/neurips-2020-minerl-challenge)找到。

Procgen 和 MineRL 竞赛

相似文章

通过视频预训练学习玩 Minecraft

Procgen Benchmark

复古竞赛

Project Genie | Shine and Seek

@dair_ai: // 自对弈加上一点人类数据 // 结合人类演示和自对弈强化学习的超酷论文。30分钟…

提交意见反馈