OpenAI Five

OpenAI Blog 2018/06/25 07:00 模型

reinforcement-learning dota-2 multi-agent game-playing self-play deep-learning

摘要

OpenAI Five 是一个强化学习智能体，通过自我对抗训练、课程学习和策略随机化来掌握 Dota 2，从随机行为逐步演进到执行复杂的人类级策略。

我们由五个神经网络组成的团队 OpenAI Five 已经开始击败 Dota 2 的业余人类队伍。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:45

# OpenAI Five Source: https://openai.com/index/openai-five/ 给定一个能够处理长期时间跨度的学习算法，我们仍然需要探索环境。即使有我们的限制(https://openai.com/index/openai-five/#restricted)，游戏中也有数百件物品、数十座建筑、法术和单位类型，以及大量长尾游戏机制需要学习——其中许多会产生强大的组合。高效地探索这个组合爆炸的空间并不容易。 OpenAI Five 通过自我对弈（从随机权重开始）进行学习，这为探索环境提供了自然的课程。为了避免"策略崩溃"，代理在 80% 的游戏中与自己对战，在 20% 的游戏中与过去的自己对战。在最初的游戏中，英雄在地图上漫无目的地走动。经过几小时的训练后，诸如对线(在新窗口打开)(https://www.reddit.com/r/DotA2/comments/17fj2y/laning_101/)、刷金(在新窗口打开)(https://dota2.gamepedia.com/Farming)或中路混战(在新窗口打开)(https://pvgna.com/dota2/paths/how-to-master-mid-lane)等概念逐渐形成。几天后，它们开始持续采用基本的人类策略：试图从对手那里偷取赏金符(在新窗口打开)(https://dota2.gamepedia.com/Bounty_Rune)、走向一级防御塔(在新窗口打开)(https://dota2.gamepedia.com/Buildings#Towers)进行刷金，以及在地图周围轮换英雄以获得线路优势。经过进一步训练，它们变得精通五人推进(在新窗口打开)(https://www.reddit.com/r/DotA2/comments/4iyr00/how_do_you_counter_a_5man_early_game_push_strat/)等高级策略。 2017 年 3 月，我们的第一个代理(在新窗口打开)(https://www.youtube.com/watch?v=5Fv2c4aNS2w&feature=youtu.be)击败了机器人，但在面对人类时感到困惑。为了强制探索策略空间，在训练期间（仅在训练期间），我们随机化了单位的属性（生命值、速度、起始等级等），它开始击败人类。后来，当一名测试玩家持续击败我们的 1v1 机器人时，我们增加了训练随机化，测试玩家开始失利。（我们的机器人团队同时对物理机器人(https://openai.com/index/generalizing-from-simulation/)(https://openai.com/index/spam-detection-in-the-physical-world/)应用了类似的随机化技术，以实现从模拟到真实世界的迁移。） OpenAI Five 使用了我们为 1v1 机器人编写的随机化方法。它还使用了一个新的"对线分配"随机化。在每场训练游戏的开始，我们随机将每个英雄"分配"到某些对线(在新窗口打开)(https://dota2.gamepedia.com/Lane)的子集，并在游戏中随机选择的时间点之前，对英雄偏离这些对线的行为进行惩罚。良好的奖励也有助于探索。我们的奖励(在新窗口打开)(https://gist.github.com/dfarhi/66ec9d760ae0c49a5c492c9fae93984a)主要包含人类用来判断游戏进度的指标：净资产、击杀数、死亡数、助攻数、补刀数等。我们通过减去对方团队的平均奖励来后处理每个代理的奖励，以防止代理发现正和情况。我们硬编码了物品和技能配置（最初为我们的脚本基线(https://openai.com/index/more-on-dota-2/#infrastructure)编写），并随机选择要使用的配置。信使管理(在新窗口打开)(https://dota2.gamepedia.com/Courier)也是从脚本基线中导入的。

相似文章

Dota 2 与大规模深度强化学习

OpenAI Blog

OpenAI Five 成为首个利用大规模深度强化学习和自我对弈击败 Dota 2 世界冠军的 AI 系统，在这款具有长期时间跨度和不完全信息的复杂游戏中展现了超人类的表现。

OpenAI Five 基准测试

OpenAI Blog

OpenAI Five 完成了与人类的 Dota 2 基准测试对比赛，展示了改进的能力，包括扩展的英雄池（18 个英雄）、Roshan 坑机制和眼位系统。该系统展现了在学习复杂游戏技能方面的通用训练灵活性。

OpenAI Five 基准测试：结果

OpenAI Blog

OpenAI 发布了其 Dota 2 游戏系统 OpenAI Five 的基准测试结果，详细介绍了六个主要版本的训练方法，计算需求从 8 到 35 petaflop/s-days 不等，并推出了新的网络架构工具。

OpenAI Five击败Dota 2世界冠军

OpenAI Blog

OpenAI Five成为首个击败世界冠军电竞职业选手的AI，在OpenAI Five总决赛中连胜OG两局。这一突破是通过前所未有的训练计算规模扩展实现的，而非新型算法，团队计划停用OpenAI Five同时宣布将其部署用于公开网络对战。

OpenAI Five Finals

OpenAI Blog

# OpenAI Five Finals 来源：[https://openai.com/index/openai-five-finals/](https://openai.com/index/openai-five-finals/) OpenAI 我们将在4月13日太平洋时间上午11:30举办OpenAI Five的最后一场线下活动。我们将展示OpenAI Five的各个方面，这些方面我们认为能够说明人类和AI在未来如何进行交互。我们相信AI对世界的影响将由其能力、可扩展性和增强人类能力的能力所驱动——本次活动将使用OpenAI Five来具体展示

相似文章

Dota 2 与大规模深度强化学习

OpenAI Five 基准测试

OpenAI Five 基准测试：结果

OpenAI Five击败Dota 2世界冠军

OpenAI Five Finals

提交意见反馈