OpenAI Five击败Dota 2世界冠军
摘要
OpenAI Five成为首个击败世界冠军电竞职业选手的AI,在OpenAI Five总决赛中连胜OG两局。这一突破是通过前所未有的训练计算规模扩展实现的,而非新型算法,团队计划停用OpenAI Five同时宣布将其部署用于公开网络对战。
OpenAI Five是首个击败电竞游戏世界冠军的AI,在本周末的总决赛中连胜世界冠军Dota 2战队OG两局。OpenAI Five和DeepMind的AlphaStar此前都曾在私下击败过职业选手,但在线下职业比赛中均告失败,因此这也是AI首次在直播中击败电竞职业选手。
查看缓存全文
缓存时间:
2026/04/20 14:46
# OpenAI Five击败Dota 2世界冠军
来源:https://openai.com/index/openai-five-defeats-dota-2-world-champions/
OpenAI Five是第一个击败电竞游戏世界冠军的AI,在本周末的[Finals](https://openai.com/index/openai-five-finals/)中连续赢了两场比赛,对手是世界冠军Dota 2战队[OG](https://twitter.com/OGesports)。OpenAI Five和DeepMind的AlphaStar此前都曾在私下击败过优秀职业选手,但在直播职业比赛中均告失利,因此这也是AI首次在直播中击败电竞职业选手。
OpenAI Five Dota战队在舞台后的合影
在OpenAI Five Finals上,我们还分享了两个惊喜:
1. OpenAI Five发现了与人类配队的初步能力,尽管我们的训练过程完全专注于击败其他机器人。我们将竞争性AI转变为合作型AI的容易程度让我们对未来AI系统有所期待——在积极的开发努力下,它们可以对人类非常有益。
2. 从4月18日到21日,我们将扩展OpenAI Five来[与互联网对战](https://arena.openai.com/),无论是作为对手还是队友。这最后的测试将让我们回答一个重要研究问题——OpenAI Five在多大程度上可被利用或以其他方式被可靠地击败——并可能成为迄今为止规模最大的高能力深度强化学习智能体部署,人们可以有意识地与之互动。
- [回放 + OpenAI Five规划视图](https://openai.com/index/openai-five-defeats-dota-2-world-champions/#replays)
我们启动OpenAI Five是为了解决一个超出现有深度强化学习算法能力范围的问题。我们希望通过处理当前方法无法解决的问题,能够大幅提升我们工具的能力。我们期待需要复杂的算法思想,比如分层强化学习,但我们对发现的结果感到惊讶:这个问题所需的根本性改进是**规模**。实现和利用这种规模并不容易,是我们研究工作的大部分内容!
为了构建OpenAI Five,我们创建了一个称为[Rapid](https://openai.com/index/openai-five/#rapid)的系统,它让我们能以[前所未有的规模](https://openai.com/index/openai-five/#our-approach)运行[PPO](https://openai.com/index/openai-baselines-ppo/)。结果超出了我们最疯狂的想象,我们产生了一个世界级的Dota机器人,且没有遇到任何根本性的性能限制。
当今RL算法令人惊讶的能力是以大量经验为代价的,这在游戏或模拟环境之外可能不切实际。这个限制可能不像听起来那么糟——例如,我们使用Rapid来控制[机器人手臂](https://openai.com/index/learning-dexterity/)灵活地重新定向一个块体,完全在模拟中训练并在真实机器人上执行。但我们认为减少所需的经验量是RL的下一个挑战。
我们今天正式退役OpenAI Five作为竞争对手,但取得的进展和开发的技术将继续推动我们未来的工作。这不是我们Dota工作的结束——我们认为Dota是比当今标准环境更具内在趣味和难度(现在也更加深入理解了!)的RL开发环境。
OpenAI Five在星期六的胜利与其在2018年国际邀请赛上的失利相比,是由于一个重大变化:训练计算量增加了8倍。在项目的许多早期阶段,我们通过增加训练规模来推动进一步进展。但在国际邀请赛之后,我们已经将项目的绝大多数计算资源投入到训练单个OpenAI Five模型上。因此我们以仅有的方式增加计算规模:延长训练时间。
计算与Ts Final Log平滑图
总的来说,当前版本的OpenAI Five消耗了800 petaflop/s-天,在10个实时月内经历了大约45,000年的Dota自我对战(相比国际邀请赛时的1.5个实时月内约10,000年),平均每天250年的模拟经验。Finals版本的OpenAI Five相对TI版本有99.9%的胜率。
当前版本的OpenAI Five自2018年6月以来一直在持续训练,尽管进行了[模型大小](https://twitter.com/openai/status/1037765547427954688?lang=en)和游戏规则的变更(包括一些相当大的游戏补丁更新和新实现的功能)。在每种情况下,我们都能够转移模型并继续训练——这是RL在其他领域的一个[开放挑战](https://openai.com/index/retro-contest-results/)。据我们所知,这是第一次RL智能体使用如此长生命周期的训练运行。
为了实现这一点,我们继续完善我们的[手术](https://openai.com/index/openai-five-benchmark-results/#training)工具,以便即使在实质性架构变更后也能从训练参数开始。
从[5](https://openai.com/index/openai-five/)个英雄扩展到[18](https://openai.com/index/openai-five-benchmark/)个英雄的训练中,我们看到的速度下降非常小。我们假设扩展到更多英雄时也会如此,在国际邀请赛后,我们投入了大量精力来整合新英雄。
我们花了几周时间训练包含多达25个英雄的英雄池,将这些英雄训练到大约5000 MMR(约Dota玩家的95百分位)。虽然它们仍在进步,但学习速度不足以在Finals前达到职业水平。我们还没有时间调查原因,但我们的假设从模型容量不足到需要为扩展的英雄池进行更好的匹配制作,再到需要更多训练时间让新英雄追上旧英雄。想象一下,当所有人都掌握了他们的英雄时,人类学习新英雄有多难!
我们相信这些问题从根本上是可以解决的,解决它们本身可能很有趣。Finals版本使用17个英雄进行游戏——我们移除了Lich,因为他的能力在Dota 7.20版本中改变了显著。
> *感觉还不错;我的毒蛇在某个时刻为我牺牲了生命。他试图帮助我,认为"我确定她知道自己在做什么",然后显然我没有。但是,你知道,他相信我。我不经常从[人类]队友那里得到这种感觉。——**Sheever***
Dota两支竞争队伍的对阵表:Sheever和Blitz对阵Capitalist和ODPixel
OpenAI Five与人类配队的能力为人类-AI互动的未来呈现了一个令人信服的愿景,其中AI系统可以协作并增强人类体验。我们的测试者报告说感到机器人队友的支持,他们从与这些高级系统对打中学到了东西,总体上这是一个有趣的体验。
注意OpenAI Five展现了零样本转移学习——它被训练为由自己的副本控制所有英雄,但泛化到控制英雄的子集,与人类对打或配队。我们对这种效果好得有点出乎意料。实际上,我们曾考虑在国际邀请赛上进行合作比赛,但假设这需要专门的训练。
我们启动了OpenAI Five Arena,一个公开实验,我们将让任何人在竞争和合作两种模式中与OpenAI Five对打。我们已知道我们的1v1机器人将[可被利用](https://openai.com/index/more-on-dota-2/#bot-exploits)通过聪明的策略;我们不知道OpenAI Five在多大程度上也是如此,但我们很高兴邀请社区帮助我们找出答案!
**Arena**在[太平洋时间4月18日下午6点开放](https://arena.openai.com/),将在太平洋时间4月21日晚上11:59关闭。请注册以确保我们在您所在地区有足够的服务器容量!所有比赛的结果都将自动报告到Arena公开排行榜。
Five Arena对阵
我们对Dota社区在过去两年来对我们的所有支持表示深深的感谢,我们希望Arena也能作为回馈社区的一种小方式。祝您使用愉快!
一旦我们审查了OpenAI Five Arena的结果,我们将发布对OpenAI Five的更多技术分析。
之后,我们将继续在OpenAI内与Dota 2环境进行合作。在过去两年中我们在RL能力上看到了快速进展,我们认为Dota 2将继续帮助我们推动可能性的边界——无论是通过更少数据实现有能力的性能还是真正的人类-AI合作。
如果您有兴趣推进AI能力并帮助推进我们确保其造福人类的使命,我们正在[招聘](https://openai.com/careers/)!
相似文章
OpenAI Blog
OpenAI Five 成为首个利用大规模深度强化学习和自我对弈击败 Dota 2 世界冠军的 AI 系统,在这款具有长期时间跨度和不完全信息的复杂游戏中展现了超人类的表现。
OpenAI Blog
OpenAI Five 在2018年国际邀请赛中与顶级职业 Dota 2 战队竞争,尽管在与顶尖人类选手的两场比赛中都不幸落败,但展现了通过自我学习所掌握的具有竞争力的游戏表现和战略深度。
OpenAI Blog
# OpenAI Five Finals 来源:[https://openai.com/index/openai-five-finals/](https://openai.com/index/openai-five-finals/) OpenAI
我们将在4月13日太平洋时间上午11:30举办OpenAI Five的最后一场线下活动。我们将展示OpenAI Five的各个方面,这些方面我们认为能够说明人类和AI在未来如何进行交互。我们相信AI对世界的影响将由其能力、可扩展性和增强人类能力的能力所驱动——本次活动将使用OpenAI Five来具体展示
OpenAI Blog
OpenAI Five 完成了与人类的 Dota 2 基准测试对比赛,展示了改进的能力,包括扩展的英雄池(18 个英雄)、Roshan 坑机制和眼位系统。该系统展现了在学习复杂游戏技能方面的通用训练灵活性。
OpenAI Blog
OpenAI 创建了一个机器人,仅通过自我对弈学习就能在1v1匹配中击败世界顶级Dota 2职业选手,无需使用模仿学习或树搜索。这一成就展示了人工智能系统在动态、多智能体环境中实现复杂目标的进步。