更多关于 Dota 2 的内容

OpenAI Blog 2017/08/16 07:00 新闻

dota-2 reinforcement-learning self-play openai game-ai the-international

摘要

OpenAI 描述了他们在国际邀请赛期间对 Dota 2 机器人所做的迭代改进，将教练指导与自我对弈相结合，通过快速训练周期和在职业比赛中发现的战略优化来增强智能体性能。

我们的 Dota 2 成果表明，在充足计算能力的支持下，自我对弈能够将机器学习系统的性能从远低于人类水平提升到超人类水平。在短短一个月内，我们的系统从基本与高排位玩家相当，进步到击败顶级职业选手，并从此持续改进。有监督的深度学习系统的性能上限受限于训练数据集，但在自我对弈系统中，可用数据会随着智能体性能的提升而自动改进。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:45

# 关于 Dota 2 的更多信息来源：https://openai.com/index/more-on-dota-2/ 我们的方法结合了少量的"教练"指导和自我对战，使我们能够在国际邀请赛的周一到周四期间大幅改进智能体。周一晚上，Pajkatt 使用了一种不寻常的出装方式（提前购买魔法棒）赢得了比赛。我们将这个出装方式添加到了训练白名单中。周三下午 1 点左右，我们测试了最新的机器人。机器人在第一波会损失大量血量。我们以为可能需要回滚，但注意到随后的游戏表现惊人，第一波的行为实际上是在诱导其他机器人对它更具侵略性。通过进一步的自我对战，机器人学会了反制这种诱饵策略。与此同时，我们将周一的机器人与其仅在第一波的表现融合在一起，并在 Arteezy 下午 4 点出现前 20 分钟完成了这个过程。在 Arteezy 的比赛后，我们更新了小兵阻挡模型，这使 TrueSkill 评分增加了一点。在 Thursday 的 Sumail 比赛前进行的进一步训练使 TrueSkill 评分增加了两点。Sumail 指出机器人已经学会了在敌人视野范围外施放 razes。这是由于一个我们之前不知道的机制：在敌人视野范围外施放的能力会防止敌人获得魔法棒充能。 Arteezy 还与我们的 7.5k 半职业测试者进行了一场比赛。Arteezy 在整个游戏中都处于领先，但我们的测试者仍然设法用一个他从机器人那里学到的策略让 Arteezy 感到惊讶。Arteezy 事后评论说，这是一个 Paparazi 曾经对他使用过的策略，并不是常见的打法。

更多关于 Dota 2 的内容

相似文章

Dota 2

The International 2018：比赛结果

Dota 2 与大规模深度强化学习

OpenAI Five

OpenAI Five 基准测试

提交意见反馈