更多关于 Dota 2 的内容

OpenAI Blog 新闻

摘要

OpenAI 描述了他们在国际邀请赛期间对 Dota 2 机器人所做的迭代改进,将教练指导与自我对弈相结合,通过快速训练周期和在职业比赛中发现的战略优化来增强智能体性能。

我们的 Dota 2 成果表明,在充足计算能力的支持下,自我对弈能够将机器学习系统的性能从远低于人类水平提升到超人类水平。在短短一个月内,我们的系统从基本与高排位玩家相当,进步到击败顶级职业选手,并从此持续改进。有监督的深度学习系统的性能上限受限于训练数据集,但在自我对弈系统中,可用数据会随着智能体性能的提升而自动改进。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:45

# 关于 Dota 2 的更多信息 来源:https://openai.com/index/more-on-dota-2/ 我们的方法结合了少量的"教练"指导和自我对战,使我们能够在国际邀请赛的周一到周四期间大幅改进智能体。周一晚上,Pajkatt 使用了一种不寻常的出装方式(提前购买魔法棒)赢得了比赛。我们将这个出装方式添加到了训练白名单中。 周三下午 1 点左右,我们测试了最新的机器人。机器人在第一波会损失大量血量。我们以为可能需要回滚,但注意到随后的游戏表现惊人,第一波的行为实际上是在诱导其他机器人对它更具侵略性。通过进一步的自我对战,机器人学会了反制这种诱饵策略。与此同时,我们将周一的机器人与其仅在第一波的表现融合在一起,并在 Arteezy 下午 4 点出现前 20 分钟完成了这个过程。 在 Arteezy 的比赛后,我们更新了小兵阻挡模型,这使 TrueSkill 评分增加了一点。在 Thursday 的 Sumail 比赛前进行的进一步训练使 TrueSkill 评分增加了两点。Sumail 指出机器人已经学会了在敌人视野范围外施放 razes。这是由于一个我们之前不知道的机制:在敌人视野范围外施放的能力会防止敌人获得魔法棒充能。 Arteezy 还与我们的 7.5k 半职业测试者进行了一场比赛。Arteezy 在整个游戏中都处于领先,但我们的测试者仍然设法用一个他从机器人那里学到的策略让 Arteezy 感到惊讶。Arteezy 事后评论说,这是一个 Paparazi 曾经对他使用过的策略,并不是常见的打法。

相似文章

Dota 2

OpenAI Blog

OpenAI 创建了一个机器人,仅通过自我对弈学习就能在1v1匹配中击败世界顶级Dota 2职业选手,无需使用模仿学习或树搜索。这一成就展示了人工智能系统在动态、多智能体环境中实现复杂目标的进步。

The International 2018:比赛结果

OpenAI Blog

OpenAI Five 在2018年国际邀请赛中与顶级职业 Dota 2 战队竞争,尽管在与顶尖人类选手的两场比赛中都不幸落败,但展现了通过自我学习所掌握的具有竞争力的游戏表现和战略深度。

Dota 2 与大规模深度强化学习

OpenAI Blog

OpenAI Five 成为首个利用大规模深度强化学习和自我对弈击败 Dota 2 世界冠军的 AI 系统,在这款具有长期时间跨度和不完全信息的复杂游戏中展现了超人类的表现。

OpenAI Five

OpenAI Blog

OpenAI Five 是一个强化学习智能体,通过自我对抗训练、课程学习和策略随机化来掌握 Dota 2,从随机行为逐步演进到执行复杂的人类级策略。

OpenAI Five 基准测试

OpenAI Blog

OpenAI Five 完成了与人类的 Dota 2 基准测试对比赛,展示了改进的能力,包括扩展的英雄池(18 个英雄)、Roshan 坑机制和眼位系统。该系统展现了在学习复杂游戏技能方面的通用训练灵活性。