竞争性自我对弈

OpenAI Blog 论文

摘要

OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈,能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为,如铲球、躲闪和虚晃等,表明自我对弈将成为未来强大 AI 系统的基础。

我们发现自我对弈使得模拟 AI 能够在没有明确设计相关技能的环境下,自行发现铲球、躲闪、虚晃、踢球、接球和跳起争球等物理技能。自我对弈确保了环境的难度始终适合 AI 改进。结合我们在 Dota 2 自我对弈方面的成果,我们越来越确信自我对弈将成为未来强大 AI 系统的核心部分。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:57

# 竞争性自我对弈 来源:https://openai.com/index/competitive-self-play/ 我们发现自我对弈使模拟 AI 能够发现身体技能,如铲球、躲闪、假动作、踢球、接球和跳跃救球,无需显式设计包含这些技能的环境。自我对弈确保环境始终保持适当的难度,让 AI 持续改进。结合我们的 Dota 2 自我对弈成果,我们日益确信自我对弈将成为未来强大 AI 系统的核心组成部分。 我们在一系列基础游戏中设置多个模拟 3D 机器人之间的竞争,用简单的目标训练每个智能体(将对手推出相扑环、在阻止对手通过的同时到达环的另一侧、将球踢进球门或阻止对手这样做等),然后分析了涌现的不同策略。 智能体初始时因有助于探索的行为(如站立和向前移动)获得密集奖励,这些奖励最终会衰减至零,取而代之的是仅因赢或输而获得奖励。尽管奖励信号简单,智能体仍然学会了精妙的行为,如铲球、躲闪、假动作、踢球、接球和跳跃救球。每个智能体的神经网络策略都用近端策略优化 (Proximal Policy Optimization) (https://arxiv.org/abs/1707.06347) 独立训练。

相似文章

Dota 2

OpenAI Blog

OpenAI 创建了一个机器人,仅通过自我对弈学习就能在1v1匹配中击败世界顶级Dota 2职业选手,无需使用模仿学习或树搜索。这一成就展示了人工智能系统在动态、多智能体环境中实现复杂目标的进步。

多智能体交互中出现的工具使用

OpenAI Blog

OpenAI 展示了在躲猫猫环境中训练的智能体能够通过多智能体竞争发现六种不同的突现策略和工具使用行为,而无需明确的对象交互激励。这项工作表明多智能体协同适应可以通过自监督学习产生复杂的智能行为。

Dota 2 与大规模深度强化学习

OpenAI Blog

OpenAI Five 成为首个利用大规模深度强化学习和自我对弈击败 Dota 2 世界冠军的 AI 系统,在这款具有长期时间跨度和不完全信息的复杂游戏中展现了超人类的表现。

OpenAI Five

OpenAI Blog

OpenAI Five 是一个强化学习智能体,通过自我对抗训练、课程学习和策略随机化来掌握 Dota 2,从随机行为逐步演进到执行复杂的人类级策略。

更多关于 Dota 2 的内容

OpenAI Blog

OpenAI 描述了他们在国际邀请赛期间对 Dota 2 机器人所做的迭代改进,将教练指导与自我对弈相结合,通过快速训练周期和在职业比赛中发现的战略优化来增强智能体性能。