竞争性自我对弈

OpenAI Blog 2017/10/11 07:00 论文

self-play multi-agent-learning reinforcement-learning emergent-behavior 3d-simulation ppo

摘要

OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈，能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为，如铲球、躲闪和虚晃等，表明自我对弈将成为未来强大 AI 系统的基础。

我们发现自我对弈使得模拟 AI 能够在没有明确设计相关技能的环境下，自行发现铲球、躲闪、虚晃、踢球、接球和跳起争球等物理技能。自我对弈确保了环境的难度始终适合 AI 改进。结合我们在 Dota 2 自我对弈方面的成果，我们越来越确信自我对弈将成为未来强大 AI 系统的核心部分。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:57

# 竞争性自我对弈来源：https://openai.com/index/competitive-self-play/ 我们发现自我对弈使模拟 AI 能够发现身体技能，如铲球、躲闪、假动作、踢球、接球和跳跃救球，无需显式设计包含这些技能的环境。自我对弈确保环境始终保持适当的难度，让 AI 持续改进。结合我们的 Dota 2 自我对弈成果，我们日益确信自我对弈将成为未来强大 AI 系统的核心组成部分。我们在一系列基础游戏中设置多个模拟 3D 机器人之间的竞争，用简单的目标训练每个智能体（将对手推出相扑环、在阻止对手通过的同时到达环的另一侧、将球踢进球门或阻止对手这样做等），然后分析了涌现的不同策略。智能体初始时因有助于探索的行为（如站立和向前移动）获得密集奖励，这些奖励最终会衰减至零，取而代之的是仅因赢或输而获得奖励。尽管奖励信号简单，智能体仍然学会了精妙的行为，如铲球、躲闪、假动作、踢球、接球和跳跃救球。每个智能体的神经网络策略都用近端策略优化 (Proximal Policy Optimization) (https://arxiv.org/abs/1707.06347) 独立训练。

竞争性自我对弈

相似文章

Dota 2

多智能体交互中出现的工具使用

Dota 2 与大规模深度强化学习

OpenAI Five

更多关于 Dota 2 的内容

提交意见反馈