标签
OpenAI 展示了在躲猫猫环境中训练的智能体能够通过多智能体竞争发现六种不同的突现策略和工具使用行为,而无需明确的对象交互激励。这项工作表明多智能体协同适应可以通过自监督学习产生复杂的智能行为。
OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈,能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为,如铲球、躲闪和虚晃等,表明自我对弈将成为未来强大 AI 系统的基础。
OpenAI 展示了多智能体强化学习环境的研究,其中智能体学习合作、竞争和沟通。该论文介绍了 MADDPG(Multi-Agent DDPG),这是一种集中式评论家方法,能够让智能体比传统的分散式方法更有效地学习协作策略和沟通协议。
OpenAI研究人员演示了协作型AI代理可以通过在简单世界中进行强化学习,发展出自己的有根据的和组合型语言。这些代理通过获得需要协调的目标奖励来学习交流,创建共享的符号语言以协调行为。