学习合作、竞争和沟通
摘要
OpenAI 展示了多智能体强化学习环境的研究,其中智能体学习合作、竞争和沟通。该论文介绍了 MADDPG(Multi-Agent DDPG),这是一种集中式评论家方法,能够让智能体比传统的分散式方法更有效地学习协作策略和沟通协议。
多智能体环境中的智能体为了资源而竞争,这是通往 AGI 的垫脚石。多智能体环境具有两个有用的特性:首先,存在一个自然的课程——环境的难度由竞争者的技能水平决定(如果你与自己的克隆体竞争,环境的难度恰好与你的技能水平相匹配)。其次,多智能体环境没有稳定的均衡点:无论智能体有多聪明,总是存在变得更聪明的压力。这些环境的特点与传统环境完全不同,在我们掌握它们之前,还需要进行大量的研究。
查看缓存全文
缓存时间: 2026/04/20 14:45
# 学习合作、竞争和沟通
来源:https://openai.com/index/learning-to-cooperate-compete-and-communicate/
多智能体环境中的智能体为资源而竞争,这是通向 AGI 道路上的踏脚石。多智能体环境具有两个有用的特性:首先,存在自然课程——环境的难度由竞争对手的技能水平决定(如果你与自己的克隆体竞争,环境难度恰好与你的技能水平匹配)。其次,多智能体环境没有稳定的均衡点:无论一个智能体有多聪明,总是存在变得更聪明的压力。这些环境与传统环境的感受截然不同,我们需要进行大量研究才能在这些环境中表现出色。
传统的分散式强化学习方法——DDPG、actor-critic 学习、深度 Q 学习等——在多智能体环境中表现不佳,因为在每个时间步,每个智能体都需要尝试学习预测其他智能体的行动,同时采取自己的行动。这在竞争情况下尤其如此。MADDPG 采用集中式评论家为智能体提供有关其他智能体观察结果和潜在行动的信息,将不可预测的环境转变为可预测的环境。
使用策略梯度方法带来进一步的挑战:由于这些方法表现出高方差,当奖励不一致时,学习正确的策略就很困难。我们还发现,虽然添加评论家可以改善稳定性,但仍然无法解决多个环境问题,例如合作沟通。考虑在训练过程中其他智能体的行动似乎对学习合作策略很重要。
在我们开发 MADDPG 之前,使用分散式技术时,我们注意到监听智能体通常会学会忽视说话者发送的关于去向的不一致消息。该智能体随后会将与说话者消息相关联的所有权重设置为 0,实际上是让自己失聋。一旦发生这种情况,训练就很难恢复,因为说话者由于缺少任何反馈,永远无法知道自己说的是否正确。为了解决这个问题,我们查看了最近一个分层强化学习项目(在新窗口中打开) (https://arxiv.org/abs/1703.01161) 中概述的一种技术,它允许我们强制监听者在决策过程中纳入说话者的言论。这个修复方法没有起作用,因为虽然它强制监听者关注说话者,但并不能帮助说话者搞清楚应该说什么才是相关的。我们的集中式评论家方法通过帮助说话者学习哪些言论可能与其他智能体的行动相关来应对这些挑战。如需了解更多成果,你可以观看以下视频:
相似文章
学习交流
OpenAI研究人员演示了协作型AI代理可以通过在简单世界中进行强化学习,发展出自己的有根据的和组合型语言。这些代理通过获得需要协调的目标奖励来学习交流,创建共享的符号语言以协调行为。
多智能体系统中的策略表示学习
OpenAI 研究人员提出了一个通用框架,用于在多智能体系统中使用最少的交互数据学习智能体策略的表示,将该问题视为表示学习,并应用于竞争控制和合作通信环境。
学习建模他人思维
OpenAI 和牛津大学研究人员提出了 LOLA(Learning with Opponent-Learning Awareness),这是一种强化学习方法,使智能体能够建模并考虑其他智能体的学习,在迭代囚徒困境和硬币游戏等多智能体博弈中发现合作策略。
具有对手学习感知的学习
OpenAI 提出了 LOLA (Learning with Opponent-Learning Awareness),一种多智能体强化学习方法,其中智能体能够塑造其他智能体的预期学习过程。该方法展示了在重复囚徒困境中合作的涌现现象,以及在博弈论设置中收敛到纳什均衡。
多目标强化学习:具有挑战性的机器人环境与研究建议
OpenAI 推出了一套具有挑战性的多目标强化学习任务,使用 Fetch 和 Shadow Dexterous Hand 硬件,集成到 OpenAI Gym 中,并提出了改进强化学习算法的研究方向。