学习合作、竞争和沟通

OpenAI Blog 2017/06/08 07:00 论文

摘要

OpenAI 展示了多智能体强化学习环境的研究，其中智能体学习合作、竞争和沟通。该论文介绍了 MADDPG（Multi-Agent DDPG），这是一种集中式评论家方法，能够让智能体比传统的分散式方法更有效地学习协作策略和沟通协议。

多智能体环境中的智能体为了资源而竞争，这是通往 AGI 的垫脚石。多智能体环境具有两个有用的特性：首先，存在一个自然的课程——环境的难度由竞争者的技能水平决定（如果你与自己的克隆体竞争，环境的难度恰好与你的技能水平相匹配）。其次，多智能体环境没有稳定的均衡点：无论智能体有多聪明，总是存在变得更聪明的压力。这些环境的特点与传统环境完全不同，在我们掌握它们之前，还需要进行大量的研究。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:45

# 学习合作、竞争和沟通来源：https://openai.com/index/learning-to-cooperate-compete-and-communicate/ 多智能体环境中的智能体为资源而竞争，这是通向 AGI 道路上的踏脚石。多智能体环境具有两个有用的特性：首先，存在自然课程——环境的难度由竞争对手的技能水平决定（如果你与自己的克隆体竞争，环境难度恰好与你的技能水平匹配）。其次，多智能体环境没有稳定的均衡点：无论一个智能体有多聪明，总是存在变得更聪明的压力。这些环境与传统环境的感受截然不同，我们需要进行大量研究才能在这些环境中表现出色。传统的分散式强化学习方法——DDPG、actor-critic 学习、深度 Q 学习等——在多智能体环境中表现不佳，因为在每个时间步，每个智能体都需要尝试学习预测其他智能体的行动，同时采取自己的行动。这在竞争情况下尤其如此。MADDPG 采用集中式评论家为智能体提供有关其他智能体观察结果和潜在行动的信息，将不可预测的环境转变为可预测的环境。使用策略梯度方法带来进一步的挑战：由于这些方法表现出高方差，当奖励不一致时，学习正确的策略就很困难。我们还发现，虽然添加评论家可以改善稳定性，但仍然无法解决多个环境问题，例如合作沟通。考虑在训练过程中其他智能体的行动似乎对学习合作策略很重要。在我们开发 MADDPG 之前，使用分散式技术时，我们注意到监听智能体通常会学会忽视说话者发送的关于去向的不一致消息。该智能体随后会将与说话者消息相关联的所有权重设置为 0，实际上是让自己失聋。一旦发生这种情况，训练就很难恢复，因为说话者由于缺少任何反馈，永远无法知道自己说的是否正确。为了解决这个问题，我们查看了最近一个分层强化学习项目(在新窗口中打开) (https://arxiv.org/abs/1703.01161) 中概述的一种技术，它允许我们强制监听者在决策过程中纳入说话者的言论。这个修复方法没有起作用，因为虽然它强制监听者关注说话者，但并不能帮助说话者搞清楚应该说什么才是相关的。我们的集中式评论家方法通过帮助说话者学习哪些言论可能与其他智能体的行动相关来应对这些挑战。如需了解更多成果，你可以观看以下视频：

学习合作、竞争和沟通

相似文章

学习交流

多智能体系统中的策略表示学习

学习建模他人思维

具有对手学习感知的学习

多目标强化学习：具有挑战性的机器人环境与研究建议

提交意见反馈