multi-agent-rl

#multi-agent-rl

重新审视复杂动作空间中的动作分解

arXiv cs.LG ↗ · 2026-06-26 缓存

本文提出了一项横断面研究，比较了在混合离散-连续动作空间中三种强化学习算法家族（PPO、SAC、DQN）上的各种动作分解方法（独立网络、共享编码器、VDN、QPLEX、联合、自回归），并引入了两个新的轻量级环境以及变体VDN-PPO和PPO-MIX。

0 人收藏 0 人点赞

#multi-agent-rl

OpenAI Blog ↗ · 2017-09-14 缓存

OpenAI 和牛津大学研究人员提出了 LOLA（Learning with Opponent-Learning Awareness），这是一种强化学习方法，使智能体能够建模并考虑其他智能体的学习，在迭代囚徒困境和硬币游戏等多智能体博弈中发现合作策略。

0 人收藏 0 人点赞

#multi-agent-rl

OpenAI Blog ↗ · 2017-09-13 缓存

OpenAI 提出了 LOLA (Learning with Opponent-Learning Awareness),一种多智能体强化学习方法,其中智能体能够塑造其他智能体的预期学习过程。该方法展示了在重复囚徒困境中合作的涌现现象,以及在博弈论设置中收敛到纳什均衡。

0 人收藏 0 人点赞