具有对手学习感知的学习
摘要
OpenAI 提出了 LOLA (Learning with Opponent-Learning Awareness),一种多智能体强化学习方法,其中智能体能够塑造其他智能体的预期学习过程。该方法展示了在重复囚徒困境中合作的涌现现象,以及在博弈论设置中收敛到纳什均衡。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:45
# 学习与对手学习意识
来源:https://openai.com/index/learning-with-opponent-learning-awareness/
## 摘要
多智能体设置在机器学习中的重要性日益提升。这包括深度多智能体强化学习的大量最新研究,但也可扩展到分层强化学习、生成对抗网络和分散优化。在所有这些设置中,多个学习智能体的存在使训练问题变成非平稳的,通常导致训练不稳定或产生不理想的最终结果。我们提出了学习与对手学习意识(LOLA)方法,其中每个智能体都会影响环境中其他智能体的预期学习。LOLA 学习规则包含一项,用于衡量一个智能体的策略对其他智能体预期参数更新的影响。研究结果表明,两个 LOLA 智能体的相遇导致了针锋相对策略的出现,从而在迭代囚徒困境中实现合作,而独立学习则不会。在这个领域中,LOLA 相比幼稚学习者获得更高的收益,并且能够抵抗更高阶基于梯度的方法的利用。在重复硬币匹配问题中,LOLA 智能体收敛到纳什均衡。在循环赛中,我们展示了 LOLA 智能体成功地影响了文献中多种多智能体学习算法的学习,在迭代囚徒困境上获得了最高的平均回报。我们还表明 LOLA 更新规则可以使用策略梯度估计器的扩展高效计算,使该方法适合无模型强化学习。因此该方法可扩展到大型参数和输入空间以及非线性函数近似器。我们将 LOLA 应用于包含嵌入式社会困境的网格世界任务,使用循环策略和对手建模。通过明确考虑其他智能体的学习,LOLA 智能体学会出于自身利益进行合作。代码位于 (https://github.com/alshedivat/lola)。
相似文章
学习建模他人思维
OpenAI 和牛津大学研究人员提出了 LOLA(Learning with Opponent-Learning Awareness),这是一种强化学习方法,使智能体能够建模并考虑其他智能体的学习,在迭代囚徒困境和硬币游戏等多智能体博弈中发现合作策略。
学习合作、竞争和沟通
OpenAI 展示了多智能体强化学习环境的研究,其中智能体学习合作、竞争和沟通。该论文介绍了 MADDPG(Multi-Agent DDPG),这是一种集中式评论家方法,能够让智能体比传统的分散式方法更有效地学习协作策略和沟通协议。
多智能体系统中的策略表示学习
OpenAI 研究人员提出了一个通用框架,用于在多智能体系统中使用最少的交互数据学习智能体策略的表示,将该问题视为表示学习,并应用于竞争控制和合作通信环境。
学习交流
OpenAI研究人员演示了协作型AI代理可以通过在简单世界中进行强化学习,发展出自己的有根据的和组合型语言。这些代理通过获得需要协调的目标奖励来学习交流,创建共享的符号语言以协调行为。
多智能体协商中基于对手建模的偏好估计
本文提出了一种新颖的偏好估计方法,将大型语言模型(LLM)的自然语言信息集成到结构化贝叶斯对手建模框架中,用于多智能体协商。该方法利用LLM从话语中提取定性线索,并将其转换为概率格式,在多方协商基准上展示了改进的协议达成率和偏好估计准确性。