具有对手学习感知的学习

OpenAI Blog 2017/09/13 07:00 论文

摘要

OpenAI 提出了 LOLA (Learning with Opponent-Learning Awareness),一种多智能体强化学习方法,其中智能体能够塑造其他智能体的预期学习过程。该方法展示了在重复囚徒困境中合作的涌现现象,以及在博弈论设置中收敛到纳什均衡。

暂无内容

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:45

# 学习与对手学习意识来源：https://openai.com/index/learning-with-opponent-learning-awareness/ ## 摘要多智能体设置在机器学习中的重要性日益提升。这包括深度多智能体强化学习的大量最新研究，但也可扩展到分层强化学习、生成对抗网络和分散优化。在所有这些设置中，多个学习智能体的存在使训练问题变成非平稳的，通常导致训练不稳定或产生不理想的最终结果。我们提出了学习与对手学习意识（LOLA）方法，其中每个智能体都会影响环境中其他智能体的预期学习。LOLA 学习规则包含一项，用于衡量一个智能体的策略对其他智能体预期参数更新的影响。研究结果表明，两个 LOLA 智能体的相遇导致了针锋相对策略的出现，从而在迭代囚徒困境中实现合作，而独立学习则不会。在这个领域中，LOLA 相比幼稚学习者获得更高的收益，并且能够抵抗更高阶基于梯度的方法的利用。在重复硬币匹配问题中，LOLA 智能体收敛到纳什均衡。在循环赛中，我们展示了 LOLA 智能体成功地影响了文献中多种多智能体学习算法的学习，在迭代囚徒困境上获得了最高的平均回报。我们还表明 LOLA 更新规则可以使用策略梯度估计器的扩展高效计算，使该方法适合无模型强化学习。因此该方法可扩展到大型参数和输入空间以及非线性函数近似器。我们将 LOLA 应用于包含嵌入式社会困境的网格世界任务，使用循环策略和对手建模。通过明确考虑其他智能体的学习，LOLA 智能体学会出于自身利益进行合作。代码位于 (https://github.com/alshedivat/lola)。

具有对手学习感知的学习

相似文章

学习建模他人思维

学习合作、竞争和沟通

多智能体系统中的策略表示学习

学习交流

多智能体协商中基于对手建模的偏好估计

提交意见反馈