多智能体系统中的策略表示学习
摘要
OpenAI 研究人员提出了一个通用框架,用于在多智能体系统中使用最少的交互数据学习智能体策略的表示,将该问题视为表示学习,并应用于竞争控制和合作通信环境。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:46
# 多智能体系统中的策略表示学习
来源: https://openai.com/index/learning-policy-representations-in-multiagent-systems/
OpenAI
## 摘要
对智能体行为进行建模是理解多智能体系统中复杂现象出现的核心。以往的智能体建模工作主要是针对特定任务的,并且由手工设计的领域特定先验知识驱动。我们提出了一个通用学习框架,用于使用少量交互数据对任何多智能体系统中的智能体行为进行建模。我们的框架将智能体建模视为一个表示学习问题。因此,我们构建了一个受模仿学习和智能体识别启发的新颖目标函数,并设计了一个无监督学习智能体策略表示的算法。我们在以下方面实证演示了所提框架的效用:(i) 一个具有挑战性的高维连续控制竞争环境,以及 (ii) 一个通信合作环境,在监督预测任务、无监督聚类和使用深度强化学习的策略优化方面的应用。
相似文章
学习合作、竞争和沟通
OpenAI 展示了多智能体强化学习环境的研究,其中智能体学习合作、竞争和沟通。该论文介绍了 MADDPG(Multi-Agent DDPG),这是一种集中式评论家方法,能够让智能体比传统的分散式方法更有效地学习协作策略和沟通协议。
学习交流
OpenAI研究人员演示了协作型AI代理可以通过在简单世界中进行强化学习,发展出自己的有根据的和组合型语言。这些代理通过获得需要协调的目标奖励来学习交流,创建共享的符号语言以协调行为。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。
多智能体RL何时能提升LLM工作流?工作流、规模与策略共享的权衡
本文研究了端到端强化学习训练何时能改善多智能体LLM工作流,比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练,揭示了条件性权衡。
NeuroMAS:将多智能体系统视为具有联合强化学习的神经网络
NeuroMAS将多智能体语言系统视为可训练的类神经网络架构,以LLM代理作为节点,利用强化学习来学习通信和专业化。实验表明,其性能得到提升,并且从较小的系统逐步扩展比从头训练大型系统效果更好。