多智能体系统中的策略表示学习

OpenAI Blog 论文

摘要

OpenAI 研究人员提出了一个通用框架,用于在多智能体系统中使用最少的交互数据学习智能体策略的表示,将该问题视为表示学习,并应用于竞争控制和合作通信环境。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:46

# 多智能体系统中的策略表示学习 来源: https://openai.com/index/learning-policy-representations-in-multiagent-systems/ OpenAI ## 摘要 对智能体行为进行建模是理解多智能体系统中复杂现象出现的核心。以往的智能体建模工作主要是针对特定任务的,并且由手工设计的领域特定先验知识驱动。我们提出了一个通用学习框架,用于使用少量交互数据对任何多智能体系统中的智能体行为进行建模。我们的框架将智能体建模视为一个表示学习问题。因此,我们构建了一个受模仿学习和智能体识别启发的新颖目标函数,并设计了一个无监督学习智能体策略表示的算法。我们在以下方面实证演示了所提框架的效用:(i) 一个具有挑战性的高维连续控制竞争环境,以及 (ii) 一个通信合作环境,在监督预测任务、无监督聚类和使用深度强化学习的策略优化方面的应用。

相似文章

学习合作、竞争和沟通

OpenAI Blog

OpenAI 展示了多智能体强化学习环境的研究,其中智能体学习合作、竞争和沟通。该论文介绍了 MADDPG(Multi-Agent DDPG),这是一种集中式评论家方法,能够让智能体比传统的分散式方法更有效地学习协作策略和沟通协议。

学习交流

OpenAI Blog

OpenAI研究人员演示了协作型AI代理可以通过在简单世界中进行强化学习,发展出自己的有根据的和组合型语言。这些代理通过获得需要协调的目标奖励来学习交流,创建共享的符号语言以协调行为。

从动作引导中学习智能体策略

arXiv cs.CL

本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。