多智能体交互中出现的工具使用

OpenAI Blog 论文

摘要

OpenAI 展示了在躲猫猫环境中训练的智能体能够通过多智能体竞争发现六种不同的突现策略和工具使用行为,而无需明确的对象交互激励。这项工作表明多智能体协同适应可以通过自监督学习产生复杂的智能行为。

我们观察到智能体在玩一个简单的躲猫猫游戏时逐渐发现更复杂的工具使用方法。通过在我们新的模拟躲猫猫环境中进行训练,智能体构建了一系列六种不同的策略和反策略,其中一些是我们之前不知道环境支持的。这个简单环境中的自监督突现复杂性进一步表明,多智能体协同适应有朝一日可能会产生极其复杂和智能的行为。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# 多智能体交互中涌现的工具使用 来源:https://openai.com/index/emergent-tool-use/ 我们观察到智能体在玩一个简单的躲猫猫游戏中发现了逐步复杂化的工具使用方式。通过在我们新的模拟躲猫猫环境中进行训练,智能体构建了一系列六种不同的策略和反策略,其中一些是我们不知道环境支持的。这个简单环境中的自监督涌现复杂性进一步表明,多智能体共同适应可能有朝一日会产生极其复杂和智能的行为。 在我们的环境中,智能体进行团队制躲猫猫游戏。躲藏者(蓝色)的任务是避免被寻找者(红色)的视线发现,而寻找者的任务是保持对躲藏者的视线。环境中散布着躲藏者和寻找者可以抓取并锁定的物体,以及随机生成的不可移动的房间和墙壁,智能体必须学会在其中导航。游戏开始前,躲藏者会获得一个准备阶段,在此阶段寻找者被固定不动,以便躲藏者有机会逃跑或改变环境。 环境中没有明确的激励措施促使智能体与物体交互;唯一的监督来自躲猫猫目标。智能体获得团队制奖励;如果所有躲藏者都隐藏起来,躲藏者获得+1的奖励,如果有任何躲藏者被寻找者看到则获得-1。寻找者获得相反的奖励,如果所有躲藏者都隐藏则为-1,否则为+1。为了将智能体行为限制在合理范围内,如果智能体离开游戏区域过远会受到惩罚。在准备阶段,所有智能体都获得零奖励。 当智能体在躲猫猫中相互训练时,**最多会涌现出六种不同的策略**。每种新策略都为智能体进展到下一阶段创造了先前不存在的压力。需要注意的是,没有直接的激励措施促使智能体与物体交互或进行探索;相反,下面显示的涌现策略是多智能体竞争和躲猫猫简单动力学诱导的*自动课程*(https://arxiv.org/pdf/1903.00742.pdf)的结果。 我们使用与训练 OpenAI Five(https://openai.com/index/openai-five/)和 Dactyl(https://openai.com/index/learning-dexterity/)相同的训练基础设施和算法。然而,在我们的环境中,每个智能体独立行动,使用自己的观察和隐藏的记忆状态。智能体使用环境的以实体为中心的基于状态的表示,这对物体和其他智能体是*排列不变的*。 每个物体都被嵌入,然后通过一个掩蔽残差自注意力块,类似于*Transformer*中使用的那些(https://arxiv.org/pdf/1706.03762.pdf),其中注意力是针对物体而不是时间的。不在智能体视线范围内和前方的物体会被掩蔽,以便智能体对其没有任何信息。 多智能体策略架构图 智能体策略使用*自我对弈*(https://openai.com/index/competitive-self-play/)和近端策略优化(https://openai.com/index/openai-baselines-ppo/)进行训练。在优化过程中,智能体可以在其价值函数中使用关于遮挡物体和其他智能体的特权信息。 我们发现大规模训练对于智能体通过各个涌现阶段至关重要。下面我们展示了对于各种批量大小,智能体到达第4阶段(斜坡防守)所需的时间和周期数。我们发现增加批量大小能大幅加快收敛的实际时间,尽管在32k或以上时对样本效率的影响不大。但是,我们发现批量大小为8k和16k的情况在分配的周期数内从未到达第4阶段。 在这项工作中,我们提供证据表明智能体通过躲猫猫中的自监督自动课程学习复杂的策略和反策略。另一种以无监督方式学习技能的方法是*内在动机*,它使用各种指标(如模型误差或状态计数)激励智能体进行探索。我们在环境中进行了基于计数的探索,其中智能体保持对访问过的状态的显式计数,并被激励前往访问频率较低的状态。在这种设置中的主要建模选择是状态表示;例如,在我们的第一个基线中,我们仅在状态中包含二维盒位置,以便智能体仅被激励与物体交互并将其移动到新颖位置。然后我们将其与采用给予躲猫猫智能体的完整状态的基于计数的策略进行比较。 如所示,在躲猫猫中训练的智能体的行为在定性上围绕着诸如庇护所建设等更多人类可理解的行为,而使用内在动机训练的智能体似乎以无方向的方式移动物体。此外,随着状态空间复杂性的增加,我们发现内在动机方法与其环境中的物体的有意义交互越来越少。因此,我们相信多智能体竞争将是一种更可扩展的方法,用于以无监督的方式在环境规模和复杂性不断增加的情况下生成人类相关的技能。 在前面的部分中,我们定性地比较了在躲猫猫中学到的行为与使用内在动机学到的行为。但是,随着环境规模的增加,定性测量进度的难度也会增加。在多智能体设置中,跟踪奖励是不充分的评估指标,因为它在指示智能体是否均匀改进或已停滞方面可能不明确。像ELO或Trueskill这样的指标可以更可靠地衡量性能相对于先前策略版本或群体中其他策略是否在改进;但是,这些指标仍然不能深入了解改进的性能是由新的适应还是改进先前学到的技能引起的。最后,使用环境特定的统计数据(如物体运动)也可能不明确(例如,选择跟踪绝对运动不会说明智能体沿哪个方向移动),并且随着环境规模增加,设计充分的指标会变得困难且成本高昂。 我们建议使用一套针对我们认为智能体最终可能获得的能力的领域特定智力测试。这些设置中的迁移性能可以作为表示质量或技能的定量测量,我们将其与基于计数的探索预训练以及从零开始训练的基线进行比较。 尽管躲猫猫智能体在许多迁移任务中表现更好,但它并未大幅提高性能或收敛时间。从观看其行为来看,我们知道它具有以精确方式移动物体以在躲猫猫游戏中构建庇护所的潜在技能;但是,当用较少样本进行训练时,它在其他环境中使用此技能的能力不足。 我们认为混合迁移结果的原因在于智能体学到的技能表示纠缠不清,难以微调。随着未来环境变得更加多样化,智能体必须在更多环境中使用技能时,我们相信我们会看到更易泛化的技能表示和这种评估方法中更显著的信号。我们还开源了评估任务,作为评估我们环境中学习进度的一种方式。 我们已经展示了智能体可以在高保真物理模拟器中学习复杂的工具使用;但是,在取得这一成果的过程中,我们学到了许多宝贵的经验。构建环境并不容易,智能体经常会找到利用你构建的环境或物理引擎的意外方式。

相似文章

竞争性自我对弈

OpenAI Blog

OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈,能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为,如铲球、躲闪和虚晃等,表明自我对弈将成为未来强大 AI 系统的基础。

多智能体种群中有根据的组合语言的出现

OpenAI Blog

# 多智能体种群中有根据的组合语言的出现 来源: [https://openai.com/index/emergence-of-grounded-compositional-language-in-multi-agent-populations/](https://openai.com/index/emergence-of-grounded-compositional-language-in-multi-agent-populations/) ## 摘要 通过捕捉大型语料库中的统计模式,机器学习在自然语言处理领域取得了重大进展,包括在机器翻译、问答和情感分析方面的应用

构建智能体的新工具

OpenAI Blog

OpenAI 推出了一系列用于构建智能体的新工具,包括 Responses API、内置工具(网络搜索、文件搜索、计算机使用)、Agents SDK 和可观测性功能,旨在简化智能体应用程序开发。

学习合作、竞争和沟通

OpenAI Blog

OpenAI 展示了多智能体强化学习环境的研究,其中智能体学习合作、竞争和沟通。该论文介绍了 MADDPG(Multi-Agent DDPG),这是一种集中式评论家方法,能够让智能体比传统的分散式方法更有效地学习协作策略和沟通协议。

Agent-World:面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua