NeuroMAS:将多智能体系统视为具有联合强化学习的神经网络

arXiv cs.AI 论文

摘要

NeuroMAS将多智能体语言系统视为可训练的类神经网络架构,以LLM代理作为节点,利用强化学习来学习通信和专业化。实验表明,其性能得到提升,并且从较小的系统逐步扩展比从头训练大型系统效果更好。

arXiv:2605.16757v1 公告类型:新 摘要:多智能体语言系统通常被构建为手工设计的工作流,其中智能体被分配语义角色,通信协议被预先指定。我们提出了NeuroMAS,该方法首先将多智能体语言系统视为一个可训练且可扩展的类神经网络架构,以LLM智能体作为节点,中间文本信号作为边。在NeuroMAS中,智能体节点无角色但有结构意识:拓扑结构仅决定信息的大致流动方向,而强化学习训练则决定节点如何通信、专业化和协调。这种表述将多智能体设计从工作流工程转向架构设计,其中深度、宽度、连接性和增长协议成为可扩展的能力来源。此外,我们提供了一个理论视角,展示了当任务允许层次化分解时,这种模块化的文本计算如何在参数效率上更有优势。实验表明,NeuroMAS在推理时和训练好的多智能体基线上都有显著改进。我们进一步发现,组织扩展具有路径依赖性:较大的系统从头训练可能具有挑战性,但从较小的训练好的系统逐步扩展则是可行的。这些结果表明,学习的神经多智能体系统是LLM的一个有前景的扩展方向。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:36

# NeuroMAS:多智能体系统作为神经网络的联合强化学习
来源:https://arxiv.org/html/2605.16757

Haoran Lu  
Department of Statistics  
University of Georgia  
Athens, GA 30602  
haoran\.lu@uga\.edu

&Luyang Fang  
Department of Statistics  
University of Georgia  
Athens, GA 30602  
luyang\.fang@uga\.edu

&Wenxuan Zhong  
Department of Statistics  
University of Georgia  
Athens, GA 30602  
wenxuan@uga\.edu

&Ping Ma¹  
Department of Statistics  
University of Georgia  
Athens, GA 30602  
pingma@uga\.edu

###### 摘要
多智能体语言系统通常被构建为手工设计的工作流程,其中智能体被分配语义角色,通信协议也事先指定。我们提出NeuroMAS,一种将多智能体语言系统视为可训练、可扩展的类神经网络架构的方法,其中LLM智能体作为节点,中间文本信号作为边。在NeuroMAS中,智能体节点是“无角色”但“有结构意识”的:拓扑结构仅决定信息的一般流动方式,而强化学习训练则决定节点如何通信、专门化和协调。这种表述将多智能体设计从工作流程工程转向架构设计,其中深度、宽度、连接性和增长协议成为可扩展的能力来源。此外,我们提供了一个理论视角,说明为何这种模块化的文本计算在任务支持层次分解时更具参数效率。实验表明,NeuroMAS在推理时和训练后的多智能体基线上均有显著提升。我们进一步发现,组织扩展具有路径依赖性:较大的系统从头训练可能具有挑战性,但从较小的已训练系统逐步增长则变得可行。这些结果表明,学习的神经多智能体系统是LLM一个有前景的扩展轴。

## 1 引言
基于大语言模型(LLM)的智能体在编码、推理、数学、写作和工具使用任务中变得越来越强大,近期针对智能体编码、任务自动化和数学问题求解的系统便展示了这一点(Anthropic, 2025 (https://arxiv.org/html/2605.16757#bib.bib56); OpenAI, 2025 (https://arxiv.org/html/2605.16757#bib.bib57); OpenClaw, 2026 (https://arxiv.org/html/2605.16757#bib.bib58); Nous Research, 2026 (https://arxiv.org/html/2605.16757#bib.bib66); Google DeepMind, 2025 (https://arxiv.org/html/2605.16757#bib.bib59))。尽管取得了这些进展,当前的LLM智能体在长时执行、复杂推理和领域特定适应方面仍存在困难(Yao et al., 2023b (https://arxiv.org/html/2605.16757#bib.bib32); Liu et al., 2023 (https://arxiv.org/html/2605.16757#bib.bib60); Wang et al., 2023a (https://arxiv.org/html/2605.16757#bib.bib61))。针对这些局限性的常见应对方法是扩展底层模型:增加参数量、训练数据、训练计算量或推理时计算量(Kaplan et al., 2020 (https://arxiv.org/html/2605.16757#bib.bib10); Brown et al., 2020 (https://arxiv.org/html/2605.16757#bib.bib42); Hoffmann et al., 2022 (https://arxiv.org/html/2605.16757#bib.bib11); OpenAI, 2023 (https://arxiv.org/html/2605.16757#bib.bib30))。这一策略仍然有效,但成本也日益高昂。经验扩展定律表明,来自更大模型的增益在计算量和模型规模上呈次线性增长,因此持续改进往往需要不成比例地增加资源(Kaplan et al., 2020 (https://arxiv.org/html/2605.16757#bib.bib10); Hoffmann et al., 2022 (https://arxiv.org/html/2605.16757#bib.bib11); Sardana et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib45))。对于大型前沿骨干模型,暴力扩展还会增加训练和推理成本(Brown et al., 2020 (https://arxiv.org/html/2605.16757#bib.bib42); Chowdhery et al., 2023 (https://arxiv.org/html/2605.16757#bib.bib43); Fedus et al., 2022 (https://arxiv.org/html/2605.16757#bib.bib44))。这些趋势促使我们思考一个互补的问题:与其只扩展模型本身,我们能否围绕一个固定模型来扩展计算的组织方式?

多智能体系统(MAS)为这种替代扩展轴提供了自然路径。不同于依赖单一整体生成过程,多个LLM智能体可以分解问题、探索不同推理路径、交换中间信息并聚合部分解。相关的推理时推理方法已经表明,结构化计算可以改善语言模型的推理,例如通过思维链提示、从易到难分解、树搜索或辩论式交互(Wei et al., 2022 (https://arxiv.org/html/2605.16757#bib.bib31); Zhou et al., 2023 (https://arxiv.org/html/2605.16757#bib.bib46); Yao et al., 2023a (https://arxiv.org/html/2605.16757#bib.bib33); Du et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib47))。基于LLM的多智能体系统(MAS)将这一思想进一步扩展,将推理从单一智能体生成问题转变为涉及多个通信智能体的分布式计算过程(Wu et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib15); Hong et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib34); Qian et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib17))。近期工作进一步表明,这些系统的组织方式很重要:改变智能体数量、通信模式或交互拓扑结构会显著影响性能(Li et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib18); Zhuge et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib20); Zhou et al., 2026 (https://arxiv.org/html/2605.16757#bib.bib22))。因此,能力可能不仅来自单个骨干模型的规模,还来自多个模型实例的组织方式。

然而,现有的大多数多智能体系统仍然主要将组织视为一种设计选择,而不是一个可扩展的对象。基于提示和基于工作流的系统为智能体分配人类编写的角色,如规划者、求解者、批评者、验证者或审查者,并手动指定通信协议(Wu et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib15); Hong et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib34); Qian et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib17); Wang et al., 2025 (https://arxiv.org/html/2605.16757#bib.bib19))。最近的方法优化了该设计空间的某些部分,包括提示、通信边、工作流或拓扑结构(Zhuge et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib20); Zhou et al., 2026 (https://arxiv.org/html/2605.16757#bib.bib22); Yang et al., 2025b (https://arxiv.org/html/2605.16757#bib.bib23); Motwani et al., 2025 (https://arxiv.org/html/2605.16757#bib.bib24))。这些方法证明了组织的重要性,但它们通常将组织设计与内部智能体的训练分开。在许多情况下,工作流由设计者固定,学习使智能体在该框架内适应;在其他情况下,拓扑或提示搜索独立于端到端的智能体训练进行。这留下了一个核心空白:我们缺乏一个统一的框架,其中多智能体组织和可训练的智能体参数作为一个系统被联合优化。

见图注

图1:(a) NeuroMAS方法概览。(b) LLM多智能体系统的概念格局。横轴表示智能体内部参数是冻结的还是可训练的,纵轴表示智能体间拓扑是固定的还是可扩展和/或灵活的。位置是示意性的,而非定量精确的。

我们通过神经多智能体系统(NeuroMAS)来填补这一空白,这是一个将多智能体语言系统视为可训练和可扩展的架构、并带有文本中间信号的框架。如图1(a)所示,NeuroMAS是一个系统,其中LLM智能体节点通过承载文本的边相连。每个节点接收任务输入以及来自上游节点的消息,为下游节点生成文本输出,并通过最终任务的奖励与系统中其他节点联合优化。与传统多智能体工作流不同,NeuroMAS不为节点分配手写的语义角色(如规划者、批评者、验证者或评判者)。相反,节点通过“无角色但有结构意识”接收最少的角色信息:每个节点知道其在架构中的位置以及必须生成的消息格式,但其功能特化并非事先规定。拓扑结构定义了信息可以流向何处;训练决定了每个节点如何利用传入消息、向前发送什么内容,以及系统如何协调以产生最终答案。这种表述将MAS设计从工作流工程转向神经拓扑设计。现有相关的MAS在图1(b)中进行了概念性总结,将在第2节详细讨论。NeuroMAS定位于一个独特且尚未充分探索的领域:智能体内部的LLM骨干模型是可训练的,而智能体间的拓扑结构提供了一个可扩展、灵活的架构结构,而非固定的工作流。在传统工作流中,设计者指定角色和聚合规则。在NeuroMAS中,图扮演的角色类似于神经网络中的架构:深度、宽度、连接性和增长协议决定了可能计算的空间,而学习决定了该架构内模块的有效行为。这一观点受到神经网络架构设计成功的启发,其中深度、宽度、模块化、跳跃连接、图结构化计算和架构搜索能够显著影响性能(LeCun et al., 1998 (https://arxiv.org/html/2605.16757#bib.bib65); He et al., 2016 (https://arxiv.org/html/2605.16757#bib.bib40); Vaswani et al., 2017 (https://arxiv.org/html/2605.16757#bib.bib64); Shazeer et al., 2017 (https://arxiv.org/html/2605.16757#bib.bib27); Elsken et al., 2019 (https://arxiv.org/html/2605.16757#bib.bib41))。NeuroMAS将这一重要视角带入MAS。其目标不是手工编码最佳智能体角色,而是提供一个可扩展的结构,使得通信、特化和协调能够通过强化学习涌现。从这个意义上说,NeuroMAS为多智能体系统提出了一个“苦涩教训”视角:持久的进步应来自能够随计算扩展的通用可训练机制,而非来自日益复杂的人工编写工作流(Sutton, 2019 (https://arxiv.org/html/2605.16757#bib.bib12))。

我们在一个刻意资源受限的机制下评估NeuroMAS。所有智能体共享一个小的冻结骨干模型,每个节点仅通过轻量级可训练参数进行适应。这一设置旨在测试是否学习的组织能够在不依赖更强基础模型的情况下改善LLM推理。在推理和编码基准测试中,NeuroMAS优于人工设计的协作基线以及单模型或固定拓扑的训练方法。参数计数控制进一步表明,增益并不仅仅是通过向一个模型添加更多可训练适配器参数来解释的。我们还发现,组织扩展是可能的,但并非自动:从零开始训练更大的系统可能不稳定,而逐步增长一个已训练的小型系统则能产生更强且更可靠的性能。这些结果支持了以下观点:围绕语言模型的组织本身可以成为可训练的能力来源。

#### 贡献。本工作做出以下主要贡献。
方法论上,我们引入NeuroMAS,将多智能体语言系统视为可扩展的可训练架构,而非独立的提示、路由或协调过程。在此观点下,通信和特化是系统的学习属性,而非固定的设计选择。
算法上,我们展示了多智能体系统可以通过渐进增长进行扩展,其中较小的已训练架构被扩展为较大的架构,同时保留有用的学习行为。
理论上,我们解释了为什么将计算分布在有组织的交互智能体上,可能比强迫一个单一非结构化模型解决整个问题需要更少的参数。
实证上,我们展示了学习到的组织在推理、领域知识和代码生成任务上产生一致的增益,优于仅提示的协作、单模型训练控制以及最近的训练多智能体基线,并揭示了成功的多智能体扩展取决于系统如何增长。

## 2 相关工作

**单模型的结构化推理。** 许多方法通过改变单个冻结模型周围的测试时计算来改善LLM推理。思维链暴露了中间推理过程,自一致性采样多个推理路径并聚合答案,思维树搜索候选轨迹(Wei et al., 2022 (https://arxiv.org/html/2605.16757#bib.bib31); Wang et al., 2023b (https://arxiv.org/html/2605.16757#bib.bib69); Yao et al., 2023a (https://arxiv.org/html/2605.16757#bib.bib33))。Self-Refine添加了反馈与修订循环,而Self-Check在没有外部工具或监督的情况下验证逐步推理(Madaan et al., 2023 (https://arxiv.org/html/2605.16757#bib.bib13); Miao et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib50))。这些方法表明结构化推理可以改善推理,但结构是手动指定的且仅在推理时使用。NeuroMAS则研究围绕共享骨干的可训练组织,其中多个语言策略在可扩展的网络架构内交换文本状态。

**工程化的多智能体工作流。** 另一条工作线将推理分布到多个LLM智能体上,同时保持模型参数固定。AutoGen、MetaGPT和ChatDev使用明确的智能体身份、角色描述、手工设计的通信协议和软件风格的工作流(Wu et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib15); Hong et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib34); Qian et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib17))。Mixture-of-Agents和Agent Forest使用多次调用或智能体来生成、比较、完善、聚合或投票得出答案(Wang et al., 2025 (https://arxiv.org/html/2605.16757#bib.bib19); Li et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib18))。这些系统表明智能体组织影响性能,但角色、提示、边和协调规则主要由人类指定。NeuroMAS的不同之处在于将智能体模块作为系统的可训练组件,而非手工编写工作流中的固定参与者。

**优化智能体组织。** 最近的方法通过优化多智能体组织的部分来减少手动设计。GPTSwarm优化智能体图,包括节点提示和图连接性(Zhuge et al., 2024 (https://arxiv.org/html/2605.16757#bib.bib20))。MASS通过分阶段优化搜索提示和拓扑结构(Zhou et al., 2026 (https://arxiv.org/html/2605.16757#bib.bib22))。Graph of Agents为长上下文建模构建依赖输入的协作结构,AgentNet研究具有动态演化连接性的分散协调(Joo et al., 2025 (https://arxiv.org/html/2605.16757#bib.bib49); Yang et al., 2025b (https://arxiv.org/html/2605.16757#bib.bib23))。这些工作表明拓扑结构和通信是重要的设计变量。然而,优化通常针对提示、图、路由

相似文章

递归多智能体系统

Papers with Code Trending

本文提出RecursiveMAS,一种将递归扩展原则应用于多智能体系统的框架,以提升协作推理的效率和准确性。与标准基线相比,该框架在多个基准测试中实现了显著的加速和token缩减。

Neural MMO: 大规模多智能体游戏环境

OpenAI Blog

Neural MMO 是由 OpenAI 开发的大规模多智能体游戏环境,使智能体能够在可配置的瓷砖世界中学习,包含资源竞争、生存机制和战斗交互。

学习合作、竞争和沟通

OpenAI Blog

OpenAI 展示了多智能体强化学习环境的研究,其中智能体学习合作、竞争和沟通。该论文介绍了 MADDPG(Multi-Agent DDPG),这是一种集中式评论家方法,能够让智能体比传统的分散式方法更有效地学习协作策略和沟通协议。

多智能体系统中的策略表示学习

OpenAI Blog

OpenAI 研究人员提出了一个通用框架,用于在多智能体系统中使用最少的交互数据学习智能体策略的表示,将该问题视为表示学习,并应用于竞争控制和合作通信环境。