响应条件化的并行到序列编排用于多智能体系统

arXiv cs.CL 2026/05/18 04:00 论文

摘要

介绍Nexa，一种可训练的响应条件化策略，结合了多智能体系统中的并行和串行执行，使用轻量级Transformer预测稀疏通信图，在最小化延迟的同时提高准确性。

arXiv:2605.15573v1 公告类型：新摘要：多智能体系统可以通过多个大型语言模型智能体之间的协作来解决复杂任务。现有的协作框架通常以并行或串行模式运行。在并行模式下，智能体独立响应查询，然后汇总响应。相比之下，串行系统允许智能体通过有向拓扑进行通信，并逐步优化彼此。然而，这两种模式都无法同时实现最小化通信和延迟、最大化最终响应准确性的目标。在这项工作中，我们引入了一种称为Nexa的混合范式，这是一种可训练的响应条件化策略，弥补了两种模式之间的差距。Nexa从并行执行阶段开始，将生成的响应嵌入到共享语义空间中，然后预测一个稀疏有向无环通信图。如果图为空，系统保持纯并行；如果图非空，系统执行一次顺序消息传播。该策略是一个轻量级Transformer模型，该方法避免使用外部LLM评判器或奖励模型，以及手工设计的测试时拓扑搜索。我们形式化了这个混合执行问题，证明了生成的图在结构上是无环的，并且该框架严格包含了纯并行执行，同时提出了一种基于策略梯度优化的训练流程。结果表明，Nexa学习到的响应条件化策略可以在智能体数量、任务或底层智能体发生变化时重复使用，从而强调了所学通信策略的泛化能力。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:32

# 响应条件化的多智能体系统并行到串行编排
来源：https://arxiv.org/html/2605.15573
Nurbek Tastan¹,² Alex Iacob²,³ Lorenzo Sani²,³ Meghdad Kurmanji² Nicholas D. Lane²,³ Samuel Horváth¹ Karthik Nandakumar¹,⁴ ¹MBZUAI, 阿联酋²剑桥大学, 英国 ³Flower Labs, 英国⁴密歇根州立大学, 美国

###### 摘要

多智能体系统可以通过多个大语言模型（LLM）智能体之间的协作来解决复杂任务。现有的协作框架通常以并行或串行模式运行。在并行模式下，智能体独立响应查询，然后聚合结果。相反，串行系统允许智能体通过有向拓扑进行通信，并逐步互相改进。然而，这两种模式都不足以在最小化通信和延迟的同时最大化最终响应的准确性。在这项工作中，我们引入了一种混合范式，称为Nexa，它是一种可训练的响应条件化策略，弥合了两种模式之间的差距。Nexa从并行执行阶段开始，将生成的响应嵌入到共享的语义空间中，然后预测一个稀疏的有向无环通信图。如果图为空，则系统保持纯并行；如果不为空，则系统执行一次串行消息传播。该策略是一个轻量级Transformer模型，该方法避免使用外部LLM评判器或奖励模型，以及手工设计的测试时拓扑搜索。我们将该混合执行问题形式化，证明了所生成的图天生是无环的，并且该框架严格包含了纯并行执行，最后介绍了一种基于策略梯度优化的训练过程。结果表明，在一种设置下由Nexa学习到的响应条件化策略能够在智能体数量、任务或底层智能体发生变化时重用，从而强调了所学通信策略的泛化能力。

## 1 引言

大语言模型（LLM）在推理、编码、规划和对话方面变得越来越强大，但单一模型仍然存在随机失败、脆弱的长时间推理和偶尔的幻觉。多智能体系统旨在通过将问题求解分布在多个智能体之间来解决这些弱点，这些智能体的输出可以相互补充、批评或改进。这类系统的核心问题是如何编排这种协作。

现有的基于LLM的多智能体系统主要分为两类。在并行系统中，智能体独立回答，它们的输出通过多数投票、自一致性或学习的聚合规则进行组合（Wang等，2023（https://arxiv.org/html/2605.15573#bib.bib185）；Jiang等，2023（https://arxiv.org/html/2605.15573#bib.bib159））。在串行系统中，智能体按照通信拓扑（通常是链、树或更一般的图）排列，信息逐步传播（Zhuge等，2024（https://arxiv.org/html/2605.15573#bib.bib2）；Qian等，2025（https://arxiv.org/html/2605.15573#bib.bib11））。并行系统简单易扩展，但计算成本高、消耗token多，且常常冗余，需要多轮并行消息传播，同时无法利用有针对性的通信（当一份草稿可以帮助修复另一份时）。串行系统可以支持错误纠正和信息流动，但需要拓扑结构，因此继承了决定谁应该与谁通信的负担。先前的工作探索了固定拓扑、基于边的策略梯度优化、基于任务或角色的图生成器以及基于评判器的路由，这些都增加了大量的token、计算、优化、协调开销，或者降低了跨设置的迁移性（Qian等，2025（https://arxiv.org/html/2605.15573#bib.bib11）；Zhuge等，2024（https://arxiv.org/html/2605.15573#bib.bib2）；Zhang等，2025b（https://arxiv.org/html/2605.15573#bib.bib4））。

这两种范式通常被视为互斥的设计选择。系统要么被构建为并行集成，要么被构建为基于串行图的协作机制。然而，这种区分过于僵化。在许多现实场景中，正确的方法不是预先承诺单一的范式，而是从并行开始，然后根据智能体的实际输出决定是否需要串行传播。如果初始响应已经具有很强的共识和足够的信息，额外的通信可能是不必要的。如果它们以有意义的方式产生分歧，或者有用的信号分散在各个智能体中，那么结构化的传播可能会有所帮助。这表明真正的问题不是抽象的“并行还是串行”，而是：

给定当前的智能体响应池，系统应该保持并行状态，还是应该实例化一个通信图并执行串行改进？

为了回答这个问题，我们引入了Nexa（源自“nexus”，连接或链接），这是一种用于多智能体LLM系统中通信图预测的可训练策略。Nexa从一个并行草稿阶段开始，所有智能体独立回答。生成的响应池被嵌入到一个共享的语义空间中，产生团队当前响应状态的紧凑表示。然后，一个轻量级基于Transformer的策略预测一个稀疏的有向无环图（DAG）。如果图为空，系统保持并行状态并返回并行聚合结果。如果图非空，系统执行一次串行合并过程，其中选定的智能体使用来自上游节点的信息更新其响应。

这个公式有意将并行和串行执行视为同一个学习策略的两种输出，而不是互斥的系统设计。从这个意义上说，Nexa的核心贡献不仅仅是图预测。它是一种通过使用并行草稿来决定是否需要结构化传播以及如何传播来弥合并行执行与串行执行之间差距的机制。

该方法的第二个原则是简单性。我们并不学习拓扑顺序。相反，我们从智能体的贡献中推导出顺序，保留了响应条件化通信最稳定的组织原则。该策略只学习通信边。我们使用由Transformer上下文化响应表示形成的亲和度矩阵来评分候选通信边。这使得策略轻量级，并使图解码器与骨干网络编码的语义交互紧密耦合。

Nexa还被设计为对表面配置细节不敏感。该策略消耗智能体输出的语义表示，而不是角色标签、智能体身份或模型族指示符。因此，规划器在结构上对哪个智能体被称为“程序员”或“助手”不敏感；重要的是智能体实际说了什么。这本身并不保证在所有任务或骨干网络上都能迁移，我们明确将其作为一个实证问题来处理。但这确实意味着策略类并不内在地绑定到固定的角色清单或单一的团队结构。

本文做出了四项贡献。第一，它形式化了一个混合决策问题，其中学习到的通信图决定了多智能体系统是保持并行还是进入串行传播模式。第二，它提出了一种基于贡献排序、注意力的图策略，只预测通信边，使控制器保持简单且天生无环。第三，它将该方法的关键理论属性直接整合到公式中：DAG有效性、混合包含性以及基于排列的身份不敏感性。第四，它在推理和编程任务上对Nexa进行了实证评估，展示了改进的准确率-成本权衡、稀疏的通信行为以及跨智能体数量、任务、模型规模和代际的迁移能力。

## 2 问题形式化与预备知识

令 \(\mathcal{A} \in \{\mathcal{A}_1, \ldots, \mathcal{A}_N\}\) 为一个包含 \(N\) 个智能体的集合，\(\mathcal{Q}\) 为用户查询。每个智能体可能在提示、角色或骨干模型上有所不同，但本文介绍的通信策略不依赖于这些显式身份。相反，它作用于智能体响应的语义内容。

给定查询，每个智能体独立生成初始响应

\[
\mathcal{R}_n^{(0)} = \mathcal{A}_n(\mathcal{Q}), \qquad n \in \{1, 2, \ldots, N\}. \tag{1}
\]

第一阶段是完全并行的，产生一个草稿响应集 \(\mathcal{R}^{(0)} = \{\mathcal{R}_1^{(0)}, \ldots, \mathcal{R}_N^{(0)}\}\)。

这有两个目的。第一，它提供了对查询的多样候选解决方案。第二，更重要的是对于我们的设置，它暴露了多智能体系统的当前响应状态。由于LLM输出本质上是随机的，这个实现的响应状态对于下游协调来说比静态任务标签或角色描述更具信息量。这种响应条件化的视角是本研究工作的核心，并与SelfOrg (Tastan等, 2026 (https://arxiv.org/html/2605.15573#bib.bib1)) 所依据的基本动机相同。

为了推理智能体输出之间的关系，我们使用一个固定的轻量级编码器 \(f\) (all-MiniLM-L6-v2 (Reimers and Gurevych, 2019 (https://arxiv.org/html/2605.15573#bib.bib20))) 将每个响应映射到共享的语义嵌入空间：\(r_n = f(\mathcal{R}_n^{(0)}) \in \mathbb{R}^d\)。

遵循SelfOrg (Tastan等, 2026 (https://arxiv.org/html/2605.15573#bib.bib1))，我们定义平均响应嵌入 \(r_{\text{avg}} = \frac{1}{N} \sum_{n=1}^N r_n\) 和贡献分数 \(\psi_n = \cos(r_n, r_{\text{avg}})\)。SelfOrg 将 \(\psi_n\) 论证为Shapley式贡献值 (Shapley, 1953 (https://arxiv.org/html/2605.15573#bib.bib24)) 的线性时间近似，并表明在适当的分隔条件下，按 \(\psi_n\) 排序可以保持归一化的Shapley顺序。这正是Nexa为什么使用贡献来定义边的拓扑顺序的原因。

编排问题是预测一个有向通信图 \(\mathcal{G} = (\mathcal{V}, \mathcal{E}, \pi)\)，其中 \(\mathcal{V} = \{1, \ldots, N\}, \mathcal{E} \subseteq V \times V\)，并且 \(\pi\) 是节点上的一个顺序。如果图为空 (\(\mathcal{E} = \varnothing\))，系统保持在并行状态，并输出初始草稿的聚合结果。如果非空 (\(\mathcal{E} \neq \varnothing\))，该图将引发一个串行传播步骤。

对于每个节点 \(n\)，定义其父节点集 \(\operatorname{Pa}(n) = \{m: (m \to n) \in \mathcal{E}\}\)。那么更新后的响应为

\[
\mathcal{R}_n^{(1)} = \begin{cases}
\mathcal{A}_n(\mathcal{Q}, \{\mathcal{R}_m^{(\star)}: m \in \operatorname{Pa}(n)\}), & \operatorname{Pa}(n) \neq \varnothing, \\
\mathcal{R}_n^{(0)}, & \operatorname{Pa}(n) = \varnothing,
\end{cases} \tag{2}
\]

其中 \(\mathcal{R}_m^{(\star)}\) 表示在拓扑执行顺序下最新的可用父节点响应。

最终答案通过无评判器的聚合规则从响应池中选择。令 \(\{\boldsymbol{z}_n\}\) 为最终响应嵌入，\(\{w_n\}\) 为其贡献权重。我们计算

\[
z_{\text{centroid}} = \frac{\sum_{n=1}^N w_n \boldsymbol{z}_n}{\sum_{n=1}^N w_n}, \qquad n^{\star} = \arg\max_n \cos(\boldsymbol{z}_n, \boldsymbol{z}_{\text{centroid}}). \tag{3}
\]

并返回对应的响应。

学习目标是最大化最终任务的正确性。给定真实标签 \(y\) 和图 \(\mathcal{G}\) 下的最终预测 \(\hat{y}_{\mathcal{G}}\)，奖励为

\[
R(\mathcal{G}) = \mathds{1}\left[\operatorname{Eval}(\hat{y}_{\mathcal{G}}, y) = 1\right]. \tag{4}
\]

因此，策略学习预测一个通信图，该图决定初始并行响应是保持原样，还是通过结构化传播进一步改进。

## 3 方法

### 3.1 系统概述

Nexa由五个阶段组成。首先，所有智能体并行生成草稿响应。其次，这些响应被嵌入到共享语义空间中。第三，一个响应条件化的Transformer策略预测一个稀疏的通信图。第四，如果图非空，相应的目标节点按顺序更新。第五，通过加权质心聚合从结果响应池中选择最终答案。

这种设计有一个核心概念上的后果：当引入串行通信时，并行执行并没有被丢弃。相反，并行草稿阶段成为了决定系统应该保持并行状态还是转换到串行传播状态的证据来源。

### 3.2 贡献定义的顺序与DAG有效性

我们将拓扑顺序设为

\[
\pi = \operatorname{argsort}(\psi_1, \dots, \psi_N; \psi_k \geq \psi_{k+1}, \forall k \in [N]).
\]

换句话说，更高贡献的智能体总是放在通信顺序的更前面。因此，可行的边集被限制为

\[
\mathcal{E}_{\pi} = \{(m, n): \pi^{-1}(m) < \pi^{-1}(n)\}, \tag{5}
\]

这样只允许在贡献顺序下向前进行通信。

###### 命题1（结构上的无环性）。

对于任意边集 \(\mathcal{E} \subseteq \mathcal{E}_{\pi}\)，图 \(\mathcal{G} = (\mathcal{V}, \mathcal{E}, \pi)\) 是一个有向无环图。

###### 证明。

假设为矛盾，\(\mathcal{G}\) 包含一个有向环

\[
v_1 \to v_2 \to \cdots \to v_K \to v_1. \tag{6}
\]

由于每条边必须在 \(\pi\) 下向前，我们必须同时有

\[
\pi^{-1}(v_1) < \pi^{-1}(v_2) < \cdots < \pi^{-1}(v_K) < \pi^{-1}(v_1),
\]

这是不可能的。因此，不存在有向环。∎

这种参数化比在预测图之后检测和修复环更简单，因为DAG有效性直接构建在策略的动作空间中。

### 3.3 响应条件化图策略

图策略只消耗当前响应集，不包含智能体身份、角色标签或模型族指示符。令

\[
\mathcal{X} = [r_1, \dots, r_N]^{\top} \in \mathbb{R}^{N \times d}.
\]

一个Transformer编码器 (Vaswani等, 2017 (https://arxiv.org/html/2605.15573#bib.bib188)) \(\operatorname{Enc}_{\theta}\) 将响应集映射为上下文化的节点状态

\[
\mathcal{H} = \operatorname{Enc}_{\theta}(\mathcal{X}) = [h_1, \dots, h_N]^{\top}, \quad h_n \in \mathbb{R}^{d_h}.
\]

响应条件化的并行到序列编排用于多智能体系统

相似文章

Nexa os bu infinixa

可扩展的约束多智能体强化学习：通过状态增强与一致性实现可分离动力学

NeuroMAS：将多智能体系统视为具有联合强化学习的神经网络

MetaAgent-X：通过端到端强化学习突破自动多智能体系统的天花板

Nexus：面向时间序列预测的智能体框架

提交意见反馈