EvoMAS:学习多智能体系统的执行时工作流
摘要
EvoMAS 是一个框架,通过将工作流构建形式化为顺序决策问题,来学习多智能体系统中的执行时工作流。它通过根据不断变化的任务状态动态调整智能体协作,在复杂任务上优于静态多智能体设计方法。
查看缓存全文
缓存时间: 2026/05/12 07:24
# EvoMAS:为多智能体系统学习执行时工作流
来源:https://arxiv.org/html/2605.08769
徐诚东★ 柯凯强★ 刘子恒♢ 魏佳琪♠ 邵子博♡ 郭伟乐★ 余超★✉ ★中山大学 ♠浙江大学 ♢上海科技大学 ♡中国科学院自动化研究所 xuchd6@mail2\.sysu\.edu\.cn
###### 摘要
基于大型语言模型(LLM)的多智能体系统通过智能体专业化、工具使用和协同推理,在复杂任务上展现了巨大潜力。然而,大多数自动化的多智能体系统设计方法仍遵循“一次性”范式:工作流在执行前被优化或选择,然后在整个任务过程中不变地被重复使用。这种静态协调策略不适合那些子目标、中间证据和信息需求在多个执行阶段不断演变的长视界任务。我们提出了 **EvoMAS**,一个用于*执行时多智能体工作流构建*的框架。EvoMAS 将工作流构建沿单一任务轨迹建模为元级别的序列决策问题。在每个阶段,它通过规划者-评估者-更新者(Planner–Evaluator–Updater)管道构建显式的任务状态,并利用学习得到的工作流适配器(Workflow Adapter)从固定的候选智能体池中实例化特定阶段的分层工作流。该适配器使用策略梯度进行训练,以稀疏且可验证的最终任务成功作为主要监督信号,同时在极难稀疏奖励设置下单独分析基于评估者的过程奖励。在 GAIA、HLE 和 DeepResearcher 上的实验表明,EvoMAS 优于单智能体基线以及近期的自动化多智能体工作流设计方法。我们的进一步分析显示,显式的任务状态构建和习得的工作流适应提供了互补的收益。额外结果表明,当最终成功极其稀疏时,过程奖励最有用,而定性案例研究说明 EvoMAS 能够随着任务状态的演变而适应智能体协调方式。
††脚注文本:✉通讯作者。## 1 引言
基于大型语言模型(LLM)的智能体\[23 (https://arxiv.org/html/2605.08769#bib.bib23),16 (https://arxiv.org/html/2605.08769#bib.bib16),9 (https://arxiv.org/html/2605.08769#bib.bib9)\]通过工具使用\[34 (https://arxiv.org/html/2605.08769#bib.bib34),24 (https://arxiv.org/html/2605.08769#bib.bib24),25 (https://arxiv.org/html/2605.08769#bib.bib25),20 (https://arxiv.org/html/2605.08769#bib.bib20),22 (https://arxiv.org/html/2605.08769#bib.bib22),14 (https://arxiv.org/html/2605.08769#bib.bib14),27 (https://arxiv.org/html/2605.08769#bib.bib27)\]、规划\[30 (https://arxiv.org/html/2605.08769#bib.bib30),33 (https://arxiv.org/html/2605.08769#bib.bib33)\]和情境推理\[12 (https://arxiv.org/html/2605.08769#bib.bib12)\]扩展了纯语言生成的能力,在问答、数据分析、代码生成和网络交互等任务中取得了强大的实证性能\[17 (https://arxiv.org/html/2605.08769#bib.bib17),18 (https://arxiv.org/html/2605.08769#bib.bib18),2 (https://arxiv.org/html/2605.08769#bib.bib2),43 (https://arxiv.org/html/2605.08769#bib.bib43),5 (https://arxiv.org/html/2605.08769#bib.bib5)\]。在单智能体系统的基础上,多智能体框架通过智能体之间的专业化、并行推理和相互验证进一步提高了性能\[32 (https://arxiv.org/html/2605.08769#bib.bib32),9 (https://arxiv.org/html/2605.08769#bib.bib9),13 (https://arxiv.org/html/2605.08769#bib.bib13),6 (https://arxiv.org/html/2605.08769#bib.bib6),3 (https://arxiv.org/html/2605.08769#bib.bib3)\],为了解决超出单一提示或单次推理能力的复杂任务提供了一种有前景的方法。
早期的基于 LLM 的多智能体系统,如 AutoGen\[32 (https://arxiv.org/html/2605.08769#bib.bib32)\]、MetaGPT\[9 (https://arxiv.org/html/2605.08769#bib.bib9)\]和 CAMEL\[13 (https://arxiv.org/html/2605.08769#bib.bib13)\],展示了智能体协作的优势,但依赖于手动指定的提示、角色和通信管道\[29 (https://arxiv.org/html/2605.08769#bib.bib29)\]。后续工作试图自动化这些设计选择,包括优化提示、智能体配置文件、协调结构和执行工作流\[44 (https://arxiv.org/html/2605.08769#bib.bib44),39 (https://arxiv.org/html/2605.08769#bib.bib39),38 (https://arxiv.org/html/2605.08769#bib.bib38),10 (https://arxiv.org/html/2605.08769#bib.bib10),35 (https://arxiv.org/html/2605.08769#bib.bib35),36 (https://arxiv.org/html/2605.08769#bib.bib36),37 (https://arxiv.org/html/2605.08769#bib.bib37),4 (https://arxiv.org/html/2605.08769#bib.bib4),1 (https://arxiv.org/html/2605.08769#bib.bib1)\]。尽管取得了这些进展,大多数现有方法采用*一次性初始化*范式:多智能体工作流在执行前设计,然后在整个任务过程中未经修改地重复使用\[44 (https://arxiv.org/html/2605.08769#bib.bib44),39 (https://arxiv.org/html/2605.08769#bib.bib39),38 (https://arxiv.org/html/2605.08769#bib.bib38),36 (https://arxiv.org/html/2605.08769#bib.bib36),37 (https://arxiv.org/html/2605.08769#bib.bib37)\]。
对于*复杂、多步骤和长视界任务*,这种范式越来越显得不足,这类任务通常需要多个执行阶段,且子目标、中间工件和信息需求不断变化\[15 (https://arxiv.org/html/2605.08769#bib.bib15),43 (https://arxiv.org/html/2605.08769#bib.bib43),21 (https://arxiv.org/html/2605.08769#bib.bib21),42 (https://arxiv.org/html/2605.08769#bib.bib42),31 (https://arxiv.org/html/2605.08769#bib.bib31)\]。在这种设置下,依赖具有固定协调策略的单一工作流本质上是最优性不足的\[15 (https://arxiv.org/html/2605.08769#bib.bib15),29 (https://arxiv.org/html/2605.08769#bib.bib29)\]。为了支持此类复杂任务的执行,多智能体系统必须在执行过程中做出*阶段性*的协调决策,而不是预先承诺单一工作流。实现这一范式需要解决两个根本性挑战。
**挑战 1(构建显式的执行时任务状态)**。长视界任务在多个执行阶段中演变,涉及变化的子目标、累积的中间结果以及可能需要修改或细化的潜在失败\[15 (https://arxiv.org/html/2605.08769#bib.bib15),43 (https://arxiv.org/html/2605.08769#bib.bib43),5 (https://arxiv.org/html/2605.08769#bib.bib5)\]。为了在执行时做出合理的协调决策,系统必须维护一个显式的任务状态,以总结执行进度和解决方案质量\[29 (https://arxiv.org/html/2605.08769#bib.bib29)\]。如果没有这样的状态表示,工作流决策就缺乏适应当前执行上下文的具体依据。
> 引用说明 图 1:执行时多智能体工作流构建的元级别 MDP 公式化。工作流 $\mathcal{G}_t$ 基于元状态 $s_t^m$ 进行选择,引发基级别的多智能体执行和聚合结果 $\xi_t$。橙色箭头表示元级别转换,蓝色箭头表示基级别智能体执行。
**挑战 2(适应不断演变的工作流以匹配任务状态)**。即使有了显式的任务状态,有效的协调也需要能够随着执行的推进来适应多智能体工作流。不同的执行阶段施加异构的协调需求:适合早期探索的工作流在细化和验证期间可能效率低下或适得其反\[15 (https://arxiv.org/html/2605.08769#bib.bib15),43 (https://arxiv.org/html/2605.08769#bib.bib43)\]。因此,系统必须根据当前任务状态动态构建特定阶段的工作流,而不是依赖单一的静态设计\[44 (https://arxiv.org/html/2605.08769#bib.bib44),39 (https://arxiv.org/html/2605.08769#bib.bib39),38 (https://arxiv.org/html/2605.08769#bib.bib38),36 (https://arxiv.org/html/2605.08769#bib.bib36),37 (https://arxiv.org/html/2605.08769#bib.bib37)\]。
为了解决这些挑战,我们提出了 **EvoMAS**,一个用于*执行时多智能体工作流构建*的框架,它将工作流选择视为沿单一任务轨迹的序列决策问题。与在执行前优化或实例化单一工作流的方法不同,EvoMAS 在执行过程中做出工作流决策,并以不断演变的任务状态为条件。在每个执行阶段,EvoMAS 构建一个总结执行进度和质量 的显式任务状态,并根据该状态动态选择特定阶段的多智能体工作流。工作流构建策略通过强化学习进行学习,从而实现对智能体协调结构的执行感知适应,而非静态的初始化时设计。
我们的贡献总结如下:
- ❶ **范式重构**:我们将自动化多智能体工作流重构为任务执行期间的序列决策问题,超越了一次性、初始化时的设计。
- ❷ **执行时框架**:我们提出了 EvoMAS,它将显式任务状态构建与学习的、以状态为条件的工作流适配器相结合,在执行期间动态重组多智能体工作流。
- ❸ **实证验证**:通过在复杂、多步骤和长视界任务上的实验,我们将 EvoMAS 与单智能体基线以及近期的自动化多智能体工作流设计方法进行了比较,并对任务状态、工作流学习、奖励信号和骨干能力进行了消融研究。
## 2 形式化
我们将执行时工作流构建公式化为一个元级别的马尔可夫决策过程,如图 1 (https://arxiv.org/html/2605.08769#S1.F1) 所示。令 $\tau$ 表示一个任务实例,$\mathcal{P}=\{a_1,...,a_N\}$ 表示一个固定的候选智能体池。在每个元步骤 $t$,系统维护一个元状态 $s_t^m$,该状态总结了当前的任务进度、中间工件和执行反馈。然后系统选择一个元动作 $a_t^m$,其对应于具体的多智能体工作流
$$a_t^m \equiv \mathcal{G}_t=(\mathcal{V}_t,\mathcal{E}_t) \in \mathcal{W}, \quad \mathcal{V}_t \subseteq \mathcal{P}, \quad (1)$$
其中 $\mathcal{V}_t$ 是选定的智能体集合,$\mathcal{E}_t$ 指定信息流,$\mathcal{W}$ 表示智能体池上层级有向无环图(DAG)工作流的可行空间。在我们的实现中,$\mathcal{V}_t$ 被组织成 $L_t$ 个工作流层(对于固定最大深度,有 $L_t \leq L$),$\mathcal{V}_t = \bigcup_{\ell=1}^{L_t}\mathcal{V}_t^{(\ell)}$,且 $\mathcal{E}_t$ 连接连续层之间的智能体。
形式上,元级别过程定义为
$$\mathcal{M}=(\mathcal{S}^m,\mathcal{A}^m,\mathcal{T}^m,\mathcal{R}^m), \quad (2)$$
其中 $\mathcal{S}^m$ 是元状态空间,元动作空间即工作流空间,即 $\mathcal{A}^m \equiv \mathcal{W}$。工作流策略选择
$$a_t^m \sim \pi_{\text{wf}}(\cdot \mid \tau, s_t^m). \quad (3)$$
执行选定的工作流 $\mathcal{G}_t$ 会引发基级别的多智能体动态并产生聚合结果 $\xi_t$,包括智能体消息、工具观测值和评估者反馈。然后元状态转换
$$s_{t+1}^m \sim \mathcal{T}^m(\cdot \mid \tau, s_t^m, a_t^m, \xi_t), \quad (4)$$
相应的元级别奖励为
$$r_t^m = \mathcal{R}^m(\tau, s_t^m, a_t^m, \xi_t). \quad (5)$$
在主要实验中,我们使用稀疏的最终任务成功作为轨迹效用;基于评估者的过程奖励在 4.4 节 (https://arxiv.org/html/2605.08769#S4.SS4) 中单独分析。
目标是学习一个以状态为条件的工作流策略,以最大化预期的累积元级别奖励:
$$\max_\theta \mathbb{E}_{\pi_{\text{wf},\theta}}\left[\sum_{t=1}^T r_t^m\right]. \quad (6)$$
> 引用说明 图 2:EvoMAS 概览。系统在“执行时任务状态构建”和“以状态为条件的工作流适应”之间交替,使多智能体协调能够沿单一任务轨迹演变。
## 3 EvoMAS
EvoMAS 利用三个组件实例化了 2 节 (https://arxiv.org/html/2605.08769#S2) 中的元 MDP:任务状态构建、以状态为条件的工作流构建以及工作流策略优化。给定任务 $\tau$,EvoMAS 在元步骤中推进:它构建结构化的任务状态 $\tilde{s}_t$,然后从固定的候选智能体池中选择一个特定阶段的工作流 $\mathcal{G}_t$。工作流策略通过强化学习进行学习,以便随着任务状态的演变而适应协调(见图 2 (https://arxiv.org/html/2605.08769#S2.F2))。
### 3.1 任务状态构建
EvoMAS 将元状态 $s_t^m$ 表示为结构化的文本任务状态 $\tilde{s}_t$。该状态总结了当前的执行进度,并服务于两个目的:它为工作流选择提供条件,并提供执行时的工作上下文。在每个阶段,$\tilde{s}_t$ 由规划者-评估者-更新者(Planner–Evaluator–Updater)管道构建。
**规划者**维护当前的子任务计划并识别活跃的子任务。如果之前的执行成功,规划者推进到下一个待处理的子任务;如果证据缺失或执行失败,它可能保留当前子任务并附加失败上下文以进行细化。这既支持任务分解,也支持迭代修正。
**评估者**根据活跃子任务评估之前的执行结果 $\xi_{t-1}$。它产生阶段级别的评估信号,如成功/细化裁决、置信度和自然语言反馈,这些是聚合执行记录 $\xi_{t-1}$ 的一部分。在主要训练设置中,这些信号用于状态构建,而不是作为直接优化目标;基于评估者的过程奖励在 4.4 节 (https://arxiv.org/html/2605.08769#S4.SS4) 中单独研究。
**更新者**通过整合之前的任务状态、执行的工作流和聚合的执行记录来实现元状态转换:
$$\tilde{s}_t = \mu(\tau, \tilde{s}_{t-1}, \mathcal{G}_{t-1}, \xi_{t-1}). \quad (7)$$
生成的状态包含总体任务目标、活跃子任务、带有显著中间工件的已完成子任务,以及对后续决策有用的反馈。EvoMAS 使用 $\tilde{s}_t$ 的紧凑序列化来为工作流适配器提供条件,而完整的结构化状态则作为执行时上下文提供给智能体。因此,$\mu$ 实现了 2 节 (https://arxiv.org/html/2605.08769#S2) 中的元级别转换 $\mathcal{T}^m$。
### 3.2 执行时工作流构建
给定任务状态 $\tilde{s}_t$,EvoMAS 构建特定阶段的多智能体工作流,而不是在整个任务中重复使用固定工作流。工作流适配器在固定的候选智能体池 $\mathcal{P}=\{a_1,...,a_N\}$ 上操作,并实例化一个分层工作流
$$\mathcal{G}_t = (\mathcal{V}_t, \mathcal{E}_t), \quad \mathcal{V}_t = \bigcup_{\ell=1}^{L_t}\mathcal{V}_t^{(\ell)},$$相似文章
EvoMaster:构建可进化大规模自主科学智能体的基础框架
# 论文页面 - EvoMaster:构建可进化大规模自主科学智能体的基础框架 来源:[https://huggingface.co/papers/2604.17406](https://huggingface.co/papers/2604.17406) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 EvoMaster 是一个可扩展、自我进化的智能体框架,专为大规模科学发现设计,支持在实验周期中迭代优化假设并持续积累知识。大语言模型与智能体的融合正在催生“智能体科学”新时代。
递归多智能体系统
本文提出RecursiveMAS,一种将递归扩展原则应用于多智能体系统的框架,以提升协作推理的效率和准确性。与标准基线相比,该框架在多个基准测试中实现了显著的加速和token缩减。
@tom_doerr:通过持久化多智能体记忆自动化研究工作流程 https://github.com/EvoScientist/EvoScientist…
EvoScientist 是一个开源框架,利用具备持久化多智能体记忆的自进化 AI 科学家来自动化研究工作流程,采用"人在回路外"范式,实现自主研究探索与洞察生成。
EvoScientist:面向端到端科学发现的多智能体进化AI科学家
EvoScientist 是一个用于端到端科学发现的自适应多智能体框架,通过持久化记忆模块持续改进,由三个专业智能体组成,分别负责创意生成、实验执行和知识提炼。它在科学创意生成方面超越了7个当前最先进的系统,并通过多智能体进化提升了代码执行成功率。
TMAS:通过多智能体协同扩展测试时计算
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。