MetaAgent-X:通过端到端强化学习突破自动多智能体系统的天花板
摘要
MetaAgent-X引入了一个端到端的强化学习框架,联合优化自动多智能体系统的设计与执行,克服了冻结执行器的天花板,并在现有基线基础上实现了高达21.7%的性能提升。
查看缓存全文
缓存时间: 2026/05/15 06:22
# 打破自动多智能体系统天花板:端到端强化学习方法
来源:https://arxiv.org/html/2605.14212
Yaolun Zhang¹,⁵,∗, Yujie Zhao²,∗ Nan Wang³,†, Yiran Wu⁴,⁵, Jiayu Chang², Yizhao Chen² Qingyun Wu⁴,⁵, Jishen Zhao², Huazheng Wang¹,⁵
¹俄勒冈州立大学
²加州大学圣地亚哥分校
³Amazon AGI
⁴宾夕法尼亚州立大学
⁵AG2AI, Inc.
{zhanyaol, huazheng.wang}@oregonstate.edu
{yuz285,yic138,jzhao}@ucsd.edu
[email protected]
{yiran.wu, qingyun.wu}@psu.edu
###### 摘要
自动多智能体系统旨在无需依赖手动设计或固定编排即可实例化智能体工作流。然而,现有的自动MAS方法仅实现部分自适应:它们要么在测试时进行无需训练的搜索,要么优化元级设计器,同时冻结下游执行智能体。这造成了"冻结执行器天花板",并使得自我设计和自我执行的智能体模型的端到端训练问题尚未被探索。为了解决这一问题,我们提出MetaAgent-X,一个端到端强化学习框架,联合优化自动MAS的设计与执行。MetaAgent-X支持基于脚本的MAS生成、执行轨迹收集,以及设计器和执行器轨迹的信用分配。为了支持稳定且可扩展的优化,我们提出执行器-设计器分层回滚和分阶段协同进化,以提高训练稳定性并揭示设计器-执行器协同进化的动态过程。MetaAgent-X在多个基准上持续优于现有自动MAS基线,最高提升达21.7%。全面的消融实验表明,设计器和执行器在训练过程中均得到改进,且有效的自动MAS学习遵循分阶段协同进化过程。这些结果确立了端到端可训练的自动MAS作为构建自我设计和自我执行智能体模型的实用范式。
00footnotetext:∗同等贡献。00footnotetext:†本工作与作者在Amazon的职位无关。
## 1 引言
多智能体系统(MAS)在多个领域显示出优于单智能体方法的明显优势,包括医疗决策(Kim et al., 2024 (https://arxiv.org/html/2605.14212#bib.bib132); Zhou et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib137))、科学发现(Su et al., 2024 (https://arxiv.org/html/2605.14212#bib.bib133); Ghafarollahi and Buehler, 2024 (https://arxiv.org/html/2605.14212#bib.bib74))、金融交易(Xiao et al., 2024 (https://arxiv.org/html/2605.14212#bib.bib138))、软件工程(Yu et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib15); Hong et al., 2023 (https://arxiv.org/html/2605.14212#bib.bib114); Chen et al., 2024 (https://arxiv.org/html/2605.14212#bib.bib139))和硬件设计(Zhao et al., 2024 (https://arxiv.org/html/2605.14212#bib.bib131); Ho et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib140))。近期工作越来越多地转向元智能体作为自动设计和实例化最适合每个任务的多智能体系统流的范式,而不是依赖手动指定或固定的工作流,从而实现更自适应的MAS编排和执行(Gao et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib1); Ye et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib5); Dang et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib4); Nielsen et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib3); Zhang et al., 2025b (https://arxiv.org/html/2605.14212#bib.bib141))。同时,随着智能体强化学习和自我进化范式成为将大语言模型转化为交互式、持续改进决策者的有前途途径(Wang et al., 2025c (https://arxiv.org/html/2605.14212#bib.bib22); Cheng et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib145); Li et al., 2025b (https://arxiv.org/html/2605.14212#bib.bib142); Zhao et al., 2026 (https://arxiv.org/html/2605.14212#bib.bib2); Zhang et al., 2026 (https://arxiv.org/html/2605.14212#bib.bib152); Xia et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib147); Chen et al., 2025b (https://arxiv.org/html/2605.14212#bib.bib146); Fu et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib148)),近期的自动MAS开始采纳这些范式,但其过渡仍不完整。当前方法通常将适应性限制在无需训练的测试时搜索,或仅优化MAS设计器,同时冻结下游执行智能体(Ye et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib5); Gao et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib1); Dang et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib4); Nielsen et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib3); Wang et al., 2025a (https://arxiv.org/html/2605.14212#bib.bib143))。然而,自我设计和自我执行的自动MAS的端到端训练仍未被探索,导致两个基本限制:
1. **参数级脱节**。现有方法仅在推理时通过提示级交互耦合设计器和执行器,没有基于下游执行结果更新底层策略的优化信号。因此,冻结的执行器对元设计器施加了硬上限,而设计器也无法从其对应方诱导出专门化的执行行为。
2. **模糊的协同进化动态**。在联合训练下设计器和执行器如何协同进化的动态,以及每个角色的改进在实际中和理解机制上仍不明确。
如图1(A)所示,现有的自动MAS方法仅部分自适应:它们要么在测试时搜索MAS结构,要么仅优化设计器同时冻结执行系统。为克服这些限制,我们引入MetaAgent-X,一个用于训练能够自我设计和自我执行MAS的智能体模型的端到端框架。图1(B)给出了MetaAgent-X的概览,其中任务条件的自动MAS设计被实例化、执行、分组和收集,用于角色感知的策略更新。为解决第一个限制,MetaAgent-X支持基于脚本的MAS生成、回滚收集以及设计器和执行器的精确信用分配。为解决第二个限制,该框架包含多样化的进化机制,如分层回滚和分阶段优化,使我们能够隔离驱动自动MAS协同进化的关键决策因素。
参见标题说明
**图1:从部分自适应到端到端可训练的自动MAS。**
A. 三种自动MAS范式的比较。
B. 我们训练框架的概述。
我们的框架包含三个新颖的设计原则。首先,MetaAgent-X支持跨任务和领域的灵活设计器-执行器优化,两个组件可以通过多样化的进化机制进行训练。这种灵活性使得能够系统分析设计器-执行器协同进化如何出现,以及每个组件如何贡献于最终的自动MAS能力。其次,我们提出**执行器-设计器分层回滚**,将交互过程组织为两层树结构,以支持高效的回滚生成和准确的信用分配。第三,我们提出**分阶段协同进化**,将设计器和执行器的学习阶段解耦,以提高训练稳定性和可扩展性。基于这些机制,我们进行全面的实验和消融研究,以评估MetaAgent-X的有效性并分析设计器-执行器协同进化的内部动态。在六个数学和代码基准以及两个不同基础模型上,MetaAgent-X比基线最高提升21.7%。
本文做出以下贡献:
1. 我们提出**MetaAgent-X**,一个用于自动MAS的端到端训练框架,显式地将设计器和执行器智能体联合优化。
2. 我们引入两种用于稳定且可扩展的元智能体优化机制:(i) **执行器-设计器分层回滚**,实现结构化的回滚生成和准确的信用分配;(ii) **分阶段协同进化**,支持解耦且可扩展的设计器-执行器学习。
3. 我们证明**MetaAgent-X**在多种数学和代码基准上实现一致的提升,比单智能体和自动MAS基线最高提升21.7%。
4. 我们进行全面的消融研究,以考察元智能体协同进化的内部机制。我们的分析表明:(1) 设计器和执行器在跨任务和领域的训练过程中均得到优化;(2) 这种有效的协同进化遵循一个分阶段过程,其中两个组件受益于解耦优化。
## 2 相关工作
### 2.1 用于自动多智能体系统的元智能体
基于LLM的MAS通过将任务分解为专门化的角色、结构化交互和协调协议来改进复杂问题求解(Qian et al., 2024 (https://arxiv.org/html/2605.14212#bib.bib70); Hong et al., 2024 (https://arxiv.org/html/2605.14212#bib.bib115); Wu et al., 2023 (https://arxiv.org/html/2605.14212#bib.bib76))。超出手动设计的工作流,近期工作引入元智能体,为每个输入任务自动构建或调整可执行的MAS(Ye et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib5); Gao et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib1); Dang et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib4); Nielsen et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib3); Zhang et al., 2025b (https://arxiv.org/html/2605.14212#bib.bib141))。元智能体将查询映射为角色、提示、通信模式或执行流程,然后实例化的系统与环境交互以产生最终结果。如图1所示,现有的自动MAS方法主要属于两种部分自适应机制:**无需训练的自适应**在测试时搜索提示、角色、工作流或智能体组织,而不更新模型参数(Zhang et al., 2025b (https://arxiv.org/html/2605.14212#bib.bib141); Dang et al., 2024 (https://arxiv.org/html/2605.14212#bib.bib4))。**半可训练的自适应**优化元级设计器或控制器,同时保持下游执行器固定。例子包括MAS-GPT(Ye et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib5)),它生成查询自适应的MAS设计;FlowReasoner(Gao et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib1)),它学习查询级的多智能体推理流;以及用于动态协调的基于编排的控制器(Nielsen et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib3))。此外,MAS2(Wang et al., 2025a (https://arxiv.org/html/2605.14212#bib.bib143))通过强化学习训练设计器,同时继续使用基于API的模型作为执行器。这些方法改进了系统设计或编排,但未联合优化执行器策略。这种部分自适应限制了自动MAS,因为冻结的执行器对最终性能施加了上限,并阻止了设计器-执行器的协同适应。Chain-of-Agents采取了一个相关的端到端方向,通过多智能体蒸馏和智能体强化学习训练智能体基础模型(Li et al., 2025a (https://arxiv.org/html/2605.14212#bib.bib153)),但主要将智能体系统作为统一行为优化,并将MAS视为无上下文管理的简单思维链。相比之下,我们的工作研究了端到端可训练机制,其中自动MAS既进化了智能体系统的设计方式,也进化了实例化智能体执行它们的方式,使设计器-执行器协同进化变得明确且可分析。
### 2.2 智能体系统自我进化与多智能体训练
与基于元智能体的自动MAS并行,智能体强化学习和自我进化已成为通过交互、环境反馈和迭代经验收集改进LLM智能体的有前途范式(Wang et al., 2025c (https://arxiv.org/html/2605.14212#bib.bib22); Cheng et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib145); Li et al., 2025b (https://arxiv.org/html/2605.14212#bib.bib142); Zhao et al., 2026 (https://arxiv.org/html/2605.14212#bib.bib2); Zhang et al., 2026 (https://arxiv.org/html/2605.14212#bib.bib152); Xia et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib147); Chen et al., 2025b (https://arxiv.org/html/2605.14212#bib.bib146); Fu et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib148))。在多智能体设置中,近期方法如MAPoRL(Park et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib7))、AT-GRPO(Zhao et al., 2026 (https://arxiv.org/html/2605.14212#bib.bib2))、Dr. MAS(Feng et al., 2026 (https://arxiv.org/html/2605.14212#bib.bib9))、MAE(Chen et al., 2025a (https://arxiv.org/html/2605.14212#bib.bib12))和MARFT(Liao et al., 2025 (https://arxiv.org/html/2605.14212#bib.bib11))主要关注在固定或预定义的多智能体结构下改进协作。这些方法研究了重要问题,如多智能体信用分配、协调、通信和训练稳定性。然而,智能体组织本身通常被视为给定的,而不是应该与执行行为一起生成、评估和改进的学习对象。我们的工作在目标和分析上都不同于这些自我进化和智能体基础模型方法。我们不是假设固定的MAS结构或将智能体系统作为无差别的整体进行优化,而是明确地将自动MAS学习表述为一个设计器-执行器协同进化问题。这使我们能够打破冻结执行器的性能天花板,同时研究自动MAS协同进化的内部机制。
## 3 方法
### 3.1 端到端在线元智能体RL流水线
参见标题说明
**图2:端到端在线MetaAgent-X流水线概览。设计器首先生成一个任务特定的多智能体系统,然后执行器在环境中运行实例化的MAS。收集到的轨迹和奖励按角色标记,并使用GRPO进行优化。**
图2展示了我们的强化学习流水线。给定一个任务查询\(q\),元智能体首先使用设计器策略\(\pi_{\vartheta_{\mathcal{D}}}^{\mathcal{D}}\)生成一个任务特定的多智能体系统,然后使用执行器策略\(\pi_{\vartheta_{\mathcal{E}}}^{\mathcal{E}}\)在外部环境中运行实例化的系统。我们将完整的可训练参数集记为\(\vartheta=\{\vartheta_{\mathcal{D}},\vartheta_{\mathcal{E}}\}\)。该表示涵盖了策略共享和策略分裂两种情况。在共享策略设置中,\(\vartheta_{\mathcal{D}}=\vartheta_{\mathcal{E}}=\theta\);在分裂策略设置中,\(\vartheta_{\mathcal{D}}\)和\(\vartheta_{\mathcal{E}}\)作为独立的参数集进行优化。因此,学习问题是一个耦合的在线强化学习问题:
\[
d \sim \pi_{\vartheta_{\mathcal{D}}}^{\mathcal{D}}(\cdot \mid q), \qquad e \sim \pi_{\vartheta_{\mathcal{E}}}^{\mathcal{E}}(\cdot \mid q, d), \qquad R = R(q, d, e), \tag{1}
\]
其中\(d\)表示生成的系统设计,\(e\)表示执行轨迹,\(R\)是执行后返回的环境反馈。核心挑战在于设计和执行是相互依赖的;它们的性能是耦合的。因此,训练流水线必须支持在线系相似文章
EvoMaster:构建可进化大规模自主科学智能体的基础框架
# 论文页面 - EvoMaster:构建可进化大规模自主科学智能体的基础框架 来源:[https://huggingface.co/papers/2604.17406](https://huggingface.co/papers/2604.17406) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 EvoMaster 是一个可扩展、自我进化的智能体框架,专为大规模科学发现设计,支持在实验周期中迭代优化假设并持续积累知识。大语言模型与智能体的融合正在催生“智能体科学”新时代。
递归多智能体系统
本文提出RecursiveMAS,一种将递归扩展原则应用于多智能体系统的框架,以提升协作推理的效率和准确性。与标准基线相比,该框架在多个基准测试中实现了显著的加速和token缩减。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766
文章探讨了 Sakana AI 和 Meta 关于自我改进型 AI 智能体的最新研究,具体涉及达尔文-哥德尔机器(Darwin-Gödel Machine)和超智能体(Hyperagents),它们能够自主重写自身代码和基础设施以提升性能,且无需人工干预。
利用专家代理进行自动研究:开发高效且非平凡的训练配方
本文介绍了一种自动研究框架,利用专家代理通过代码执行与反馈的经验闭环,迭代优化训练配方。该系统借助谱系反馈(lineage feedback),无需人工干预,即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua