AgentCo-op: 基于检索的可互操作多智能体工作流合成框架
摘要
AgentCo-op 是一个基于检索的合成框架,用于从可复用的技能、工具和外部智能体组合可互操作的多智能体工作流。它使用类型化工件传递和有界自引导局部修复,在多个基准测试上取得了优异结果,并能在开放世界的基因组学任务中实现协作发现。
arXiv:2605.20425v1 公告类型: 新
摘要: 在开放式科学场景中设计多智能体工作流尤其困难,因为任务缺乏精心整理的训练集、可靠的标量评估指标以及现有工具与智能体之间的标准化接口。我们提出 AgentCo-op,一个基于检索的合成框架,该框架通过类型化工件传递将可复用的技能、工具和外部智能体组合成可执行的工作流,然后在执行证据表明失败时,对有问题的组件应用有界自引导局部修复。在两个开放世界基因组学案例研究中,AgentCo-op 将独立开发的科学智能体和外部工具仓库组合成可审计的工作流,而无需重新设计它们或进行全局拓扑搜索。它协调空间转录组学和基因集解释领域的专用智能体,实现从空间转录组学数据的协作发现,并为单细胞多组学数据构建跨模态标志物分析的并行工作流。AgentCo-op 还可以将搜索到的工作流作为结构先验导入,并通过用检索到的组件对节点进行接地和应用局部修复来改进它,表明合成和搜索是互补的。在六个编程、数学和问答基准测试中,AgentCo-op 在统一骨干设置下,在四个基准测试上取得了最佳结果和最佳平均分数,同时相对于多智能体基线持续降低了每个任务的成本。这些结果表明,基于检索的合成可以将自动化智能体工作流设计从基准优化的智能体图扩展到由现有智能体、工具和类型化工件构建的开放世界工作流。
查看缓存全文
缓存时间: 2026/05/22 08:46
# \methodname:基于检索的多智能体工作流互操作合成 来源:https://arxiv.org/html/2605.20425 Shuaike Shen¹,∗, Wenduo Cheng¹,∗, Shike Wang¹, Mingqian Ma², Jian Ma¹† ¹卡内基梅隆大学计算机科学学院Ray and Stephanie Lane计算生物学系 ²卡内基梅隆大学计算机科学学院机器学习系 ∗同等贡献,†通讯作者:[email protected] ###### 摘要 在开放式的科学场景中,多智能体工作流的设计尤为困难,因为这类任务缺乏精心整理的训练集、可靠的标量评估指标,以及现有工具和智能体之间的标准化接口。我们提出\methodname,一种基于检索的合成框架,它通过类型化工件传递将可重用的技能、工具和外部智能体组合成可执行工作流,并在执行证据表明失败时,对相关组件应用有界自引导局部修复。在两个开放世界基因组学案例研究中,\methodname无需重新设计独立开发的科学智能体和外部工具仓库,也无需进行全局拓扑搜索,就能将它们组合成可审计的工作流。它协调用于空间转录组学和基因集解释的专门智能体,实现从空间转录组学数据中协同发现,并在单细胞多组学数据上构建跨模态标记分析的并行工作流。\methodname还可以将搜索到的工作流作为结构先验导入,通过将节点与检索到的组件进行接地并应用局部修复来改进它,这表明合成和搜索是互补的。在六个编码、数学和问答基准上,\methodname在统一骨干设置下取得了四个基准的最佳结果和最佳平均得分,同时相比多智能体基线一致降低了每个任务的成本。这些结果表明,基于检索的合成可以将自动化的智能体工作流设计从基准优化的智能体图扩展到由现有智能体、工具和类型化工件构建的开放世界工作流。代码和项目网站见:https://github.com/ma-compbio-lab/AgentCo-Op 和 https://ma-compbio-lab.github.io/AgentCo-Op/ ## 1 引言 多智能体大语言模型系统将复杂任务分解到专门的角色、工具和提示中,并在推理、编码、问答和科学分析方面取得了显著成果 (Tran et al., 2025; Hong et al., 2023; Wu et al., 2023)。随着这些系统的成熟,瓶颈已从构建单个智能体转移到设计它们之间的互操作工作流。最近的自适应方法如ADAS (Hu et al., 2024)、AFlow (Zhang et al., 2024)和AgentSquare (Shang et al., 2024)将这一设计问题表述为在候选拓扑、提示、操作符或工作流程序上进行搜索,并针对训练集使用标量评估函数进行优化。当有代表性任务和可靠的标量信号可用时,这种表述非常强大,并在标准QA、数学和编码基准上取得了强劲的结果。 然而,这种基于搜索的表述对于一大类现实世界任务来说变得具有局限性。在科学领域,问题通常是开放式的,很少带有精心整理的训练集、标准化的测试用例或能反映科学实用性的自动评估函数。例如,在基因组学中,通过通路或基因集富集进行标记基因解释没有单一的真实答案;同一基因列表可能根据组织、细胞类型、疾病背景、数据库选择和统计阈值支持多种合理的解释 (Subramanian et al., 2005; Wang et al., 2025c)。这类任务通过异质中间证据(如统计显著性、生物学合理性、与已知标记的一致性以及分析来源)进行判断,这些证据很难压缩成单一奖励,使得对候选工作流的重复评分既昂贵又往往不切实际。 第二个挑战涉及互操作性而非优化。许多科学领域已经拥有专家为专门任务构建和验证的工具增强型智能体,因此挑战的重要组成部分是协调独立开发的系统,而不是从头创建新能力 (Wei et al., 2025)。这些智能体通常依赖于不兼容的环境,暴露不同的接口,并维护独立的来源状态,因此仅仅将多个智能体放在一起并不能产生一致的工作流。我们需要一种机制来检索相关组件、对齐它们的接口、在它们之间传递类型化工件,并使用执行证据修复失败的组件。 我们提出\methodname,一个将自动多智能体工作流设计重新定义为基于检索的合成的框架。给定任务规范,\methodname从精心整理的库或用户提供的仓库中检索相关资源、技能、工具和外部智能体,将它们分配给专门的角色,通过类型化工件对齐它们的输入输出接口,并将它们合成为有向图形式的可执行工作流。在执行过程中,\methodname监控异质证据,如执行轨迹、验证检查、工具错误和成本信号,并对受影响的组件触发有界证据引导的局部修复,而不是重新启动合成。这种优先合成的观点能够生成标量指标不可用的工作流,通过组合现有技能、工具和整个独立开发的智能体仓库来重用先前的工程努力,并将局部修复限制在失败的组件上,而不是重复全局搜索。 我们在开放世界的科学设置和标准基准中评估\methodname。开放世界的设置优先考虑合成优先的设计,因为当没有精心整理的基准或评估函数可用时,基于基准的搜索往往不切实际。我们研究了三个代表性应用。首先,\methodname通过串行仓库传递协调独立开发的领域智能体,将TissueAgent和GeneAgent组合起来,在发育中人心脏MERFISH数据集上进行差异表达和基因集解释。其次,\methodname以并行方式组合互补的领域工作流,将Seurat和Signac集成到PBMC多组学数据的跨模态标记发现管线中。第三,\methodname通过导入先前工作流、将其节点与检索到的技能和工具接地,并在执行过程中应用有界局部修复,重用现有的智能体图。在六个标准QA、数学推理和代码生成基准上,\methodname在匹配骨干设置下进一步在六个基准中的四个上取得了最佳性能以及最低平均成本。 我们的贡献如下: 1. 我们将自动多智能体工作流设计形式化为基于检索的合成,适用于标量奖励较弱或不可用的场景,并在\methodname框架中实例化这一观点,该框架通过类型化工件传递和有界证据引导的局部修复,动态地将资源、技能、工具和外部智能体组合成可执行工作流。 2. 我们证明了\methodname能够在开放世界基因组学任务中协调独立开发的科学智能体和工具仓库。仅给定任务规范和指向相关仓库的GitHub链接,\methodname自动合成可互操作的多智能体工作流,支持异构方法之间的协作。 3. 我们进一步通过导入AFlow在MBPP上搜索到的智能体工作流,并通过检索接地和证据引导的局部修复来改进它,表明合成和搜索是互补的。 4. 在六个编码、数学和QA基准上,\methodname与基于搜索的智能体工作流设计方法具有竞争力,在六个基准中的四个上取得了最佳性能,同时一致降低了测试时的token成本。 ## 2 相关工作 ### 2.1 多智能体系统 多智能体大语言模型系统将任务分解到具有不同角色、工具和通信模式的智能体中。基于角色的协作为智能体分配互补的职责,如CAMEL (Li et al., 2023)、MetaGPT (Hong et al., 2023)、AutoGen (Wu et al., 2023)和AgentVerse (Chen et al., 2023)。基于审议的系统通过让多个智能体提出、辩论或调和答案来改进推理,如LLM-Debate (Du et al., 2024)和ReConcile (Chen et al., 2024)。实用指南进一步编纂了管理者式的协调、移交、护栏和子智能体 (OpenAI, 2025b, a; Anthropic, 2025b)。这些工作将智能体视为可组合的构建块,但它们的工作流结构仍然很大程度上是手动设计或基于模板的,这限制了它们对新任务的泛化。 ### 2.2 自动化智能体工作流设计 越来越多的工作致力于自动化智能体工作流的设计。早期系统如DyLAN通过动态选择优化团队参与和通信 (Liu et al., 2023),而GPTSwarm将智能体协作形式化为可优化的图 (Zhuge et al., 2024)。最近的方法拓宽了搜索空间:ADAS搜索代码定义的智能体 (Hu et al., 2024),AFlow使用蒙特卡洛树搜索在可执行工作流图上从执行反馈中搜索 (Zhang et al., 2024),AgentSquare定义了规划、推理、工具使用和记忆上的模块化空间 (Shang et al., 2024),MaAS引入了一个智能体超级网络,对查询相关的架构进行采样 (Zhang et al., 2025)。相关工作进一步探索了自动工作流生成和演化,包括Flow (Niu et al., 2025)、EvoAgentX (Wang et al., 2025b)、SEW (Zhao et al., 2025)和AutoFlow (Li et al., 2024)。这些方法通常依赖于在代表性任务和标量反馈下的重复提议、执行和评估。\methodname针对一个互补的设置,即这种反馈很弱、昂贵或不可访问,直接从可用的技能、先前的智能体和任务需求中编译一个协调的工作流,同时将运行时适应限制在有界证据引导的局部修复上。 ### 2.3 智能体技能与工具使用 另一条互补的研究线路为智能体配备外部指定的能力。模型上下文协议标准化了跨提供商的工具、资源和提示访问 (Anthropic, 2024)。在此基础上,Anthropic Agent Skills将程序化知识打包为可移植文件夹,通过渐进式揭示按需加载 (Anthropic, 2025a),最近的一篇综述系统化了该范式 (Bhardwaj, 2026)。SkillFoundry将异构资源挖掘成具有可执行契约的自我演化技能库 (Shen et al., 2026),EvoSkills通过协同演化验证演化多文件技能包 (Zhang et al., 2026)。更早的工具使用工作涵盖了学习调用和大型API检索 (Schick et al., 2023; Qin et al., 2024; Patil et al., 2024)。这些工作向智能体暴露能力,但没有确定应如何将它们组织成任务特定的工作流。\methodname建立在这一方向上,将技能视为类型化、可测试的单元,其契约在工作流合成和类型化工件传递过程中得到强制执行。 ### 2.4 科学智能体 大语言模型智能体越来越多地应用于科学发现。SpatialAgent处理从面板设计到假设生成的空间生物学管线 (Wang et al., 2025a),GeneAgent通过数据库接地和自验证减少基因集分析中的幻觉 (Wang et al., 2025c)。Virtual Lab协调一位首席研究员和专门智能体,设计经过实验验证的SARS-CoV-2纳米抗体 (Swanson et al., 2025)。Biomni提供了一个通用的生物医学行动空间 (Huang et al., 2025),STELLA自我演化其模板库和工具海洋 (Jin et al., 2025)。其他系统针对基因编辑、扰动设计和化学,包括CRISPR-GPT、BioDiscoveryAgent和ChemCrow (Huang et al., 2024; Roohani et al., 2025; Bran et al., 2024)。这些智能体提供了强大的专门能力,但通常构建为特定任务系列的独立系统。将它们组合成多步、跨模态或跨学科的工作流仍然困难,因为它们的接口、环境、输出和假设没有对齐。\methodname通过将专门智能体和领域工作流包装为可执行图节点、通过类型化工件对齐它们并合成一致的协作工作流来解决这一组合问题。 ## 3 方法 ### 3.1 问题形式化 我们研究自动为复杂任务构建多智能体工作流的问题。给定任务规范 \(x\),目标是生成一个可执行的工作流 \(W\),该工作流将任务分解,将每个角色接地在检索到的组件中,并通过类型化工件协调通信。我们将任务规范表示为: \[ x = (g, c, r, \Omega), \] 其中 \(g\) 是用户目标,\(c\) 是任务上下文,\(r\) 指定操作约束,例如可用数据、预算、运行时、环境要求和期望的输出格式,\(\Omega\) 表示用户提供或要求的任务特定资源,包括文档、数据集、仓库、工具、外部智能体和现有智能体图。 传统的自动化工作流设计将问题形式化为在工作流空间中的搜索: \[ W^{*} = \arg\max_{W \in \mathcal{W}} \text{Eval}(W; D), \] 其中 \(\mathcal{W}\) 是候选空间,\(D\) 是基准或训练集,
相似文章
COAgents:用于学习和导航路径规划问题搜索空间的多智能体框架
COAgents是一个合作式多智能体框架,用于解决车辆路径问题,它将搜索过程建模为图,使用专门智能体进行节点选择、移动选择和跳跃以逃离局部最优。在CVRP和VRPTW基准测试上取得了最先进的结果,相比先前的基于学习的方法,将最佳已知解差距最多缩小了44%。
是否有人也在为管理多个智能体工作流以及与他人设计的智能体协作而苦恼?我们为此打造了一个平台。
Commons 是一个新平台,旨在集中管理多个 AI 智能体工作流,并支持不同智能体之间的协作,从而解决上下文碎片化和界面分散的问题。
AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者
本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。
CoCoDA:用于工具增强型智能体的协同演化组合式 DAG
本文介绍了 CoCoDA,这是一个利用协同演化的组合式有向无环图(DAG)来管理增强型智能体工具库的框架。该框架使小型语言模型能够高效地检索和组合工具,从而使 8B 模型在推理基准测试上的性能能够匹敌甚至超越 32B 模型。
Agent S2:一种面向计算机使用智能体的组合式通才-专才框架
Agent S2 是一种新型的计算机使用智能体组合式框架,通过采用混合定位(Mixture-of-Grounding)与主动分层规划(Proactive Hierarchical Planning)技术,在多个基准测试中达到了最先进的性能。