弱链优化:多智能体推理与协作框架
摘要
本论文提出WORC框架,这是一个针对多智能体LLM系统的弱链优化框架,通过基于元学习的权重预测和不确定性驱动的资源分配来识别并强化表现不佳的智能体,在推理基准上达到82.2%的准确率,同时提升了系统稳定性。
arXiv:2604.15972v1 公告类型:交叉领域
摘要:LLM驱动的多智能体框架通过多角色协作来解决复杂推理任务。然而,现有方法经常受到推理不稳定性的困扰,其中单个智能体的错误会通过协作被放大,从而削弱整体性能。当前研究主要集中在增强高能力智能体或抑制不可靠输出以提升框架效果上,而对性能限制性智能体的系统识别和强化的关注较少。为解决这一问题,我们提出WORC——一个基于弱链原理的多智能体推理与协作弱链优化框架。WORC遵循两阶段工作流程。在弱智能体定位阶段,构造任务特征,基于群智能算法(SIAs)识别的最优配置训练的元学习权重预测器实现从这些特征到智能体性能权重的零样本映射,将预测权重最低的智能体识别为弱智能体。在弱链优化阶段,不确定性驱动的分配策略为弱智能体分配额外的推理预算,预测权重越低导致重复采样配额越大,以补偿可靠性缺陷。实验结果表明,WORC在推理基准上实现了82.2%的平均准确率,同时改善了框架稳定性和跨架构泛化能力,表明补偿弱链而非单纯强化优势能够增强多智能体系统的鲁棒性。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 多智能体推理与协作的弱链优化 来源: https://arxiv.org/html/2604.15972 Haoyu Bian1, Chaoning Zhang1, Jiaquan Zhang1, Xingyao Li1, Yuanfang Guo2, Wei Dong3, Yang Yang1,本工作受国家自然科学基金(NSFC)面上项目(批准号62572104)资助。 ###### 摘要 由LLM驱动的多智能体框架通过多角色协作来处理复杂推理任务。然而,现有方法常常面临推理不稳定性问题,其中单个智能体的错误会通过协作被放大,从而削弱整体性能。当前研究主要关注增强高能力智能体或抑制不可靠输出以提升框架效能,而对性能瓶颈智能体的系统识别和强化关注较少。为了解决这一问题,我们提出WORC,一个基于弱链原理的多智能体推理与协作弱链优化框架。WORC采用两阶段工作流程。在弱智能体定位阶段,构造任务特征,使用在群智能算法(SIAs)识别的最优配置上训练的元学习权重预测器,实现从这些特征到智能体性能权重的零样本映射,其中预测权重最低的智能体被识别为弱智能体。在弱链优化阶段,不确定性驱动的分配策略根据预测的权重配置向弱智能体分配额外的推理预算,预测权重越低,重复采样配额越大,以补偿可靠性缺陷。实验结果表明WORC在推理基准上实现了82.2%的平均准确率,同时改善了框架稳定性和跨架构泛化能力,表明补偿弱链而非仅强化优势能增强多智能体系统的鲁棒性。 ###### 索引词: LLM、多智能体、弱链、推理优化 ## I 引言 大语言模型(LLMs)在生成式自然语言处理任务中展现了卓越的能力[8,19],但在数学问题求解和逻辑推理方面仍然表现不佳。为应对这一挑战,研究人员提出了思维链(CoT)[52]等推理方法,将人类推理方式形式化为提示模板,强调子任务分解和多步推理。最近的研究进一步探索了任务驱动对齐和结构感知推理链优化[59,60]。与此同时,AI智能体[34]的出现,特别是利用规划、反思和工具使用能力进行协作的多智能体框架[43],显著提升了LLMs在复杂问题求解任务上的性能[49]。最新进展进一步将协作推理从静态智能体协作扩展到交互感知[63]、角色自适应[31]和共识驱动协作范式[56],使分布式推理智能体能够进行更结构化的审议过程。这些发展在长视地平决策任务中改进了多智能体推理系统的效能,包括科学编程[37]、医学诊断[66]和自主规划[53,26]。 参见图1多智能体推理中弱智能体脆弱性概览。序列推理会传播性能不佳的智能体的错误。多数投票和多智能体辩论会缓解但不能消除弱智能体的影响。 然而,在复杂推理任务中,多智能体框架面临实质性的协调挑战,需要任务分解和协作来使个体智能体行动与整体目标保持一致[28]。推理路径的可靠性取决于其组成部分的复合可靠性,使系统本质上容易遭受性能退化[65]。多智能体架构中表现不佳的单个智能体,以下简称弱智能体,通过诱发不准确的推理、不可靠的决策和容易出错的输出来危害系统的整体可靠性。强调更强大推理智能体或结合简单共识机制(如投票[16]和辩论[29])的传统设计范式仍然容易出现不稳定,尽管其有效性,但表现出较高的性能可变性[10]。这种脆弱性具体表现为: 1. 1. 推理阶段间的错误累积:在任务分解中,前面智能体的输出作为后续智能体的输入。任何智能体的低精度或校准不当的输出可能导致下游错误传播,放大其影响。 2. 2. 异质智能体可靠性下的共识退化:共识机制依赖于智能体之间的一致性。来自能力有限的智能体的错误贡献可能会降低整体决策质量并引入系统性偏差。 类似地,多路径推理方法通过探索多个候选推理轨迹来缓解这些风险;但其有效性仍然受到弱智能体的限制,可能引入额外的计算开销[9]。 为了解决这些局限,我们提出WORC,一个基于弱链优化原理的LLM驱动多智能体系统推理优化框架。这个视角受到瓶颈驱动系统优化原理启发,通常称为"桶效应",已广泛应用于系统可靠性工程、生产优化和容错分布式系统设计中,其中整体系统性能受其最薄弱环节的制约。在多智能体推理的背景下,这激励了一个向有针对性地补偿弱智能体以增强推理可靠性的转变。 为了实现这一原理,WORC采用由弱智能体定位和弱链优化组成的两阶段优化过程。在弱智能体定位阶段,利用SIAs基于采样的任务类型数据集上的多智能体推理性能来估计最优智能体权重向量配置,从而捕获协作推理过程中任务相关的智能体贡献。这个公式利用群智能方法的基于种群的全局搜索能力来建模智能体性能分布,无需显式监督,并将得到的权重向量构造为跨任务泛化的知识库。当遇到新推理任务时,使用OpenAI embeddings等文本嵌入模型构造任务签名,纳入语义平均嵌入和结构统计特征。这些签名随后由元学习权重预测器处理,从知识库中检索最相关的权重向量作为弱智能体识别的基准。在弱链优化阶段,自动预算分配机制根据预测的权重配置向识别出的弱智能体分配额外的推理资源。所有智能体随后根据其分配的配额生成候选解决方案,最终输出通过基于投票的聚合模块获得。 作为这一可泛化优化方法的演示,我们设计了一个简单的基于链的多智能体推理系统,称为AgentChain(AC),作为我们方法的说明性实现。此外,我们进行了跨不同数据集和任务的全面评估,展示了框架增强的推理能力、稳定性和可解释性。我们的贡献包括: 1. 1. 我们提出了一种受"弱链"原理启发的LLM驱动多智能体推理优化方法,该方法通过解决架构中的弱组件来增强系统鲁棒性。 2. 2. 为了在不同任务间推广弱智能体检测,我们构建了元学习权重预测器和SIAs用于任务特征分析,实现跨任务的零样本弱智能体识别。 3. 3. 综合实验评估和理论分析证明了该方法在增强推理精度和系统稳定性方面的有效性,适用于各种多智能体框架。 ## II 相关工作 ### II-A 推理用多智能体系统 多智能体系统代表大语言模型(LLMs)的关键架构范式之一[18,43],通过多个智能体之间的协作和交互实现分布式推理[23]。多智能体架构通过协作交互实现推理过程的结构化分解来改进推理性能[21]。多智能体框架的应用解决了单智能体推理中存在的几个局限。Chen等人[9]证明了通过构建多智能体、多推理路径框架,其中语言模型扮演不同角色并进行协作,可以改进复杂科学问题的任务求解性能。类似地,Gu等人[17]表明,将复杂任务分解为子任务并采用管道式多智能体协作有助于大模型解决复杂推理问题。 现有多智能体推理增强方法存在几个显著局限: - •多数投票将所有智能体平等对待,未能识别或降低权不可靠智能体的权重[48]。 - •自洽性机制通过反复强调相似推理路径来强化相关错误推理轨迹[54]。 - •基于辩论的方法在不正确或误导性论点主导讨论过程时容易被破坏[32]。 - •静态权重分配忽视了智能体性能中任务特定和上下文相关的变化[36]。 ### II-B 元学习和任务自适应 元学习的核心目标是使模型能够利用先验任务分布来快速适应新任务[22]。早期研究如MAML[15]优化参数初始化以实现跨任务的快速任务适应。随后,Prototypical Networks[40]等方法通过少样本分类场景中的任务级表示演示了高效的少样本推理。随着LLMs的兴起,元学习概念已应用于增强LLMs的泛化和适应能力[39]。 在多智能体推理系统中引入元学习主要目的是改进智能体的集体协作能力,实现整体联合自适应动态。当前研究主要遵循两条路径。第一条涉及构建具有元认知能力(如ReMA[46]、MetaMind[62])的智能体,能够规划、监测和调整其自身推理过程。第二条专注于元层级协调[41],通过博弈论或元学习策略直接优化智能体之间的协作模式,允许系统快速形成高效的团队推理结构。但是,该领域仍面临显著挑战,包括计算成本高和对基础模型能力的过度依赖[6]。 ### II-C 群智能算法在LLMs中的应用 群智能算法(SIAs)已被广泛研究为解决复杂优化问题的有效工具[7],通过模仿在生物系统中观察到的集体行为。经典算法,包括粒子群优化(PSO)[24]和灰狼优化器(GWO)[35],建立了连续和组合优化问题的基于种群的随机优化框架。最近,新型SIAs继续涌现,具有精细的搜索机制和增强的优化性能。例如,海洋掠食者算法[13]模拟了基于猎物和掠食者之间的相遇率的不同捕猎行为。河马优化(HO)算法[3]模拟了河马的领地标记和防守攻击行为。 最近的研究将SIAs引入LLMs和深度学习架构,在优化效率、参数调优和处理复杂推理任务方面显示出明显的改进[44]。例如,研究人员使用SIAs的并行搜索能力来探索神经推理系统中的参数和协作策略搜索空间[25]。然而,尽管SIAs已广泛应用于传统多智能体计算机系统,但其在LLM驱动的多智能体系统中的应用仍未充分探索,如SwarmSys[27]和AMRO-S[51]等示例引入SIAs以实现可扩展和自适应推理。尽管如此,这种集成仍存在研究中的显著空白。 参见图2 AC框架中WORC方法的概览。(a)弱智能体定位:通过SIA训练构造权重知识库,生成任务签名。元学习预测器为新任务输出最合适的权重向量,实现弱智能体的识别和评估。(b)弱智能体优化:预测的权重向量指导向补偿低性能智能体的推理预算的有针对性分配。智能体在AgentChain框架内依次执行,VoteAgent选择最佳输出以实现协作推理和性能优化。 ## III 方法 The
相似文章
UnityMAS-O:一种基于LLM的多智能体系统的通用RL优化框架
UnityMAS-O 提出了一种针对基于LLM的多智能体系统的通用RL优化框架,将整个工作流视为优化单元,支持角色级别的信用分配和可配置的参数共享,在问答和代码生成任务上展现了显著的性能提升。
COOPA:一种面向运筹学问题的模块化LLM智能体架构
本文介绍了COOPA,一种面向运筹学问题的模块化LLM智能体架构,它结合了基于迭代置信度的建模、元素级溯源和多求解器路由。在八个LLM主干网络和四个基线的评估中,COOPA在六个主干网络上取得了最佳的宏平均准确率,并在最强基线的基础上提升了最多6.7个百分点。
TeamTR:多智能体LLM协调的信任域微调
本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。
基于权重空间元学习的机器人策略自适应
提出WIZARD,一种权重空间元学习框架,它从语言指令和演示视频中为冻结的VLA策略生成任务特定的LoRA参数,从而实现无需微调的高效任务自适应。
多智能体RL何时能提升LLM工作流?工作流、规模与策略共享的权衡
本文研究了端到端强化学习训练何时能改善多智能体LLM工作流,比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练,揭示了条件性权衡。