互补智能体混合方法构建稳健的大语言模型集成

arXiv cs.LG 2026/05/26 04:00 论文

llm-ensemble proposer-selection complementarity multi-agent feature-selection greedy-algorithms

摘要

提出一个框架，用于在集成系统中选择互补的大语言模型作为提案者，将提案者选择重新表述为一个组合问题，并探索贪心算法以实现性能-成本的高效权衡。

arXiv:2605.24048v1 公告类型：新摘要：多AI协作，例如集成或辩论大语言模型，是一种有前景的范式，用于聚合信息并提升性能。这些流程的基础步骤是将多个提案者大语言模型的回复输入到一个汇总者大语言模型中，由后者综合出更好的答案。然而，选择哪些提案者并非易事。现有方法主要关注准确性（挑选最强模型）或多样性（确保多样性），往往忽略了提案者之间以及提案者与汇总者之间的交互。我们将提案者选择重新定义为一个类似特征选择的组合选择问题，其中大语言模型的价值在于其与其它模型的互补性。然而，由于时间复杂度过高，直接应用标准特征选择算法在大语言模型场景中不可行。受此限制，我们探索了一系列计算上可行的贪心式选择算法，这些算法利用一个小型标记集来评估互补性。实验验证了互补性作为提案者选择的指导原则，并确定了在实际中实现最佳性能-成本权衡的方法。

查看原文

查看缓存全文

缓存时间: 2026/05/26 08:59

# 互补智能体混合用于鲁棒LLM集成 来源: https://arxiv.org/html/2605.24048 Kevin Lu 罗格斯大学数学系 kll160@scarletmail\.rutgers\.edu Yuang Zhang 乔治梅森大学计算机科学系 yzhang78@gmu\.edu Jie Gao Lirong Xia 罗格斯大学计算机科学系 jg1555@cs\.rutgers\.edu, lirong\.xia@rutgers\.edu Fang\-Yi Yu 乔治梅森大学计算机科学系 fangyiyu@gmu\.edu

###### 摘要

多AI协作——例如大语言模型（LLM）的集成或辩论——是一种用于信息聚合和提升性能的有前景范式。这些流程中的基础步骤是将多个*提案者*LLM的响应输入到一个*汇总者*LLM中，后者综合生成一个更优答案。然而，选择包含哪些提案者并非易事。现有方法主要关注准确性（挑选最强模型）或多样性（确保差异），往往忽视了提案者之间以及与汇总者之间的交互。我们将提案者选择重新定义为类似于特征选择的组合选择问题，其中LLM的价值在于其与其他模型的*互补性*。然而，由于时间复杂度过高，直接在LLM场景中应用标准特征选择算法是不切实际的。受此限制，我们探索了一系列计算可行的、贪婪式的选择算法，这些算法使用小型标注集评估互补性。我们的实验验证了互补性作为提案者选择指导原则的有效性，并识别出在性能与成本权衡中表现最佳的方法。

## 1 引言

随着当今大语言模型（LLM）生态系统碎片化为众多具有不同专业领域的模型，LLM之间的协作已成为应对数学推理（Du et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib20)）、代码生成（Mahmud et al., 2025 (https://arxiv.org/html/2605.24048#bib.bib37)）和复杂决策（Wu et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib38)）等新兴任务时的一种有前景且有时必要的方法。一个便捷的实现方式是*推理后集成*，即在生成完整响应后聚合LLM输出。这包括研究成熟的框架，如*LLM辩论*（Du et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib20); Estornell and Liu, 2024 (https://arxiv.org/html/2605.24048#bib.bib23); Chan et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib25)），其中多个模型在最终决策前迭代交换论点，以及*混合代理（MoA）*（Wang et al., 2024a (https://arxiv.org/html/2605.24048#bib.bib18); Li et al., 2025 (https://arxiv.org/html/2605.24048#bib.bib8)），它使用分层和汇总方案来组合多样化的模型输出。

集成框架中的一个基本步骤是将N个LLM-提示对的响应——即*提案者*¹——输入到一个聚合LLM——*汇总者*——中，后者综合生成一个可能改进的答案。因此，选择包含哪些提案者至关重要：对于大型提案者池，由于上下文窗口限制和推理能力下降（Liu et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib40)），将每个可用提案者的响应都输入是不切实际且低效的。现有方法通常基于独立性能选择少量提案者，主要遵循两种启发式：（i）*追求准确性*——优先选择高准确率提案者，甚至使用单个顶级模型的多个样本（Li et al., 2025 (https://arxiv.org/html/2605.24048#bib.bib8); Jiang et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib15)），以及（ii）*追求多样性*——明确混合异质输出或提示，以避免强化相似错误（Lau et al., 2024 (https://arxiv.org/html/2605.24048#bib.bib7); Wang et al., 2024a (https://arxiv.org/html/2605.24048#bib.bib18)）。然而，这两种启发式都忽视了一个决定性因素：提案者之间以及提案者与汇总者之间的互补性。我们认为，这些团队效应而非个体质量或成对多样性最终决定了集成性能。特别是，追求准确性的方法仅根据个体性能对提案者排序，而追求多样性的方法则奖励方差，不考虑质量。因此，我们提出*混合互补代理（互补-MoA）*——一个选择提案者的框架，基于它们作为一个团队共同工作以及与汇总者的协作效果。

互补性的重要性可以从图1（https://arxiv.org/html/2605.24048#S1.F1）中观察到，该图比较了输入（i）个体最准确提案者与（ii）最补充汇总者的提案者时汇总者的准确率。在这个例子中，我们一致观察到两者之间存在显著差距，而且最互补的提案者有时本身较弱。这既是机遇也是挑战：随着集成规模k（选择输入的提案者数量）增大，最优选择可以带来实质性收益，但也使搜索复杂化，因为最优团队无法仅从个体性能推断出来。

参见图注
图1：在AIME（dolbokostya, 2025 (https://arxiv.org/html/2605.24048#bib.bib36)）上，输入*最准确*提案者与*最互补*提案者时的汇总者准确率。对于每个汇总者s，提案者池为{Qwen3-32B, Sky-T1-32B-Preview, Aya-expanse-32B, Gemini-1.5-Pro, Llama-3.3-70B-Instruct, AceReason-Nemotron, and GPT-4o}，排除s本身。

在本文中，我们研究针对多LLM集成的高效提案者选择，给定一个汇总者，重点关注选择互补提案者，而不仅仅是强或多样化的提案者。尽管提案者选择与特征选择或数据获取等经典问题表面相似，但LLM场景带来了根本性的新挑战：每个候选提案者团队的评估都需要昂贵的汇总者调用，因此包装器式方法在大规模下计算上不可行。因此，现有方法无法直接应用，天真的适配在实践中过于缓慢或不稳定。更多讨论见第2节（https://arxiv.org/html/2605.24048#S2）。

使用多项选择QA作为具体测试平台，我们将提案者选择建模为以互补性驱动的优化问题，目标是选择一个小型集成，最大化下游准确率，同时最小化汇总者调用次数。这种表述同时捕捉了跨模型多样性和模型内提示变化，先前工作已表明后者是性能提升的主要来源（Li et al., 2025 (https://arxiv.org/html/2605.24048#bib.bib8); Lau et al., 2024 (https://arxiv.org/html/2605.24048#bib.bib7)）。受此视角启发，我们开发了一系列提案者选择算法，在准确率与效率之间进行权衡。我们首先引入*模型优先贪婪*，这是一种包装器式方法，保持汇总者在循环中，但减少了查询复杂度，由提案者选择所需的汇总者调用总次数来衡量。我们在每一步基于其提示变体对当前集合S的平均边际增益选择获胜模型。一旦选定模型，我们识别出其表现最佳的提示实例，并将该模型-提示对添加到S中。模型优先贪婪基于模型间多样性比同一模型内不同提示引起的多样性更重要的直觉来减少查询复杂度。

为了进一步降低查询复杂度，我们提出了两种考虑标签级互补性的算法。*真值预测贪婪*根据提案者报告的标签有多有助于预测真实标签来选择提案者；*预言代理贪婪*首先拟合一个简单的预言代理，然后基于代理模型测得的边际贡献选择提案者。这两种方法仅依赖标签级统计量，因此不需要或仅需少量汇总者调用。

我们在三个流行的推理基准上进行了广泛的实证研究，涵盖了多个提案者池（一个主导LLM机制和一个混合人群机制）、不同的汇总者以及一系列集成规模。评估揭示了一致模式：常用启发式方法仅在狭窄机制中表现良好，而在其他情况下不可预测地失败。相比之下，我们的互补性引导方法（包括无需汇总者调用的真值预测贪婪）在所有场景中均表现出一致的鲁棒性。此外，我们经常观察到模型优先贪婪相比最强基线的实质性收益，强调显式优化互补性在集成框架中至关重要。

总之，我们的主要贡献有三点：

- • 我们识别出互补性是代理级LLM集成中一个关键但被忽视的目标，并提出了一个更原则性的提案者选择框架，称为互补-MoA，显式优化互补性。
- • 受特征选择方法启发，我们提出了三种基于互补性的选择算法，专为LLM集成设计，其中评估每个提案者需要昂贵的模型调用。所得方法覆盖了准确率-效率权衡的光谱，为从业者在不同查询预算下提供了原则性的选择方式。
- • 通过大规模实验，我们系统且全面地比较了适合LLM的提案者选择策略，揭示了现有启发式方法的失败模式，并证明基于互补性的选择在所有测试设定中提供了最可靠的性能。

## 2 相关工作

**代理级集成。** LLM集成可以在推理流程的多个阶段构建（Chen et al., 2025b (https://arxiv.org/html/2605.24048#bib.bib13)）。我们关注*代理级*集成，将每个LLM视为黑盒。一个密切相关的范式是*混合代理（MoA）*（Wang et al., 2024a (https://arxiv.org/html/2605.24048#bib.bib18)），这是一个分层协作方案，在给定层中，多个提案者提交响应，然后由汇总者聚合。Wang等人（2024a (https://arxiv.org/html/2605.24048#bib.bib18)）表明MoA有效聚合互补信号，通常产生比单个更强模型更可靠的输出。一项后续研究对这一设计提出挑战，证明重复查询单一强大LLM也可以提升MoA式性能（Li et al., 2025 (https://arxiv.org/html/2605.24048#bib.bib8)）。另一条相关工作是*LLM辩论*（Du et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib20); Estornell and Liu, 2024 (https://arxiv.org/html/2605.24048#bib.bib23); Chan et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib25); Wang et al., 2023a (https://arxiv.org/html/2605.24048#bib.bib24); Baek et al., 2026 (https://arxiv.org/html/2605.24048#bib.bib55)），其中多个模型迭代地批评和完善彼此的响应，通常可以达成超越单个模型的共识。然而，正如Estornell和Liu（2024 (https://arxiv.org/html/2605.24048#bib.bib23)）所指出的，共享所有代理的响应并不总是最优，他们观察到选择最大化代理间互信息的LLM子集可能更有效。我们的工作针对上述框架中的基础步骤——N→1汇总——特别强调提出更原则性的方式来决定选择哪些提案者给汇总者。条件互信息也是评估代理在现有信息之外的边际贡献信息量的强大工具（Lu et al., 2024 (https://arxiv.org/html/2605.24048#bib.bib53); Zhang et al., 2025 (https://arxiv.org/html/2605.24048#bib.bib54)）。在将类似思想应用于集成选择的并行工作中，Turkmen等人（2026 (https://arxiv.org/html/2605.24048#bib.bib52)）通过贪婪最大化提案者建议标签与真实值之间的边际互信息来探索LLM集成中的互补性。虽然我们的高层次目标一致，但他们的方法仅限于二元标签，并未考虑提案者与汇总者之间的协同作用。如第3.2节（https://arxiv.org/html/2605.24048#S3.SS2）和第5.2节（https://arxiv.org/html/2605.24048#S5.SS2）所示，汇总者显著影响最优提案者集合的组成——这是标签级选择算法无法捕捉的因素。

**基于训练的集成。** 先前文献也探索了训练参数化元模型，以根据查询决定信任哪个LLM（或哪个LLM的输出）。例如，融合方法训练一个小型网络，利用来自多个LLM的特征——如拼接的概率或最后一层嵌入——来预测真实标签（Jiang et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib15); Wang et al., 2023b (https://arxiv.org/html/2605.24048#bib.bib21)）。路由方法学习一个委派者，为各种任务选择最合适的代理，例如RouteLLM使用人类偏好数据更好地权衡成本和质量（Ong et al., 2024 (https://arxiv.org/html/2605.24048#bib.bib28)），而ZOOTER基于蒸馏训练查询上的奖励来学习路由器（Lu et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib22)）。类似地，成本感知的级联如FrugalGPT则专注于学习何时使用更强但更昂贵的模型（Chen et al., 2023 (https://arxiv.org/html/2605.24048#bib.bib29)）。与先前基于训练的集成不同，我们的框架避免大量监督数据集：几百个示例足以学习汇总者的行为以更好地选择提案者。这种轻量训练也使其与闭源LLM汇总者兼容，而过去的工作要么不使用LLM汇总者，要么需要开源访问（例如，logits/权重）。

**特征选择。** 我们的问题自然与特征选择相关，其目标是为ML模型选择一小部分特征以优化性能。最经典的例子之一是Wrapper（Kohavi and John, 1998 (https://arxiv.org/html/2605.24048#bib.bib30)），它通过重复训练模型——使用前向/后向搜索——来评估特征。特征选择也可以通过训练期间引入稀疏性来实现，例如LASSO（Tibshirani, 1996 (https://arxiv.org/html/2605.24048#bib.bib31)）和LARS（Kolter and Ng, 2009 (https://arxiv.org/html/2605.24048#bib.bib32)）。此外，通常有益的做法是在不重新训练预测器的情况下，基于信息论（例如，mRMR（Peng et al., 2005 (https://arxiv.org/html/2605.24048#bib.bib33)））或邻域准则（例如，Relief（Urbanowicz et al., 2018 (https://arxiv.org/html/2605.24048#bib.bib34)））过滤可能弱的特征。然而，两个挑战限制了在我们场景中的适用性。首先，包装器式方法需要大量重新训练，而过滤器/嵌入式方法仅在标签层面运行，因此忽略了LLM汇总者的纠错行为。² 其次，汇总者的性能在代理集合上通常是非单调的，使得标准边际增益评分不可靠；这促使我们提出新的评估指标f。

互补智能体混合方法构建稳健的大语言模型集成

相似文章

多智能体LLMs未能相互探索

AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

COOPA：一种面向运筹学问题的模块化LLM智能体架构

新LLM协调基准 - 在语言智能体中评估开放式多智能体协调 [R]

SkillSelect-Serve: 预算可控且QoS感知的小型LLM智能体技能服务推荐与组合

提交意见反馈