多智能体LLM校准的反事实图
摘要
本文介绍了CAGE,一种基于反事实图的多智能体LLM系统校准方法,在TriviaQA和MMLU-Pro等基准测试上进行了评估,涵盖了多种通信拓扑结构。该方法优于现有的事后校准和LLM引导校准方法。
arXiv:2605.30653v1 Announce Type: new
Abstract: 多智能体LLM系统通常将一致性视为证据:当专家组中的多个智能体给出相同答案时,该答案被认为更可靠。我们表明,在智能体交流后,这一假设可能失效。交流可能导致相关性失败和虚假共识,因此相同的投票份额可能反映了一种拓扑中的可靠一致性,但在另一种拓扑中却是过度自信。我们提出了CAGE-CAL,一种用于多智能体LLM的反事实智能体图校准框架。对于每个查询,CAGE-CAL将观察到的交流后智能体图与匹配的反事实无交流图进行比较,捕捉成对故障相关性和群体级依赖关系。CAGE-CAL不是简单地计算有多少智能体一致,而是估计观察到的依赖关系与无交流依赖关系之间的反事实变化,并据此校准置信度。在五个基准测试中,CAGE-CAL通过竞争性的ECE提高了可靠性区分能力,其校准后的置信度进一步改进了拓扑选择,优于最佳固定拓扑策略。
查看缓存全文
缓存时间: 2026/06/01 09:27
# 多智能体LLM校准的反事实图 来源:https://arxiv.org/html/2605.30653 ### 6.1 实验设置 我们使用第3节(https://arxiv.org/html/2605.30653#S3)中描述的25个网格单元,由五个基准测试和五种通信拓扑组成。这些基准测试包括:TriviaQA(Joshi等人,2017)(https://arxiv.org/html/2605.30653#bib.bib44)、TruthfulQA(Lin等人,2022b)(https://arxiv.org/html/2605.30653#bib.bib45)、MMLU-Pro(Wang等人,2024)(https://arxiv.org/html/2605.30653#bib.bib46)、GSM8K(Cobbe等人,2021)(https://arxiv.org/html/2605.30653#bib.bib47)和BIG-Bench Hard(Suzgun等人,2023)(https://arxiv.org/html/2605.30653#bib.bib48)。拓扑结构包括:独立同分布(iid)、辩论(debate)、链式(chain)、中心辐射型(hub-spoke)和树状(tree)。每个拓扑和基准测试单元均进行三次运行评估。对于每个查询,专家组首先生成一个多数答案,然后校准器对该答案的可靠性进行评分。各项指标在每个基准测试内按拓扑和运行结果取平均值。均值列对五个基准测试进行宏观平均。对于CAGE-Select,我们仅评估匹配的测试组,其中所有五个拓扑输出均可用于同一查询。完整实验细节见附录D(https://arxiv.org/html/2605.30653#A4)。 ### 6.2 基线方法与评估指标 我们将CAGE-Cal与三类基线方法进行比较,以评估不同方面: **事后多数校准器**:在验证集上使用三种事后方法校准基于多数份额计算的置信度分数(Kuncheva, 2004)(https://arxiv.org/html/2605.30653#bib.bib20):(1) Platt缩放(Platt等人, 1999)(https://arxiv.org/html/2605.30653#bib.bib12),(2) 等渗回归(Zadrozny和Elkan, 2002)(https://arxiv.org/html/2605.30653#bib.bib17),(3) 缩放-分箱(Kumar等人, 2019)(https://arxiv.org/html/2605.30653#bib.bib15); **LLM引导的置信度估计器**:这些基线方法使用LLM裁判为专家组预测生成类似概率的置信度分数。它们测试是否可以从最终智能体响应中推断出专家组的可靠性,并可选地补充拓扑描述。基线包括:(1) 无拓扑信息的LLM校准,(2) 有拓扑信息的LLM校准,(3) 协同校准(Yang等人, 2024)(https://arxiv.org/html/2605.30653#bib.bib13); **训练型校准器**:(1) Scalar + GBT(Ke等人, 2017)(https://arxiv.org/html/2605.30653#bib.bib19)使用投票、置信度和图摘要特征,但不含关系编码;(2) GraphCal(Li等人, 2025)(https://arxiv.org/html/2605.30653#bib.bib10)将基于图的校准方法适配到专家组设置;(3) DiscoUQ-LLM(Jiang, 2026)(https://arxiv.org/html/2605.30653#bib.bib51)作为基于分歧特征的强基线。 我们还评估了答案熵(Kuhn等人, 2023)(https://arxiv.org/html/2605.30653#bib.bib28)、平均对数概率(Kadavath等人, 2022)(https://arxiv.org/html/2605.30653#bib.bib25)、DiverseAgentEntropy(Feng等人, 2025)(https://arxiv.org/html/2605.30653#bib.bib26)和MATU(Chen等人, 2026)(https://arxiv.org/html/2605.30653#bib.bib27)。这些方法提供不确定性分数而非校准概率,因此我们报告AUROC和AUARC,而不对分数进行概率解释。 ##### 评估指标 我们的主要指标是ECE和AUROC。ECE衡量预测置信度是否与实际正确性匹配,而AUROC衡量正确的专家组答案是否比错误的答案获得更高的分数。我们额外报告Brier分数和AUARC作为补充指标。Brier分数在适当评分规则下评估概率质量,而AUARC在按置信度降序接受专家组答案时评估选择性预测。对于仅排序的UQ分数,除非通过共享验证集校准协议引入概率尺度,否则我们省略ECE。 请参考图3的说明文字:按方法族划分的平均Brier分数(越低越好)。在每个族内,柱状图按从最差到最佳(浅色到深色)排序。CAGE-Cal(最右侧)整体Brier分数最低。 ### 6.3 主要校准结果 表6(https://arxiv.org/html/2605.30653#S6)报告了主要的分布内结果。第一个区块显示,事后校准可以显著降低多数份额的ECE,从18.04降至6.98(使用缩放-分箱)。然而,这些方法仍然依赖相同的标量一致信号。Platt缩放是单调的,因此将多数份额的AUROC保持在72.80;等渗回归和缩放-分箱仅通过平局和分箱略微改变排序。这证实事后校准可以改善概率尺度,但无法添加区分独立一致性和通信诱导共识所需的结构信息。 在该设置下,LLM引导的置信度估计器也受限。其平均ECE仍然较高,范围从22.52到23.78,向提示中添加拓扑信息仅带来微小的AUROC变化。这表明仅凭拓扑标签不足以让裁判模型恢复智能体之间针对特定查询的依赖关系。 在训练型校准器中,CAGE-Cal实现了最佳的平均ECE和最强的平均AUROC。与最强的先前训练基线DiscoUQ-LLM相比,CAGE-Cal将平均ECE从7.08降至5.56,并将平均AUROC从73.46提升至83.61。在MMLU-Pro和BBH上,AUROC的改进尤为显著,那里相关一致性的危害更大:CAGE-Cal在MMLU-Pro上比DiscoUQ-LLM的AUROC提高了13.69个百分点,在BBH上提高了24.55个百分点。这些增益支持了核心主张:专家组置信度不仅应依赖于有多少智能体同意,还应依赖于该同意是如何形成的。 图3(https://arxiv.org/html/2605.30653#S6.F3)通过Brier分数提供了补充视角。CAGE-Cal实现了最低的平均Brier分数11.2,优于DiscoUQ-LLM(14.5)、Scalar + GBT(15.6)和GraphCal(19.2)。因此,改进不仅仅是ECE分箱的产物;CAGE-Cal还产生了更尖锐、更优尺度的概率估计。 ### 6.4 仅排序的UQ比较 请参考图4的说明文字:CAGE-Cal与启发式UQ基线的AUROC和AUARC比较。每个轴报告3次运行和5种拓扑的基准级平均值。每个基准的详细数字见附录表7(https://arxiv.org/html/2605.30653#A4.T7)。 图4(https://arxiv.org/html/2605.30653#S6.F4)使用AUROC和AUARC将CAGE-Cal与仅排序的UQ基线进行比较。这些方法提供了有用的不确定性分数,但它们并未定义校准的概率尺度。多数投票、熵、平均对数概率、DiverseAgentEntropy和MATU都使用标量信号总结专家组。当分歧反映不确定性时,此类信号有效,但无法区分良性多样性和虚假共识。CAGE-Cal在五个基准测试中提供了最强的整体可靠性排序。优势在BBH和MMLU-Pro上最为明显,因为在这些基准中,标量分歧信号不太可靠。这与故障模式分析一致:当智能体通过共享模型族或通信路径变得相关时,最终答案的可靠性取决于投票背后的依赖结构,而不仅仅是投票分布本身。 ### 6.5 置信度引导的拓扑选择 我们进一步测试了校准后的置信度是否可以作为多智能体推理的控制信号。CAGE-Select不是对所有查询都采用单一拓扑,而是使用CAGE-Cal置信度为每个查询选择应该信任哪个拓扑输出。图5(https://arxiv.org/html/2605.30653#S6.F5)显示,最佳固定拓扑达到65.18%的平均准确率,而基于多数份额或平均对数概率的简单路由规则并未超越它。CAGE-Select达到67.23%,提升了+2.05个百分点。因此,CAGE-Cal置信度不仅在拓扑内部是校准的,而且在拓扑之间也可比较,使其作为多智能体推理的控制信号非常有用。 请参考图5的说明文字:路由策略的平均准确率。虚线标记各基准的最佳固定值(65.18)。各基准的详细分解见附录表E.2(https://arxiv.org/html/2605.30653#A5.SS2)。 ## 7 分析 | 方法 | TriviaQA | TruthfulQA | MMLU-Pro | GSM8K | BBH | 均值 | |------|----------|------------|----------|-------|-----|------| | | ECE↓ | AUROC↑ | ECE↓ | AUROC↑ | ECE↓ | AUROC↑ | ECE↓ | AUROC↑ | ECE↓ | AUROC↑ | ECE↓ | AUROC↑ | | Scalar + GBT | 11.15±4.43 | 80.28±4.95 | 23.50±12.68 | 70.46±2.14 | 16.39±4.04 | 60.73±4.28 | 10.14±3.84 | 80.58±2.49 | 13.33±4.22 | 62.48±2.54 | 14.90±1.73 | 70.91±2.54 | | GraphCal | 11.93±4.66 | 80.13±5.01 | 34.15±9.54 | 63.51±2.89 | 14.41±2.17 | 54.79±5.86 | 19.59±6.43 | 80.92±6.54 | 20.05±4.09 | 70.62±3.60 | 20.03±1.87 | 70.00±2.40 | | DiscoUQ-LLM | 12.52±5.24 | 82.60±4.90 | 24.42±13.93 | 71.78±3.72 | 16.83±4.67 | 59.37±7.95 | 10.09±4.12 | 84.59±3.95 | 15.25±4.40 | 63.00±3.58 | 15.82±8.45 | 72.27±11.32 | | \rowcolor[RGB]222,230,241 CAGE-Cal (ours) | **4.63±0.71** | **85.74±1.41** | **8.70±1.84** | **79.59±4.67** | **11.19±1.29** | **76.67±3.63** | **1.89±1.31** | **80.39±5.75** | **6.38±1.38** | **88.67±1.12** | **6.56±0.68** | **82.21±1.84** | 表2:留一拓扑(LOTO)泛化。ECE(↓)和AUROC(↑),在5个保留拓扑折上的均值。仅训练型校准器。 | 变体 | ECE↓ | AUROC↑ | AUARC↑ | |------|------|--------|--------| | \rowcolorgray!20 标量摘要基线 | | | | | 标量摘要 + LR | 8.03±0.35 | 74.12±1.24 | 71.64±0.69 | | 标量摘要 + GBT | 7.99±0.95 | 74.78±1.32 | 72.70±0.50 | | \rowcolorgray!20 CAGE-Cal增量变体 | | | | | 仅观测图编码器 | 6.97±0.28 | 81.25±0.88 | 75.61±0.13 | | + IID反事实塔 | 6.78±0.33 | 81.89±1.47 | 75.79±0.24 | | + 组级超边流 | 6.75±0.37 | 82.56±1.27 | 76.08±0.38 | | + 校准感知目标(完整) | **5.56±0.03** | **83.61±1.34** | **76.47±0.37** | | \rowcolor[RGB]222,230,241 Δ vs. 基础 | −1.41 | +2.36 | +0.86 | 表3:CAGE-Cal的组件消融实验,在25个分布内单元上取平均值(百分比,均值±3次运行的标准差)。Δ行显示与前一变体相比的绝对变化(百分点)。LR和GBT分别表示逻辑回归和梯度提升树。 ### 7.1 组件消融 表7(https://arxiv.org/html/2605.30653#S7)消融了CAGE-Cal的主要组件。标量摘要基线将每个专家组压缩为固定统计量,远低于基于图的变体,其中更强的GBT头仅达到74.78的AUROC和72.70的AUARC。观测图编码器将AUROC提升至81.25,表明专家组可靠性依赖于关系结构,而非仅仅是聚合投票和置信度摘要。添加IID反事实塔进一步将AUROC提高了0.64个百分点,而组级超边流通过捕获共享家族、角色、答案聚类和暴露效应,又增加了0.67个百分点。校准感知目标带来了最大的ECE降低,从6.75降至5.56,且未牺牲排序质量。总体而言,收益来自对反事实依赖偏移的建模,而不仅仅是添加更强的预测头。 ### 7.2 对保留拓扑的泛化 我们通过留一拓扑评估来测试拓扑泛化能力。每次折叠从训练集和验证集中移除一个拓扑,并评估校准器在该未见拓扑上的表现。如表2(https://arxiv.org/html/2605.30653#S7.T2)所示,CAGE-Cal在此偏移下保持稳定。其平均AUROC为82.21,接近分布内结果83.61,平均ECE仅从5.56上升至6.56。相比之下,DiscoUQ-LLM的平均AUROC为72.27,平均ECE为15.82。这表明标量分歧特征在通信结构变化时迁移效果不佳。该结果支持CAGE-Cal的关系型设计。它不依赖于拓扑标签,而是使用通信边、局部故障相关性、答案聚类和组级依赖单元。这些特征对任何拓扑都是可定义的,使得校准规则可以迁移到未见过的通信结构。 ### 7.3 纠正两种故障模式 图6(https://arxiv.org/html/2605.30653#S7.F6)测试CAGE-Cal是否纠正了之前识别的两种校准故障。在模式A(iid/TriviaQA)中,多数份额过于不自信,因为错误答案分散在弱聚类中。在模式B(chain/TruthfulQA)中,多数份额过于自信,因为通信可能将智能体集中在同一个错误答案上。在这两种情况下,CAGE-Cal都将可靠性曲线移得更接近完美校准线。因此,相同的投票份额可以根据同意或分歧的形成方式获得不同的置信度。 请参考图6的说明文字:故障模式纠正。柱状图显示专家组计数,曲线显示当示例按多数份额或按CAGE-Cal置信度分箱时的经验分箱准确率。CAGE-Cal在模式A中减少了不自信,在模式B中减少了过度自信。 ## 8 结论 我们研究了多智能体LLM系统中的置信度校准,并表明仅凭一致性是不可靠的置信度信号。我们在不同基准测试和通信拓扑上的分析识别出两种反复出现的故障模式:DUC和COC。我们提出了CAGE-Cal,一种反事实智能体图校准框架,它将通信后图与IID反事实图进行对比,以将独立证据与相关故障区分开来,从而在保持竞争性校准误差的同时改进可靠性区分。我们还引入了CAGE-Select,它使用校准后的置信度动态选择最可靠的拓扑,并提高最终专家组的准确率。总体而言,我们的结果强调了拓扑感知校准对于可靠的多智能体LLM系统的重要性。 ## 9 局限性 一个局限是智能体参与未被优化。我们从预定义的智能体池构建专家组,而真实系统可能受益于查询自适应的智能体选择,其中系统决定哪些智能体对给定查询最有用。另一个局限是通信未与校准联合优化。我们评估了一组固定的候选通信模式,但实际系统可能需要自适应通信路由,其中智能体根据中间答案和不确定性决定哪些交互最有用。将CAGE-Cal扩展到联合支持自适应智能体选择和通信路由是一个重要的未来方向(Li等人, 2026a)(https://arxiv.org/html/2605.30653#bib.bib72);Zhang等人, 2025c)(https://arxiv.org/html/2605.30653#bib.bib69);Shi等人, 2026)(https://arxiv.org/html/2605.30653#bib.bib68);Huang等人, 2026)(https://arxiv.org/html/2605.30653#bib.bib70)。 ## 参考文献 - 奖励怀疑:一种用于大语言模型校准置信度表达的强化学习方法。收录于ICLR,引用于:§1(https://arxiv.org/html/2605.30653#S1.p2.1)。 - T. Chen, H. Yao, J. Chen, E. E. Papalexakis, 和 H. Wei (2026) 每个响应都重要:通过张量分解量化基于LLM的多智能体系统的不确定性。收录于ACL,引用于:§D.4.4(https://arxiv.org/html/2605.30653#A4.SS4)。
相似文章
当规划正确执行却失败时:论基于LLM的多智能体系统的认知校准
本文识别了基于LLM的多智能体系统中的一种失败模式,即由于智能体错误判断自身知识(认知校准不当)而导致规划失败,并提出EPC-AW工作流,通过信息一致性和认知状态细化将系统级成功率提升9.75%。
基于语义级奖励的LLM校准
提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。
GAMBIT:用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准
本文介绍了 GAMBIT,这是一个用于评估多智能体 LLM 集体中对抗鲁棒性的基准测试。该基准包含自适应冒名顶替者(imposter)和重新校准(recalibration)模式,旨在解决现有浅层评估方法的局限性。
MARGIN:多智能体基础模型协调中的运行时置信度校准
MARGIN 是一种用于多智能体基础模型系统的运行时置信度校准方法,它在线学习每个智能体的校准因子,将硬基准上的成对分辨率从低于随机水平提升至70-89%,且无需保留数据或重新训练。
迈向可安全审计的大模型智能体:一种统一的图表示方法
本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。