MARGIN:多智能体基础模型协调中的运行时置信度校准
摘要
MARGIN 是一种用于多智能体基础模型系统的运行时置信度校准方法,它在线学习每个智能体的校准因子,将硬基准上的成对分辨率从低于随机水平提升至70-89%,且无需保留数据或重新训练。
arXiv:2605.22949v1 公告类型:新
摘要:基础模型智能体越来越多地部署在多智能体环境中,协调器需要决定信任哪个智能体的响应。标准方法根据智能体自我报告的置信度进行加权,但近期证据表明,基础模型的置信度存在系统性校准偏差,并且在困难任务上与准确率呈负相关。设计时校准方法(如温度缩放、Platt缩放、直方图分箱)无法解决此问题,因为它们是对保留数据拟合固定校正,在分布偏移下性能下降。
我们提出MARGIN(通过增量归一化实现的多智能体运行时评分),这是一种在线校准方法,从任务流本身学习每个智能体、每个置信度区间的校准因子,无需模型访问、保留数据或重新训练。MARGIN使用对称指数加权移动平均与贝叶斯收缩混合,具有三个超参数且默认值鲁棒。在19个基础模型、8个基准测试和超过50,000个观测中,MARGIN在分布偏移下的校准误差比最佳设计时基线低3-6倍。在多智能体选择中,原始口头置信度在困难基准上的成对分辨率低于随机水平(45-56%)。MARGIN完全纠正了这一点,将成对分辨率提升至70-89%,并在四个基准测试中的三个上超越了始终最佳模型的神谕。六个形式化命题描述了非策略智能体的收敛性、跟踪速度以及对称更新的最优性,所有预测均通过实验说明。
查看缓存全文
缓存时间: 2026/05/25 08:57
# 多智能体基础模型协调的运行时置信度校准 来源:https://arxiv.org/html/2605.22949 ###### 摘要 基础模型智能体越来越多地部署在多智能体环境中,协调器必须决定信任哪个智能体的响应。标准方法根据智能体自我报告的置信度对其进行加权,但最新证据表明,基础模型的置信度存在系统性校准偏差,并且在困难任务上与准确性呈*反向*相关。设计时校准方法(温度缩放、Platt缩放、直方图分箱)无法解决这个问题,因为它们对留出数据拟合固定的修正,并在分布偏移下性能下降。我们提出了MARGIN(通过增量归一化实现的多智能体运行时分级),这是一种在线校准方法,它从任务流本身学习每个智能体、每个置信度区间的校准因子,不需要模型访问、留出数据或重新训练。MARGIN使用带贝叶斯收缩混合的对称指数加权移动平均,并具有三个具有鲁棒默认值的超参数。在19个基础模型、8个基准测试和超过50,000个观测值上,MARGIN在分布偏移下比最佳设计时基线实现了3-6倍的校准误差降低。在多智能体选择中,原始口头化置信度在困难基准上产生的成对分辨率*比随机还差*(45-56%)。MARGIN完全纠正了这一问题,将成对分辨率提升至70-89%,并在四个基准中的三个上超过了始终最佳模型的神谕。六个形式化命题描述了收敛性、跟踪速度以及非策略智能体对称更新的最优性,所有预测均通过实验进行了说明。 关键词:置信度校准、多智能体系统、基础模型、在线学习、分布偏移。 ## 1 引言 基础模型越来越多地作为自主智能体部署,无需人工干预即可观察、推理和行动[30 (https://arxiv.org/html/2605.22949#bib.bib30),32 (https://arxiv.org/html/2605.22949#bib.bib27)]。在多智能体部署中,协调器接收来自多个智能体的预测,必须决定信任哪个响应。自然的方法是按其自我报告的置信度对每个智能体进行加权。这假设置信度具有信息性:表达90%置信度的智能体比表达70%的智能体更可能正确。这一假设是错误的。研究一致表明,基础模型的置信度存在校准偏差[12 (https://arxiv.org/html/2605.22949#bib.bib1),33 (https://arxiv.org/html/2605.22949#bib.bib12),8 (https://arxiv.org/html/2605.22949#bib.bib15)]。声称90%置信度的智能体可能只有60%的时间是正确的。更令人担忧的是,校准偏差不仅仅是精确度问题,而且可能是*反向的*:在困难任务上,较弱的模型比较强的模型表达的置信度更高,因此信任最自信的智能体系统性地选择了错误答案。在我们的实验中,原始口头化置信度在困难代码生成基准上产生的成对分辨率仅为45-56%,比抛硬币更差。 校准方法确实存在。温度缩放[12 (https://arxiv.org/html/2605.22949#bib.bib1)]、Platt缩放[26 (https://arxiv.org/html/2605.22949#bib.bib2)]和直方图分箱[24 (https://arxiv.org/html/2605.22949#bib.bib4)]从留出验证数据中学习修正函数。最近的工作将这些方法扩展到语言模型,通过辅助校准模型[27 (https://arxiv.org/html/2605.22949#bib.bib18)]、置信度调优[20 (https://arxiv.org/html/2605.22949#bib.bib19)]和分歧感知对齐[22 (https://arxiv.org/html/2605.22949#bib.bib20)]。这些都是设计时方法。它们在部署前拟合一次修正,然后修正就固定了。当部署分布与校准集不同时(这是不可避免的),修正就会退化。我们的实验表明,设计时基线在分布偏移下退化3-4倍,ECE从个位数上升到37-63。 这就产生了一个缺口。基础模型智能体在任务分布不断变化的环境中运行:新问题类型出现,用户行为改变,模型更新改变了置信度格局。目前没有现有方法能在运行时从任务流本身学习校准,而不需要访问模型内部。我们提出了MARGIN(通过增量归一化实现的多智能体运行时分级),这是一种用于多智能体基础模型系统的在线置信度校准方法。MARGIN通过对称指数加权移动平均(EWMA)持续更新每个智能体、每个置信度区间的校准因子。该方法将每个智能体视为黑盒,仅观察其预测、陈述的置信度和最终结果。它不需要留出校准数据、不需要访问logits或权重,也不需要重新训练。贝叶斯收缩混合在冷启动期间稳定估计。整个方法有三个具有鲁棒默认值的超参数(α=0.04,K=3个区间,ks=100)且计算开销可忽略不计。 我们在19个基础模型(10个云API,9个本地)、8个涵盖代码生成、问答和数学的基准测试以及超过50,000个观测值上评估了MARGIN。主要发现如下: - •分布偏移。在严重偏移下,MARGIN比最佳设计时基线实现3-6倍的校准误差降低(ECE 6-11 vs 37-63)。在中等偏移下,MARGIN大致将最佳基线减半。优势随偏移严重程度单调增加。 - •置信度反转。原始口头化置信度在四个困难基准中的三个上比随机更差(44.8-55.5%)。MARGIN完全纠正了这一点,将成对分辨率提升至70-89%。 - •多智能体选择。MARGIN校准的选择在四个基准中的三个上超过了始终最佳模型基线,并达到了神谕性能的83-97%。 - •对称最优性。对称EWMA明显优于所有非对称配置。我们证明,对于置信错误是认知性而非策略性的非策略智能体,非对称更新引入了系统性偏差,并在所有测试的非对称速率下观察到3-4倍的ECE退化,与理论预测一致。 六个形式化命题描述了MARGIN的收敛性、跟踪速度、偏差-方差权衡以及对称更新的最优性条件。理论预测在整个过程中由实证结果说明。 本文其余部分组织如下。第2节 (https://arxiv.org/html/2605.22949#S2) 调研相关工作。第3节 (https://arxiv.org/html/2605.22949#S3) 介绍方法。第4节 (https://arxiv.org/html/2605.22949#S4) 陈述形式化性质。第5-8节 (https://arxiv.org/html/2605.22949#S5) 描述实验评估。第10节 (https://arxiv.org/html/2605.22949#S10) 报告消融研究。第11节 (https://arxiv.org/html/2605.22949#S11) 讨论影响和局限性。第12节 (https://arxiv.org/html/2605.22949#S12) 总结。 ## 2 相关工作 MARGIN处于校准、多智能体协调、信誉系统和在线学习的交叉点。我们调研每个领域并识别MARGIN填补的空白。 ### 2.1 设计时校准 神经网络的校准问题由Guo等人[12 (https://arxiv.org/html/2605.22949#bib.bib1)]确立,他们表明现代深度网络校准不佳,单个学习到的温度参数可以在留出数据上显著降低期望校准误差(ECE)[24 (https://arxiv.org/html/2605.22949#bib.bib4)]。Platt缩放[26 (https://arxiv.org/html/2605.22949#bib.bib2)]拟合逻辑回归,直方图分箱[24 (https://arxiv.org/html/2605.22949#bib.bib4)]提供非参数替代方案。Minderer等人[23 (https://arxiv.org/html/2605.22949#bib.bib3)]重新审视了这些发现在较新架构上的表现,发现校准特性在不同模型家族间差异很大,但方法本身仍然是设计时:一次拟合修正并应用,无需进一步适应。 最近的工作将设计时校准扩展到大型语言模型。Shen等人[27 (https://arxiv.org/html/2605.22949#bib.bib18)]提出Thermometer,一个跨多个任务训练的辅助模型,为新任务产生校准的置信度估计。ConfTuner[20 (https://arxiv.org/html/2605.22949#bib.bib19)]对语言模型本身进行微调,以产生更好的校准口头化置信度。DACA[22 (https://arxiv.org/html/2605.22949#bib.bib20)]通过在一致示例上将后训练模型的置信度与预训练参考对齐,执行事后温度校准。这些方法代表了LLM校准的当前最先进水平。 所有设计时方法都有一个根本局限性:它们产生一个固定的修正,假设部署分布与校准集匹配。当不匹配时,修正就会退化。例如,温度缩放学习一个标量。如果模型在一种任务类型上过度自信而在另一种上自信不足,单个温度无法同时纠正两者。更关键的是,如果部署后任务分布发生变化,修正就变得陈旧,且没有恢复机制。Ovadia等人[25 (https://arxiv.org/html/2605.22949#bib.bib8)]系统性地记录了神经不确定性估计器中的这一失效模式,表明他们评估的每种方法在偏移下都严重退化。集成方法[19 (https://arxiv.org/html/2605.22949#bib.bib9)]改进了不确定性估计,但需要训练或微调多个模型。MARGIN以不同方式解决了这一局限性,通过从部署流本身在线学习校准因子,无需任何重新训练。 ### 2.2 LLM置信度与不确定性估计 LLM自我报告置信度的可靠性已被广泛研究。Kadavath等人[15 (https://arxiv.org/html/2605.22949#bib.bib13)]表明,语言模型对其自身不确定性有部分自我知识,但这种自我评估不能跨任务分布泛化。Xiong等人[33 (https://arxiv.org/html/2605.22949#bib.bib12)]对前沿模型上的置信度获取方法进行了系统评估,发现没有一种方法能在各任务上产生良好校准的输出。即使是GPT-4,其失败预测AUROC也仅为62.7%,仅略高于随机。 两篇综合性综述描绘了当前格局。Geng等人[8 (https://arxiv.org/html/2605.22949#bib.bib15)]调查了LLM的置信度估计和校准方法,涵盖口头化置信度、基于logits的方法、集成方法和事后校准。Liu等人[21 (https://arxiv.org/html/2605.22949#bib.bib14)]更广泛地调查了不确定性量化,包括贝叶斯方法和共形预测[1 (https://arxiv.org/html/2605.22949#bib.bib10)]。两篇综述都记录了校准偏差问题的严重性,但未提出运行时解决方案。 LLM的置信度信号分为三类。口头化置信度[29 (https://arxiv.org/html/2605.22949#bib.bib21)]提示模型在其预测旁边陈述一个数值置信度。这种方法广泛可用但校准不佳,因为模型倾向于过度自信,且从内部不确定性到陈述数值的映射不可靠。一致性置信度[31 (https://arxiv.org/html/2605.22949#bib.bib22)]多次运行同一查询并测量样本间的一致性。第三类工作则构建生成答案的语义级不确定性度量[17 (https://arxiv.org/html/2605.22949#bib.bib16),6 (https://arxiv.org/html/2605.22949#bib.bib17)],将多个采样输出视为在语义级别而非标记级别的潜在不确定性证据。MARGIN与置信度来源无关,并将相同的在线校准应用于各种模态。 所有调研工作中的共同线索是缺乏运行时适应。置信度估计方法产生一个分数;校准方法使用预拟合函数纠正该分数。两者都不从部署结果中学习。MARGIN填补了这一空白:它接受任何可用的置信度信号(口头化或一致性),并在运行时学习对于每个智能体和置信度水平该信号在多大程度上可以被信任。 ### 2.3 多智能体协调与辩论 多智能体辩论,多个LLM实例通过迭代讨论提出和完善答案,已成为一种突出的协调范式。Du等人[5 (https://arxiv.org/html/2605.22949#bib.bib23)]表明,多智能体辩论通过暴露模型于替代视角来改善事实性和推理能力。AutoGen[32 (https://arxiv.org/html/2605.22949#bib.bib27)]等框架将这种模式操作化用于实际部署。然而,辩论假设智能体可以富有成效地批评彼此的推理。La Malfa等人[18 (https://arxiv.org/html/2605.22949#bib.bib24)]对这一假设提出质疑,认为当前LLM多智能体系统缺乏经典MAS的核心属性,如社会互动和结构化环境。Smit等人[28 (https://arxiv.org/html/2605.22949#bib.bib25)]对辩论策略进行基准测试,发现多智能体辩论并不比更简单的提示方法(如自一致性)更可靠。 异质方法试图为多智能体协调施加结构。Zhou和Chen[34 (https://arxiv.org/html/2605.22949#bib.bib26)]提出A-HMAD,一个自适应异质辩论框架,为不同智能体类型分配不同角色,并通过共识优化器对贡献进行评分。这施加了架构结构,但未从观察到的结果中学习,任何特定智能体陈述的置信度在多大程度上值得信任。 基于置信度的模型选择代表了一种互补的方法。Gerych等人[9 (https://arxiv.org/html/2605.22949#bib.bib28)]训练一个辅助回归模型来预测每个LLM对给定查询的置信度,并将查询路由到最自信的模型-提示对。Chen等人[3 (https://arxiv.org/html/2605.22949#bib.bib29)]提出FrugalGPT,一个成本感知的级联,将查询路由到逐渐更强大的模型,直到满足学习到的置信度阈值。两种方法都假设原始或学习到的置信度是路由的可靠信号。两者都不跟踪预测结果来计算校准因子,且都不基于已证明的每个智能体、每个区间的可靠性来调整置信度值。 MARGIN在所有这些方法之下的一层运行。在置信度可用于辩论加权、层次角色分配或查询路由之前,它首先必须被校准以反映实际可靠性。一个按原始置信度对智能体加权的辩论框架会系统性地放大过度自信智能体的声音。一个将查询发送到最自信模型的路由系统会在置信度反转时系统性地选择错误的模型。MARGIN提供了校准层,使下游协调机制变得可靠。 ### 2.4 信任与信誉系统 信任与信誉系统在多智能体和分布式系统中有着悠久的历史。Jøsang等人[14 (https://arxiv.org/html/2605.22949#bib.bib31)]调查了这一领域,涵盖了计算信任模型、信誉聚合以及信任与声誉之间的区别。Beta信誉系统[13 (https://arxiv.org/html/2605.22949#bib.bib32)]使用贝塔分布的二元反馈更新,而EigenTrust[11 (https://arxiv.org/html/2605.22949#bib.bib33)]和PeerTrust[4 (https://arxiv.org/html/2605.22949#bib.bib34)]分别基于全局和局部信任度量分配信誉分数。Garimella等人[7 (https://arxiv.org/html/2605.22949#bib.bib35)]提出了动态信誉评分,结合了衰减参数以捕捉随时间变化的可靠性。这些系统假设反馈是二元
相似文章
多智能体LLM校准的反事实图
本文介绍了CAGE,一种基于反事实图的多智能体LLM系统校准方法,在TriviaQA和MMLU-Pro等基准测试上进行了评估,涵盖了多种通信拓扑结构。该方法优于现有的事后校准和LLM引导校准方法。
TeamTR:多智能体LLM协调的信任域微调
本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。
CP-Agent:一种用于反馈驱动型竞赛编程的校准风险控制代理
CP-Agent 提出了一种借助大型语言模型的校准风险控制方法,用于反馈驱动型竞赛编程,无需参数更新即可在基准测试上取得显著改进。
当规划正确执行却失败时:论基于LLM的多智能体系统的认知校准
本文识别了基于LLM的多智能体系统中的一种失败模式,即由于智能体错误判断自身知识(认知校准不当)而导致规划失败,并提出EPC-AW工作流,通过信息一致性和认知状态细化将系统级成功率提升9.75%。
面向可靠LLM判断的边际自适应置信度排序
本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。