自信的撒谎者:利用对数概率和LLM-as-Judge诊断多智能体辩论

arXiv cs.CL 论文

摘要

本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。

arXiv:2606.10296v1 公告类型:新 摘要:多智能体辩论系统通常仅根据最终答案是否正确来评估,忽视了辩论旨在产生的中间推理质量。本文研究了多智能体辩论中三个信号之间的关系:推理令牌上的令牌级对数概率分布、分配给这些令牌的LLM-as-judge评分标准分数以及最终任务准确性。我们考察了内部置信信号是否能够预测外部评估的推理质量,以及这两个信号是否与任务正确性一致,涉及三个领域:评分标准评分、数学推理和事实问答。我们的框架将双智能体辩论架构——一个Constructor和一个Auditor——与一个LLM-as-judge配对,该评判根据指令遵循、论证质量和证据依据对每个智能体的推理进行评分,并附带一个关键失败标志。在评分标准评分领域的实验揭示了一致的四阶段置信度轨迹和显著的角色不对称性:对于Constructor而言,置信度与评判推理质量的一致性大约比Auditor强两倍,并且基于置信度的关键推理失败检测对于Constructor(AUROC 0.804)明显比对于Auditor(0.634)更可靠。这些发现推动了本文提出的更广泛的跨领域调查。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:10

# 自信的说谎者:利用对数概率和LLM作为评判诊断多智能体辩论

来源:https://arxiv.org/html/2606.10296

Ali Keramati, Justin Cheok, Jacob Horne 以及 Mark Warschauer  
加利福尼亚大学尔湾分校  
\{a.kera,jcheok,jhorne1,markw\}@uci.edu

###### 摘要

多智能体辩论系统通常仅根据最终答案是否正确来评估,忽略了辩论旨在产生的中级推理质量。本文研究了多智能体辩论中三个信号之间的关系:推理令牌上的令牌级对数概率分布、分配给这些令牌的LLM作为评判量规分数,以及最终任务准确率。我们考察内在置信度信号是否能预测外部评估的推理质量,以及任一信号是否与任务正确性一致,应用于三个领域:基于量规的评分、数学推理和事实问答。我们的框架将双智能体辩论架构——一个构建者(Constructor)和一个审计者(Auditor)——与一个LLM作为评判相结合,该评判根据指令遵循、论证质量和证据基础对每个智能体的推理进行评分,并附带一个关键失败标志。在量规评分领域的实验揭示了一个一致的四阶段置信轨迹和显著的角色不对称性:构建者的置信度与评判的推理质量之间的关联强度大约是审计者的两倍,并且基于置信度检测关键推理失败对构建者(AUROC 0.804)明显比审计者(0.634)更可靠。这些发现为本文提出的更广泛的跨领域研究提供了动机。

自信的说谎者:利用对数概率和LLM作为评判诊断多智能体辩论

Ali Keramati, Justin Cheok, Jacob Horne 以及 Mark Warschauer  
加利福尼亚大学尔湾分校  
\{a.kera, jcheok, jhorne1, markw\}@uci.edu

## 1 引言

大型语言模型(LLMs)的快速发展导致了多智能体系统的出现,其中多个专门的智能体协作解决复杂任务(Wu et al. (2023))。这类系统已被证明在广泛的应用中能提高性能、鲁棒性和一致性,包括推理、规划和自动决策(Parmar et al. (2025))。通过将任务分解为特定角色的子任务,与单智能体方法相比,多智能体框架能够更结构化地探索解决方案空间(Fallah et al. (2024); Han et al. (2026))。在多智能体交互协议中,*辩论*已成为一种特别引人注目的机制:通过激发支持和反对的论点,辩论鼓励探索多种推理路径,并能揭示在单一轨迹中可能隐藏的失败模式(Du et al. (2023))。

尽管前景广阔,多智能体辩论系统提出了一个基本的评估挑战。在大多数设置中,用于评估智能体行为的唯一信号是最终答案是否与参考答案匹配,然而这种二元信号未能捕捉辩论期间产生的中级推理的质量、连贯性或可靠性。一个智能体可能通过有缺陷的推理得出正确答案,或者产生一个深思熟虑的论点却导致一个略微错误的结论。仅评估终点就丢弃了辩论本意要引出的丰富的中间痕迹。这不仅是一个理论上的担忧:随着多智能体流水线复杂性的增长,新兴的失败模式可能对基于准确率的指标不可见,但可以在智能体推理的结构中被检测到(Wynn et al. (2025))。

越来越多的工作通过*LLM作为评判*评估来解决这一需求,其中使用一个强大的语言模型根据指定标准对其他模型输出进行评分(Zheng et al. (2023))。LLM作为评判方法已成为开放式任务中人工评估的可扩展替代方案,并已扩展到基于量规和细粒度的评分协议,以评估中级推理而非仅评估最终输出(Ye et al. (2024); Chan et al. (2023))。应用于辩论,量规驱动的评判可以评估智能体的论点是否逻辑严谨、是否考虑了反证、是否实质性地参与了任务,这些维度是最终准确率无法单独捕捉的(Chen et al. (2025))。然而,一个重要的问题仍然存在:*这些对推理质量的外部评估是否反映了模型自身内部生成过程中的某种系统性特征?*

为了回答这个问题,我们转向通过令牌级对数概率进行的*置信度估计*。直观地说,如果一个智能体遵循更连贯、更有证据支持的推理路径,模型应该将更高的概率质量分配给沿着该路径生成的令牌,从而产生更集中的对数概率轨迹。相反,不确定或矛盾的推理可能表现为推理令牌上的高熵或尖峰概率分布(Quevedo et al. (2024); Kang et al. (2025))。这个框架提出了一个直接的实证问题:*智能体推理的令牌级对数概率在多大程度上与由外部LLM评判所评估的该推理质量相关,并且任一信号是否与下游任务准确率一致?*

本文提出了一项系统性的研究,探究这三个信号——推理令牌上的对数概率分布、应用于这些令牌的LLM作为评判量规分数以及最终任务准确率——在多样化多智能体辩论任务集合中的关系。我们不是专注于任何单一领域,而是在一般的多智能体辩论设置中研究这组三元信号,使用诸如基于量规的评分、数学推理和事实问答等应用领域作为测试平台。我们的目标是描述内部置信信号如何以及何时与外部评估的推理质量对齐,哪些任务和辩论配置导致最大的分歧,以及这种分歧是否可用于诊断性地改进多智能体系统设计。

本文解决了以下关键研究问题:

##### RQ 1: 辩论中的对数概率动态
- • RQ 1.1 在辩论回合中,令牌级对数概率分布如何演化?表达更自信推理(更高对数概率)的智能体是否会产生由LLM评判评估的更高质量的论点?
- • RQ 1.2 基于对数概率的特征能否独立于中间推理内容预测最终任务准确率?

##### RQ 2: 辩论推理的LLM作为评判评估
- • RQ 2.1 应如何设计量规标准来评估多智能体辩论中的中间推理令牌?LLM评判在不同模型和协议之间的一致性如何?
- • RQ 2.2 在不同任务中,LLM作为评判对中间推理的评分与最终答案正确性之间的相关程度如何?

##### RQ 3: 跨信号关联与诊断
- • RQ 3.1 对数概率分布、LLM作为评判推理分数和任务准确率之间是否存在系统性关联?这种关联是否因任务类型、模型系列或辩论配置而异?
- • RQ 3.2 内部置信信号与外部推理质量评估之间的分歧是否能被用来诊断多智能体辩论系统中的失败模式?

## 2 相关工作

### 2.1 多智能体辩论与推理

多智能体辩论已被提作为一种机制,通过让多个模型对候选答案进行支持和反对的论证,以提高LLM系统的事实性、一致性和鲁棒性(Du et al. (2023))。实证研究表明,结构化的分歧可以减少幻觉,并改善在数学、逻辑和问答等基准上的推理(Chen et al. (2025); Wynn et al. (2025))。除了成对辩论,像AutoGen这样的多智能体框架支持更丰富的交互拓扑,从而实现角色专业化和更复杂的审议(Wu et al. (2023))。然而,这种增加的复杂性带来了新的评估挑战:虽然辩论产生了丰富的中间推理痕迹,但大多数先前的工作仍然纯粹基于最终答案准确率评估这些系统,留待评估中间论证的质量(Han et al. (2026))。我们的工作直接针对这一差距,将中间推理痕迹与LLM作为评判量规分数和模型内部的对数概率信号配对。

### 2.2 LLM作为评判评估

近期工作已将LLM作为评判确立为一种实用范式,用于在参考答案薄弱或不可用时评估开放式生成,表明强大的专有模型通常能在指令遵循及相关任务上很好地与人工判断相关(Chiang and Lee (2023); Dubois et al. (2025); Zheng et al. (2023); Fu et al. (2024); Liu et al. (2023))。除了粗略的成对或标量判断,第二项工作论证评估应该更加结构化和可解释:FLASK引入了细粒度、基于技能的评估,并表明量规驱动的评估可以在可解释性和可靠性上优于与技能无关的评分(Ye et al. (2024))。更新近的协议包含了思维链、多维度评分以及像PRD和ChatEval这样的多智能体评估器,所有这些都旨在引出更可靠的判断(Li et al. (2024); Chan et al. (2023); Jeong et al. (2024))。与此同时,日益增长的元评估文献记录了一些严重的局限性:LLM评判表现出冗长和位置偏差、有限的自我一致性,以及对提示和协议设计的敏感性(Wang et al. (2024); Zeng et al. (2024))。REIFE表明协议收益在很大程度上取决于基础评估器和数据集,并且可靠的元评估需要多样化的模型和人工标注的测试平台(Liu et al. (2025))。类似地,微调的开源评判模型如JudgeLM, PandaLM, Auto-J, 和Prometheus在领域内表现良好,但在泛化和特定方面评估上落后于前沿模型,表明它们的行为更像任务特定的分类器而非通用评估器(Huang et al. (2025))。我们的工作与这部分文献相交,是将LLM作为评判量规评估专门应用于辩论中的中间推理令牌,在这种设置中,最终准确率或粗略的成对判断都不能充分捕捉推理质量,并且我们研究了关于推理的评判分数是否与模型自身的内部置信信号相关。

### 2.3 置信度估计与不确定性量化

LLM中的置信度估计已成为输出评估的重要补充,先前的工作考察了内部生成信号是否可以指示模型推理何时值得信赖。关于校准和不确定性量化的研究表明,神经概率具有参考价值,但本质上并非经过良好校准,因此高模型置信度并不总是意味着正确性(Desai and Durrett (2020); Kadavath et al. (2022); Quevedo et al. (2024))。即便如此,令牌级概率仍然是解码过程中可用的最直接的内在信号之一,越来越多的工作使用基于对数概率和熵的特征来检测幻觉、事实错误和不确定生成(Liu et al. (2022); Manakul et al. (2023); Mallen et al. (2023))。与此同时,关于自我评估的研究表明,LLMs有时可以报告有用的置信度判断,但口头表达的置信度可能与模型的潜在不确定性不同,特别是在多步骤推理任务中(Kadavath et al. (2022); Mavi et al. (2025))。最近的综述主张利用内在解码时信号与下游评估标准相结合的可扩展不确定性估计方法(Kang et al. (2025))。虽然这部分工作主要集中在单模型生成和最终答案的不确定性上,但我们的工作将这些思想扩展到多智能体辩论设置。我们研究了对数概率分布不仅在最终输出层面的行为,还跨越多轮辩论中产生的整个中间推理令牌序列,并考察这些分布是否与LLM评判提供的外部质量信号相关。

## 3 方法论

图1 概述了我们的框架,该框架在三个阶段运行:(1) 一个多智能体辩论系统,针对任务输入生成结构化推理,(2) 一个置信度提取模块,捕获来自每个智能体生成的令牌级对数概率轨迹,以及 (3) 一个LLM作为评判元评估模块,根据基于量规的标准对每个智能体的中间推理进行评分。总的来说,这些阶段为每个辩论实例产生三个并行信号(对数概率特征、评判分数和下游任务准确率),使我们能够研究它们的联合分布和相互相关性。这种设计直接解决了第1节中概述的RQ 1–RQ 3。

查看图注

图1:提出框架的概述。多智能体辩论系统针对任务输入生成结构化推理;在每个生成同时提取令牌级对数概率;一个独立的LLM作为评判模块对推理进行评分;所有三个信号都被关联并进行分析。

### 3.1 问题设定

令X\\mathcal\{X\}表示任务输入的集合,C\\mathcal\{C\}表示任务上下文的集合(例如,量规定义、问题提示、评分标准或参考信息),其中y∗∈Yy^\{\*\}\\in\\mathcal\{Y\}表示每个输入的真实标签。我们研究一般的多智能体辩论设置,其中两个论证智能体针对给定输入x∈Xx\\in\\mathcal\{X\},基于任务上下文c∈Cc\\in\\mathcal\{C\},产生对立或互补的论点。第三个智能体,合成者(Synthesizer),读取完整的辩论记录并产生最终的任务输出。

相似文章

潜在智能体:一种内化多智能体辩论的后训练方法

Hacker News Top

波士顿大学的研究人员提出了 IMAD(内化多智能体辩论),这是一个两阶段微调框架,能够将多智能体辩论过程提炼至单个 LLM 中,在匹配甚至超越显式多智能体辩论性能的同时,实现最高 93% 的 token 用量缩减。该研究还揭示了激活空间中存在特定于智能体的子空间,从而可以对内化推理行为进行有效控制,包括抑制恶意智能体的影响。

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。