早期令牌置信度预测多智能体LLM辩论中的推理质量
摘要
本文研究了LLM解码过程中的早期令牌置信度信号是否能预测多智能体辩论系统中的推理质量,发现前几个生成令牌的置信度是基于评分标准的论文分数的最强预测因子。
查看缓存全文
缓存时间: 2026/06/10 06:10
# 早期Token置信度可预测多智能体LLM辩论中的推理质量 来源:https://arxiv.org/html/2606.10307 Ali Keramati, Justin Cheok , Jacob Horne and Mark Warschauer 加利福尼亚大学尔湾分校 \{a\.kera,jcheok,jhorne1,markw\}@uci\.edu ###### 摘要 评估多智能体LLM系统中的推理质量具有挑战性,尤其是在没有参考答案的开放任务中。我们研究内在置信信号(解码过程中生成的token级对数概率)是否可以预测由LLM作为评判者评估的推理质量。通过基于辩论的论文评分框架,我们比较了两种ASAP论文集中,置信度代理指标与基于评分标准的评判者得分之间的关联性。我们发现,早期token置信度,特别是在生成的前几个token内,始终是推理质量最强的预测指标,优于整个序列的统计量。对对数概率轨迹的分析表明,生成的起始阶段最具异质性,因此信息量最大。我们还观察到智能体角色之间存在系统性不对称:对于支持性推理,置信度与质量之间的对齐程度强于对抗性批判。这些结果表明,早期解码动态为估计多智能体LLM系统中推理的可靠性提供了一种轻量级且有效的信号。 早期Token置信度可预测多智能体LLM辩论中的推理质量 Ali Keramati,Justin Cheok,Jacob Horne和Mark Warschauer 加利福尼亚大学尔湾分校 \{a\.kera,jcheok,jhorne1,markw\}@uci\.edu ## 1引言 大型语言模型(LLMs)的最新进展使得*多智能体系统*得以发展,其中多个专门智能体协作解决复杂任务Wu等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib10))。通过将问题分解为角色特定的子任务,此类系统已被证明在推理、规划和自动化决策等多种应用中能提高性能、鲁棒性和一致性Parmar等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib9)); Han等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib8))。在交互范式中,*辩论*已成为一种特别有效的机制:通过引出支持和反对两种论点,它鼓励探索多样化的推理路径,并暴露可能隐藏在单智能体轨迹中的错误Du等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib11))。基于评分标准(Rubric)的打分提供了一个具体且影响深远的场景,这些优势在此尤为相关。在此场景中,系统根据预定义的评分标准(该标准规定了评估标准和分数范围)分配分数Fallah等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib23))。一个典型的例子是*自动论文评分(AES)*,其中模型旨在近似人类对学生写作质量的判断Dikli (2006 (https://arxiv.org/html/2606.10307#bib.bib13))。像ASAP111https://www\.kaggle\.com/c/asap\-aes/data这样的公开基准数据集包含了提供特质级别评分标准分数(而非单个整体分数)的提示,从而支持特质特定的反馈和分析Crossley等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib12))。同时,最近的工作探索了直接使用LLM进行论文评分,既凸显了可扩展的基于评分标准评估的前景,也表明需要更好地理解LLM驱动评分行为的可靠性Packet等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib14))。 多智能体辩论非常适合基于评分标准的打分,因为它会产生可检查的中间推理产物Keramati和Warschauer (2025 (https://arxiv.org/html/2606.10307#bib.bib15))。在这些系统中,智能体扮演互补的角色,对同一输入生成多样化的视角。这种结构化的分歧可以帮助系统考虑评分标准的不同解释,并通过强制明确参与反证来减轻单路径评分偏差Du等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib11))。然而,辩论也增加了系统的复杂性:多个智能体、多条消息以及多个微妙的程序失败机会Wynn等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib16))。随着多智能体流水线变得越来越复杂,有必要添加一个评估层,不仅衡量最终分数是否与参考答案匹配,还要衡量智能体的推理是否高质量且可靠Chen等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib18))。 越来越多的研究通过*LLM作为评判者*的评估来满足这一需求,即使用另一个语言模型根据预定义标准对生成的输出进行评分。这种范式已成为人工评估的可扩展替代方案,尤其适用于参考答案不可用的开放式任务Zheng等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib17))。然而,LLM作为评判者仅提供质量的*外部*信号,一个重要的开放性问题仍然存在:这些判断在多大程度上反映了底层推理过程的真实可靠性?特别是,我们能否在生成模型中识别出与外部评判的推理质量相关的*内在信号*? 为了将基于评判者的推理评估与模型内在信号联系起来,我们转向*置信度估计*和*不确定性量化*Kang等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib20))。神经概率并非自动校准,语言模型的置信度可能与正确性不一致。尽管如此,最近的研究表明,语言模型在适当的格式下可以提供有意义的自我评估,并且LLM生成的不确定性估计是一个活跃的研究领域Mavi等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib19))。在这项工作中,我们使用解码过程中生成的token级对数概率来操作化模型置信度。直观地说,如果智能体遵循更连贯且基于证据的推理路径,模型应该为其在该路径上生成的token分配更高的概率质量,从而产生更自信的对数概率轨迹。 ## 2相关工作 ##### LLM作为评判者评估。 近期的研究已将*LLM作为评判者*确立为一种实用范式,用于在参考答案质量差或不可用的环境下评估开放式生成。先前的研究表明,强大的语言模型在指令遵循及相关任务上能与人类判断良好相关,使其成为人工评估的可扩展替代方案Chiang和Lee (2023 (https://arxiv.org/html/2606.10307#bib.bib21)); Dubois等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib22)); Zheng等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib17)); Fu等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib24)); Liu等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib25))。除了粗略的成对或标量判断外,后续工作强调需要更结构化且可解释的评估。例如,FLASK引入了细粒度的、基于评分标准的评估,并展示了与技能无关的评分相比,其可解释性和可靠性有所提高Ye等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib26))。尽管取得了这些进展,越来越多的元评估工作凸显了LLM评判者的根本局限性。先前的研究记录了系统性偏差,如冗长和位置偏差、有限的自我一致性,以及对提示设计和评估协议的敏感性Wang等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib27)); Zeng等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib28)); Zheng等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib17)); Liu等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib25))。作为回应,最近的方法提出了更精细的评判策略,包括思维链和基于分解的评估、多维度评分、基于参考的比较,以及像PRD和ChatEval这样的多智能体或辩论风格评估器Gong和Mao (2023 (https://arxiv.org/html/2606.10307#bib.bib29)); Saha等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib30)); Li等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib31)); Chan等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib32)); Jeong等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib33))。然而,这些方法有效性的证据仍然参差不齐。REIFE表明,评估协议带来的收益强烈依赖于基础模型和数据集,强调了多样化且良好校准的评估设置的必要性Liu等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib34))。类似地,Huang等人证明,微调的评判模型(例如JudgeLM、PandaLM、Auto-J、Prometheus)通常无法泛化到训练领域之外,其行为更像任务特定的分类器而非稳健的评估器Huang等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib35))。 ##### LLM中的置信度与不确定性。 另一条研究线调查是否可以使用*内在置信信号*来评估LLM输出的可靠性。校准和不确定性量化方面的研究表明,神经概率具有信息性,但并非天生校准良好,这意味着高置信度并不总是对应正确性Desai和Durrett (2020 (https://arxiv.org/html/2606.10307#bib.bib36)); Kadavath等人 (2022 (https://arxiv.org/html/2606.10307#bib.bib37)); Quevedo等人 (2024 (https://arxiv.org/html/2606.10307#bib.bib38))。尽管如此,token级概率仍然是生成过程中最直接的信号之一,并已广泛用于通过基于对数概率和熵的特征来检测幻觉、事实不一致和不确定的输出Liu等人 (2022 (https://arxiv.org/html/2606.10307#bib.bib39)); Manakul等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib40)); Mallen等人 (2023 (https://arxiv.org/html/2606.10307#bib.bib41))。此外,关于自我评估的研究表明,LLMs有时可以用自然语言产生有用的置信度估计,尽管这些口头表达的信号可能与底层模型的不确定性存在差异,尤其是在多步推理场景中Kadavath等人 (2022 (https://arxiv.org/html/2606.10307#bib.bib37)); Mavi等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib19))。因此,最近的综述提倡采用可扩展的不确定性估计方法,将内在解码时间信号与下游评估指标结合起来Kang等人 (2025 (https://arxiv.org/html/2606.10307#bib.bib20))。 ## 3方法论 图1 (https://arxiv.org/html/2606.10307#S3.F1)提供了我们框架的概述,该框架建立在先前工作中引入的多智能体辩论架构之上Keramati和Warschauer (2025 (https://arxiv.org/html/2606.10307#bib.bib15)),并扩展了一个用于推理分析的LLM元评估模块。在第一阶段,一个Advocate(支持者)和一个Skeptic(质疑者)针对给定的论文-评分标准对生成相反的论点,同时暴露token级对数概率作为内在置信信号。在第二阶段,一个独立的元评估器根据基于评分标准的维度(如指令遵循、论证质量和证据依据)对每个论点进行评分。这种设计能够系统地分析内在置信信号与外部评判的推理质量之间的关系。 参照标题 图1:提出的多智能体辩论和LLM作为评判者评估框架概述。 ### 3\.1问题设定 令E\\mathcal\{E\}表示论文集合,R\\mathcal\{R\}表示评分标准特质集合。每篇论文e∈Ee\\in\\mathcal\{E\}由非结构化文本及可选元数据组成,每个评分标准特质r∈Rr\\in\\mathcal\{R\}指定了一个文本描述和评分范围[ m r , M r ][m\_\{r\},M\_\{r\}]。对于每对论文-特质组合( e , r )(e,r),辩论系统生成一份记录τ ( e , r ) = ( a , k ),\\tau(e,r)=(a,\\,k),其中a是Advocate的论点,k是Skeptic的反驳。两个论点均由语言模型根据论文、评分标准和对话历史生成;模型同时生成token级对数概率,反映其内部对候选续写内容的置信度。给定一组辩论回应\{ ( a i , k i ) \}\\\{ (a\_\{i\},k\_\{i\}) \\\},每个回应配有其置信信号cic\_\{i\}和元评估得分qiq\_\{i\},我们的目标是分析token级概率信号是否与外部评判的智能体推理质量相关,从而确定内在置信度能否作为多智能体LLM系统中推理可靠性的指标。 ### 3\.2智能体与角色 辩论框架包含三个专门的智能体,它们对每对论文-特质组合顺序交互。Advocate通过构建一个论点来启动辩论,该论点强调论文相对于评分标准特质的优势,仅使用论文文本中的支持性证据,而不给出分数。Skeptic通过识别论文相对于同一标准的局限性或缺陷进行回应,产生一个基于证据的反驳,挑战Advocate的主张,同样不给出分数。Synthesizer-Judge Scorer(合成器-评判评分者)阅读完整的记录,并在允许的评分标准范围内产生最终的特质级分数。由于该智能体执行受约束的决策任务,其输出可以直接使用基于准确率的指标与真实分数进行评估,因此不在本研究范围内。我们的分析仅集中在Advocate和Skeptic产生的开放式推理上。所有三个智能体的完整系统提示见附录C (https://arxiv.org/html/2606.10307#A3)。 ### 3\.3来自Token对数概率的置信信号 我们使用生成过程中获得的token级对数概率来估计模型置信度。对于生成长度为TT个token的回应,模型在每个解码步骤产生一个对数概率: l t = log p ( t t ∣ t 0 。。。t t − 1 ) l\_t = \\log p(t\_t | t\_0 ... t\_{t-1})。这些值构成了一个长度为T的对数概率向量L = [ l 1 ,l 2 ,。..,l T ] L = [l\_1, l\_2, ..., l\_T]。在处理中,我们使用以下聚合代理指标: **平均对数概率**:μ L = 1 T Σ t = 1 T l t \\mu\_L = \\frac\{1\}\{T\} \\sum\_\{t=1\}^T l\_t,反映整个序列的平均置信度。 **最后token的对数概率**:l T l\_T,聚焦于生成的最终点。 **前K个token的平均对数概率**:μ L ( K ) = 1 K Σ t = 1 K l t \\mu\_L(K) = \\frac\{1\}\{K\} \\sum\_\{t=1\}^K l\_t,捕捉早期解码动态。我们选择K = {1, 5, 10}进行实验。 **对数概率趋势系数**:对序数时间步长{1,...,T}上的对数概率L进行线性回归的斜率a。正的aa> 0表示跨片段信心增长,而a< 0a<0表示信心下降。 ### 3\.4LLM作为评判者的元评估 由于Advocate和Skeptic生成的是开放式的论证性推理而非离散标签,其输出无法使用基于参考的指标(如准确率或n-gram重叠)进行评估。因此,我们引入一个次级评估阶段,在该阶段中,另一个语言模型沿着基于评分标准的维度判断每个智能体的推理质量。 #### 3\.4\.1提示重建 对于每个智能体回应,我们重建该智能体最初收到的完整提示上下文,包括:(i) 描述其角色和行为约束的智能体系统指令,(ii) 评分标准特质定义,(iii) 论文文本,以及 (iv) 智能体生成的回应。提供这个完整的上下文使评估者能够评估角色遵守情况以及所用证据的适当性。 #### 3\.4\.2评估维度 元评估器沿着三个维度对每个回应进行评分: ##### 指令遵循。 智能体是否保持其分配的角色,并避免被禁止的行为。 ##### 论证质量。 主张是否得到明确推理的支持,该推理将证据与结论连贯地联系起来。 ##### 证据依据。 论点是否参考了论文中具体的、特定的段落,而不是依赖于模糊或泛泛的陈述。 #### 3\.4\.3评分协议 每个维度i相似文章
自信的撒谎者:利用对数概率和LLM-as-Judge诊断多智能体辩论
本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。
@rohanpaul_ai: 斯坦福新论文指出,在同等推理预算下,单个LLM通常比多个……更好地解决多跳问题
一项新的斯坦福论文显示,在同等推理token预算下,单个LLM在多跳推理任务上通常优于多智能体系统,而多智能体设置带来的提升往往来自更多计算而非架构优势。该论文利用数据处理不等式解释为什么交接中的信息丢失会损害多智能体性能,并指出上下文质量是多智能体系统能够提供益处的关键因素。
是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?
本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。
潜在智能体:一种内化多智能体辩论的后训练方法
波士顿大学的研究人员提出了 IMAD(内化多智能体辩论),这是一个两阶段微调框架,能够将多智能体辩论过程提炼至单个 LLM 中,在匹配甚至超越显式多智能体辩论性能的同时,实现最高 93% 的 token 用量缩减。该研究还揭示了激活空间中存在特定于智能体的子空间,从而可以对内化推理行为进行有效控制,包括抑制恶意智能体的影响。
通过纠正少数决策令牌即可恢复推理能力
本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。