ARBITER: 推理轨迹盆地与测试时采样中的多数投票失败

arXiv cs.LG 论文

摘要

本文发现,语言模型在测试时采样中的推理轨迹会聚集成‘推理盆地’,当主导盆地错误时,会导致多数投票失败。本文提出了ARBITER,一种与模型无关的方法,利用模型自身输出和隐藏状态中的保守加性证据,无需外部数据即可提高准确性。

arXiv:2605.26172v1 公告类型:新 摘要:当语言模型使用测试时采样时,它们会生成多个推理轨迹,并通过多数投票选择答案。我们表明,这些轨迹并非独立:对于给定问题,它们会聚集成少量簇,即推理盆地,每个盆地由归一化的最终答案以及达到该答案的解决方案定义。因此,多数投票会选择最稳定的盆地而非最准确的盆地,从而导致错误多数失败,即正确答案存在但被否决。我们提出了ARBITER,一种与模型无关的方法,仅使用基础模型自身的采样输出、隐藏状态和派生证据来建模盆地之间的交互。大多数直接纠正策略都失败;ARBITER 则在共识之上使用保守加性证据。在其最简单的无参数形式中,ARBITER-{\Delta} 将相同模型的证据添加到多数先验中,而 ARBITER-Enc 则通过来自完整解决方案的隐藏状态的有限残差信号来增强这一过程。在 GSM8K 上使用 Qwen3-4B,K=24 个样本的共识达到约 94% 中段范围,而同一池的 top-2 预言机达到约 96% 中段范围。ARBITER 无需任何外部信息即可恢复这些案例的一个子集。在三个模型系列和三个数学基准测试中,它取得了持续改进,且没有净负例;例如,在 Llama-3.1-8B 的 MMLU-HS-Math 上,它将准确率从约 78% 中段提高到约 82% 中段,恢复了约 22% 的可用预言机空间,这表明该空间可以从样本池本身部分恢复。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:04

# ARBITER:推理轨迹盆地与测试时采样中的多数表决失败  
来源:https://arxiv.org/html/2605.26172  

Meng Cai Lars Kulik Farhana Choudhury  
墨尔本大学计算与信息系统学院  
meng\.cai1@student\.unimelb\.edu\.au lkulik@unimelb\.edu\.au farhana\.choudhury@unimelb\.edu\.au  

###### 摘要  

当语言模型使用测试时采样时,它们会生成多条推理轨迹,并通过多数表决选择答案。我们表明这些轨迹并非独立:对于给定的问题,它们会汇聚成少量集群,即*推理盆地*,每个盆地由归一化的最终答案及到达该答案的解法共同定义。因此,多数表决选择的是最稳定的盆地,而非最准确的盆地,从而产生*错误多数失败*——正确答案存在但被否决。我们提出Arbiter,一种与模型无关的方法,它仅利用基础模型自身的采样输出、隐藏状态以及衍生证据来建模盆地间的交互。大多数直接纠正策略均告失败;而Arbiter则采用在共识之上添加保守的累加证据的方式。在最简单的无参数形式中,Arbiter\-Δ\\Delta向多数先验添加同模型证据;Arbiter\-Enc则在此基础上,利用完整解法隐藏状态中的有界残差信号进行增强。在GSM8K基准上,使用Qwen3\-4B模型,对K=24K\{=\}24个样本的共识准确率达到约94.5%左右,而同池中的top\-2 oracle则达到约96.5%左右。Arbiter在零外部信息的情况下恢复了这些案例中的一部分。跨三个模型家族和三个数学基准,它均取得了一致的提升,且未出现净负值案例;例如,在Llama\-3.1\-8B模型的MMLU\-HS\-Math基准上,它将准确率从约78.5%提升至约82.5%,恢复了大约22%22\\%的可用oracle空间,这表明该空间可以部分地从样本池本身恢复。  

## 1 引言  

在推理时改进语言模型的一种标准方法是采样多条推理轨迹,然后通过多数表决聚合其最终答案。这一基线已经很强:在多个模型和基准上,它通常优于贪婪解码,并且正确答案往往存在于采样池中的某个位置。因此,剩余的挑战不仅是生成问题,更是后共识恢复:系统能否在多数共识已经正确的情况下,在不降低性能的前提下,可靠地识别多数答案错误的情况?  

我们发现采样轨迹会汇聚成少量连贯的答案盆地:这些解法组在任务特定归一化后,提取出的最终答案相互匹配。因此,多数表决起到了主导盆地选择器的作用。这通常效果良好,但仍存在一个重要的失败情况:主导盆地可能是错误的,而正确的挑战者盆地已存在于采样池中。这些错误多数案例揭示了采样池内部存在大量可恢复的空间。在许多例子中,正确答案已存在于观察到的挑战者盆地中,但被更大的错误盆地所否决。然而,我们的实验表明,可靠地恢复这些案例出乎意料地困难。广泛的自我审查、隐藏状态重排序、轨迹连贯性评分、图路由、框架优先替换以及直接的盆地选择方法,往往会在揭示推理过程中真实结构的同时,降低强大的共识基线性能。因此,隐藏状态结构和轨迹连贯性并非正确性的可靠指标。  

这一经验模式引出了一个更保守的原则:共识应保持为先验。只有当额外的同模型证据积累支持挑战者盆地时,挑战者盆地才能覆盖主导盆地。可靠的恢复并非来自替换共识,而是来自在其之上叠加的稀疏累加证据。现有方法之所以不足,是因为它们孤立地评估轨迹。采样与聚合方法依赖于一致性,但并未建模盆地间的关系。隐藏状态评分器、自我验证方法以及基于熵的方法评估的是单个轨迹。它们不直接建模替代盆地之间的比较证据。因此,它们在确定少数派盆地何时应覆盖稳定多数时显得力不从心。  

我们提出Arbiter,一个基于盆地结构的后共识选择框架。核心原则很简单:*共识保持为先验*。只有当额外的同模型证据支持挑战者盆地时,共识才被覆盖。对于每个问题,Arbiter将采样轨迹分组到盆地中,并构建其结构的紧凑表示。然后,它通过让模型在竞争盆地假设下重新解释、比较和重新求解,收集额外的同模型证据,并相对于主导盆地累加这些证据。  

我们的方法在严格的零外部信息环境下运行。它仅使用模型自身的采样输出和内部表示。它不依赖外部验证器或额外的训练信号。这隔离了一个问题:模型自身是否已经包含足够的内部证据来从错误多数失败中恢复?中心经验教训是,后共识恢复必须保守。许多共识错误原则上是可以恢复的,但广泛的纠正策略往往会损害比它们修复的更多正确案例。轨迹连贯性和隐藏状态结构等信号揭示了采样池中的真实组织,但并未可靠地识别正确性。可靠的提升反而来自稀疏、高精度的覆盖,这些覆盖由盆地级别的累加证据支持。  

我们的贡献如下。  
1. (1) 我们识别出*错误多数失败*是共识解码的一个关键失败案例。采样轨迹汇聚成少量推理盆地,而多数表决选择的是最稳定的盆地,而非最准确的盆地。  
2. (2) 我们提出Arbiter,一个基于盆地结构的框架,通过相对于主导盆地累加挑战者盆地的同模型证据来执行后共识选择,同时将共识视为先验。  
3. (3) 我们表明后共识恢复本质上是选择性的。在广泛的自我审查、隐藏状态、图路由和基于框架的干预措施中,大多数直接纠正策略会降低强大的共识基线。可靠的恢复反而来自稀疏、高精度的累加证据。  

## 2 相关工作  

测试时采样与答案聚合。思维链提示与自我一致性确立了采样多条推理轨迹并聚合最终答案的标准方法 (Wei et al., 2022 (https://arxiv.org/html/2605.26172#bib.bib28); Wang et al., 2023 (https://arxiv.org/html/2605.26172#bib.bib27))。通用自我一致性通过让模型自身在候选解法中进行选择(超越精确答案的多数投票)扩展了这一思想 (Chen et al., 2023 (https://arxiv.org/html/2605.26172#bib.bib3))。更近期的测试时缩放研究关注如何跨问题分配推理计算资源,而非均匀使用 (Snell et al., 2025 (https://arxiv.org/html/2605.26172#bib.bib25))。这些方法激发了我们的基线:原始共识是一个强大的主导盆地估计器。Arbiter保留该估计器作为先验,并研究何时同模型证据证明选择另一个观察到的盆地是合理的。  

隐藏状态与轨迹信号。先前的工作使用隐藏状态、令牌不确定性、步骤级剪枝、潜在动作或主动精炼来评估或控制推理 (Liang et al., 2026 (https://arxiv.org/html/2605.26172#bib.bib17); Ghasemabadi and Niu, 2025 (https://arxiv.org/html/2605.26172#bib.bib5); Chen et al., 2026 (https://arxiv.org/html/2605.26172#bib.bib2); Li et al., 2025 (https://arxiv.org/html/2605.26172#bib.bib15); Han et al., 2025 (https://arxiv.org/html/2605.26172#bib.bib7); Shi et al., 2026 (https://arxiv.org/html/2605.26172#bib.bib23))。近期工作还研究了跨采样推理轨迹的语义或潜在结构,包括语义一致性、潜在多数集选择以及隐藏状态聚类方法 (Knappe et al., 2024 (https://arxiv.org/html/2605.26172#bib.bib11); Oh and Lee, 2025 (https://arxiv.org/html/2605.26172#bib.bib21); Liang et al., 2025 (https://arxiv.org/html/2605.26172#bib.bib16))。最近的轨迹级视图进一步支持将完整解法视为通过潜在计算的路径,而非孤立令牌状态的袋子 (Liang et al., 2026 (https://arxiv.org/html/2605.26172#bib.bib17); Shi et al., 2026 (https://arxiv.org/html/2605.26172#bib.bib23))。这些文献支持了模型内部计算包含有用结构的观点。我们的结果强调了一个重要的局限性:结构并非真理。连贯性、稳定性和图重构常常检测到的是承诺或风险,而非正确性。因此,我们将轨迹编码器和盆地图视为残差或诊断组件,而非独立的选择器。  

自我纠正的局限性。迭代自我反馈和反思框架表明,模型生成的反馈可以在某些设置下改进输出 (Madaan et al., 2023 (https://arxiv.org/html/2605.26172#bib.bib19); Shinn et al., 2023 (https://arxiv.org/html/2605.26172#bib.bib24))。并行的工作表明,没有可靠验证器的无引导自我纠正可能很弱甚至有害 (Huang et al., 2024 (https://arxiv.org/html/2605.26172#bib.bib10); Zhang et al., 2024 (https://arxiv.org/html/2605.26172#bib.bib31); Vasudev et al., 2026 (https://arxiv.org/html/2605.26172#bib.bib26))。这与我们更广泛的实验结果一致:广泛的自我审查、集群判断和直接替换策略常常破坏已经正确的共识答案。Arbiter的回应是使纠正变得稀疏、可累加,并通过恢复/退化计数实现可审计性。  

框架与语义分解。数学推理基准和扰动研究表明,措辞、实体、单位和符号形式会强烈影响模型行为 (Cobbe et al., 2021 (https://arxiv.org/html/2605.26172#bib.bib4); Hendrycks et al., 2021a (https://arxiv.org/html/2605.26172#bib.bib8), b (https://arxiv.org/html/2605.26172#bib.bib9); Li et al., 2024 (https://arxiv.org/html/2605.26172#bib.bib14); Mirzadeh et al., 2024 (https://arxiv.org/html/2605.26172#bib.bib20))。我们使用同模型语义描述来揭示观察到的答案盆地的竞争性解释。与框架优先替换不同,Arbiter\-Δ\\Delta仅使用这些描述来在原始共识先验之上收集累加证据。  

## 3 问题设定  

我们研究冻结自回归语言模型MM在*零外部信息*条件下的*后共识恢复*:选择器仅使用模型自身的采样输出、内部状态以及从它们推导出的证据。真实标签仅在预测后用于评估。对于每个问题qq,原始基线是普通的采样生成、最终答案聚类和多数选择。以下符号定义了本文中使用的对象。  

一个*候选解法*是一个完整的生成输出。仅当涉及隐藏状态时才使用*轨迹*一词:它是在冻结模型生成该完整解法时逐层、逐令牌记录的隐藏状态序列。一个*答案盆地*是一个观察到的最终答案集群,连同生成该答案的解法及其隐藏状态轨迹。我们通过最终答案的一致性来定义盆地,而不是要求该盆地中的所有解法共享相同的推理路径。主导盆地是最大的答案盆地;挑战者盆地是所有其他观察到的盆地。公式 (D1)–(D10) 给出了正式定义。作为参考,附录B (https://arxiv.org/html/2605.26172#A2) 列出了这些定义以及方法分数中使用的每个符号。  

S\(q\)=\{s1,...,sK\},si=\(yi,1,...,yi,Ti\)\\displaystyle\\mathcal\{S\}\(q\)=\\\{s\_\{1\},\\ldots,s\_\{K\}\\\},\\quad s\_\{i\}=\(y\_\{i,1\},\\ldots,y\_\{i,T\_\{i\}\}\) 原始候选池 (D1)  
Hi=\(hi,1\(1:L\),...,hi,Ti\(1:L\)\),hi,t\(l\)∈Rdmodel\\displaystyle H\_\{i\}=\\bigl\(h\_\{i,1\}^\{\(1:L\)\},\\ldots,h\_\{i,T\_\{i\}\}^\{\(1:L\)\}\\bigr\),\\quad h\_\{i,t\}^\{\(\\ell\)\}\\in\\mathbb\{R\}^\{d\_\{\\mathrm\{model\}\}\} 隐藏状态轨迹 (D2)  
ai=Ans\(si\)\\displaystyle a\_\{i\}=\\mathrm\{Ans\}\(s\_\{i\}\) 任务归一化最终答案 (D3)  
Cr\(q\)=\{i:ai=αr\},\|C1\|≥\|C2\|≥⋯≥\|Cm\(q\)\|\\displaystyle C\_\{r\}\(q\)=\\\{\\,i:a\_\{i\}=\\alpha\_\{r\}\\,\\\},\\quad\|C\_\{1\}\|\\geq\|C\_\{2\}\|\\geq\\cdots\\geq\|C\_\{m\(q\)\}\| 排序后答案集群 (D4)  
Br\(q\)=\(αr,Cr,\{Hi:i∈Cr\}\)\\displaystyle B\_\{r\}\(q\)=\\bigl\(\\alpha\_\{r\},C\_\{r\},\\\{H\_\{i\}:i\\in C\_\{r\}\\\}\\bigr\) 观察到的答案盆地 (D5)  
y^cons\(q\)=α1\\displaystyle\\hat\{y\}\_\{\\mathrm\{cons\}\}\(q\)=\\alpha\_\{1\} 原始共识预测 (D6)  

公式 (D1)–(D6) 将共识选择的*答案*与产生它的*解法*分开。公式 (D4) 中的平局通过集群中最早采样的索引的答案字符串规范形式来打破。当m\(q\)≥2m\(q\)\\geq 2 时,问题属于分歧切片。只有此类问题允许池内仲裁,因为当所有采样解法都坍缩到一个答案时,不存在其他观察到的盆地。令y⋆\(q\)y^\{\\star\}\(q\) 为真实答案。选择器无法获取真实答案。它仅用于计算准确率、诊断性oracle上限以及恢复/退化计数:  

Acccons=Eq\[1\{α1\(q\)=y⋆\(q\)\}\]\\displaystyle\\mathrm\{Acc\}\_\{\\mathrm\{cons\}\}=\\mathbb\{E\}\_\{q\}\\bigl\[\\mathbf\{1\}\\\{\\alpha\_\{1\}\(q\)=y^\{\\star\}\(q\)\\\}\\bigr\] 原始共识准确率 (D7)  
Oracle@k\(q\)=1\{∃r≤k:αr\(q\)=y⋆\(q\)\}\\displaystyle\\mathrm\{Oracle@\}k\(q\)=\\mathbf\{1\}\\\{\\exists r\\leq k:\\alpha\_\{r\}\(q\)=y^\{\\star\}\(q\)\\\} 诊断性同池上限 (D8)  
WM\(q\)=1\{α1\(q\)≠y⋆\(q\),∃r\>1:αr\(q\)=y⋆\(q\)\}\\displaystyle\\mathrm\{WM\}\(q\)=\\mathbf\{1\}\\\{\\alpha\_\{1\}\(q\)\\neq y^\{\\star\}\(q\),\\;\\exists r\>1:\\alpha\_\{r\}\(q\)=y^\{\\star\}\(q\)\\\} 错误多数指示器 (D9)  
ΔAcc\(π\)=Eq\[1\{απ\(q\)\(q\)=y⋆\(q\)\}−1\{α1\(q\)=y⋆\(q\)\}\]\\displaystyle\\Delta\\mathrm\{Acc\}\(\\pi\)=\\mathbb\{E\}\_\{q\}\\\!\\left\[\\mathbf\{1\}\\\{\\alpha\_\{\\pi\(q\)\}\(q\)=y^\{\\star\}\(q\)\\\}\-\\mathbf\{1\}\\\{\\alpha\_\{1\}\(q\)=y^\{\\star\}\(q\)\\\}\\right\] 策略π\\pi 的净恢复 (D10)  

Oracle@kk 不是一种可部署的方法:它是一个诊断性上限,显示正确答案在观察到的挑战者盆地中出现的频率。等价地,公式 (D10) 是错误到正确恢复的概率减去正确到错误退化的概率,这解释了为什么高精度共识难以改进。因此,一个有用的策略必须将共识视为默认值,并且仅在足够的同模型证据积累支持挑战者盆地时才覆盖它。  

## 4 方法  

### 4.1 推理流程  

Arbiter 是一种后共识仲裁方法。对于每个问题,它首先采样一个原始的普通解法池,按最终答案进行聚类,并将最大的盆地视为共识先验。然后,它要求相同的冻结模型为竞争的盆地生成紧凑的解释,并产生辅助证据流。每个辅助输出被解析回一个观察到的答案盆地。最后,Arbiter\-Δ\\Delta 将证据添加为对数比率,并保持共识,除非某个挑战者对主导盆地具有正的累积证据。这个流程是有意设计的,

相似文章

通过纠正少数决策令牌即可恢复推理能力

arXiv cs.AI

本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。

监控内部独白:探针轨迹揭示推理动态

Hugging Face Daily Papers

本文介绍了一种通过分析探针轨迹(即概念概率在生成token上的演变)来监控大型推理模型推理过程的方法。该方法利用隐藏表示中的时间特征和信号处理特征,更好地预测未来模型行为,通过最大池化达到了高达95%的AUROC。

通过近未来引导弥合在线蒸馏中的推理轨迹

arXiv cs.CL

本文指出了在线蒸馏大语言模型时token级监督的局限性,并提出TOPD方法,利用近未来轨迹信息更好地识别发散推理状态并将引导分布到多个token上,在AIME基准测试中取得了性能提升。