委托投票何时击败多数表决?一种基于委托的多样本LLM推理聚合器
摘要
论文提出了一种基于委托的聚合器,名为传播代理投票(PPV),它利用字母熵和推理几何改进多样本LLM推理中的多数投票,在MMLU-Pro上取得了收益,无需外部标签或辅助训练。
arXiv:2606.08098v1 公告类型:新发布
摘要:对采样答案进行多数投票是多样本LLM推理中占主导地位的无监督聚合方法。我们证明,将每个样本携带的信号输入基于委托的聚合器(传播代理投票,PPV)能够产生一种无监督共识规则,在MMLU-Pro上整体提升+1.5个百分点,在非平凡子集上提升+2.24个百分点(配对McNemar检验p ~ 1.0e-14,n = 8,099)。多数投票丢弃了每个样本携带的两个免费信号:组内字母熵和组间推理几何。PPV暴露了每个投票者的两个杠杆,这些杠杆恰好消耗这些信号:WHEN(投票者对自己选择的保留权重)和WHOM(如何将剩余权重分配给其他投票者)。我们使用字母熵驱动WHEN,使用以问题为中心的嵌入余弦相似度驱动WHOM。该方法无需外部标签,也无需辅助训练:对于每个问题,我们将128个采样生成结果划分为16个组,计算每个组的字母级语义熵和推理嵌入质心,并将两者输入一个随机委托矩阵,其平稳分布选择共识答案。我们通过一个例子说明PPV如何推翻一个明显的10-6多数票(错误答案):10票的多数集群几何上不连贯(组内余弦均值为-0.02),而6票的少数集群则紧密(+0.26),因此即使仅凭熵会使多数保持领先,传播的委托质量仍集中在少数派的答案上。我们还报告了产生负面结果的委托策略,这些策略限制了无监督LLM聚合的设计空间:问题内置信模式集成无法缩小与理论最优的差距。
查看缓存全文
缓存时间: 2026/06/09 08:54
# 何时委托优于多数?一种基于委托的多样本LLM推理聚合器
来源:https://arxiv.org/html/2606.08098
Allen Song麻省理工学院媒体实验室,剑桥,马萨诸塞州 \{yasushis, allen017, kll\}@media\.mit\.eduKent Larson麻省理工学院媒体实验室,剑桥,马萨诸塞州 \{yasushis, allen017, kll\}@media\.mit\.edu
###### 摘要
对采样答案进行多数投票是无监督多样本LLM推理中占主导地位的聚合器。我们证明,将这些信号输入到一个基于委托的聚合器(传播代理投票,PPV;Sakai等人,2025 (https://arxiv.org/html/2606.08098#bib.bib36))中,会产生一种无监督共识规则,该规则在MMLU-Pro上整体优于多数投票+1.5个百分点,在非平凡子集上优于+2.24个百分点(配对McNemar检验p≈1.0×10⁻¹⁴,n=8,099)。多数投票丢弃了每个样本携带的两个免费信号:组内字母熵和组间推理几何结构。PPV暴露了两个每个投票者可用的杠杆,这些杠杆恰好消耗了这些信号:When(投票者对自己的选择保留多少权重)和Whom(它如何将剩余权重分配给同行)。我们用字母熵驱动When,用基于问题中心的嵌入余弦驱动Whom。我们的方法不需要黄金标签,也不需要辅助训练:针对每个问题,我们将128个采样生成结果分成16组,计算每组的字母级语义熵和推理嵌入中心点,并将两者输入到一个随机委托矩阵中,其平稳分布选择共识答案。我们通过一个例子来说明PPV如何推翻一个明显的10-6多数对错误字母的选择:10个投票者的多数群集在几何上不连贯(群集内平均余弦为-0.02),而6个投票者的少数群集紧密(+0.26),因此传播的委托质量集中在少数群集的答案上,即使仅凭熵会让多数保持领先。我们进一步报告了具有负面结果的委托策略,这些策略限制了无监督LLM聚合的设计空间。没有基于问题内部的置信模式集成能够缩小与Oracle的差距。
## 1 引言
多次采样LLM并聚合答案——自一致性 (Wang等人,2023 (https://arxiv.org/html/2606.08098#bib.bib1)),现在已成为推理任务的标准做法。聚合器几乎总是对解析后的答案进行多数投票:简单、模型无关、无需标签,并且是一个强大的基线。然而,每个样本除了其解析答案外,还携带了两个多数投票丢弃的信号:
1. 字母级不确定性。一组k个样本都得到相同字母比一组k个样本分成⌈k/2⌉对⌊k/2⌋更有信息量。小组内的字母熵是一个免费的小组级置信信号——这是语义熵在多项选择题上的退化情况 (Kuhn等人,2023 (https://arxiv.org/html/2606.08098#bib.bib15); Farquhar等人,2024 (https://arxiv.org/html/2606.08098#bib.bib16))。
2. 推理几何结构。对每个样本的推理文本进行嵌入,可以得到语义空间中的高维位置。两组通过相似推理选择相同字母的样本在该空间中距离较近;两组通过不相关推理选择相同字母的样本则相距较远。多数投票没有考虑这一点。
参见标题图1:来自问题philosophy_314的直接投票和委托简化网络。每个机器人是一个投票者(一组LLM样本)。它对自己的答案字母保留一部分权重,并将剩余部分路由给那些推理嵌入与其一致的同行。完整图有16个投票者,多数投票错误地选择了字母10比6;我们为了清晰起见只画了5个(3个多数 + 2个少数)。一个连贯的少数群集加上一个叛变的多数投票者(v9)吸收了足够多的重定向质量,从而翻转了共识。绿色字母I代表PPV选出的黄金答案;红色D是多数投票集体选错的字母。
#### 方法。
我们将每组样本视为投票图中的一名“代表”,并通过传播代理投票(PPV;Sakai等人,2025 (https://arxiv.org/html/2606.08098#bib.bib36))进行聚合,这是一种液体民主机制,通过吸收马尔可夫链传播投票权重。PPV为每个代表暴露了两个杠杆,分别对应上述两个被丢弃的信号:
- • When——代表对自己的选择保留多少权重。我们使用该组的字母熵来驱动它:低熵 ⇒ 高自我权重。
- • Whom——剩余权重如何在同行代表之间分配。我们使用基于问题中心的嵌入余弦来驱动它:委托给那些推理一致的同行。
结果是一个无参数、无标签的聚合器,前提是嵌入已预先计算好。
#### 发现。
- • 在整个MMLU-Pro测试子集(12,032个问题 × 128个Qwen3-1.7B样本),使用α=1−Ĥ的PPV达到了42.2%的准确率,而多数投票为40.7%。在8,099个非平凡问题上,PPV得分为30.2%,而多数投票为28.0%:+2.24个百分点,McNemar检验p≈10⁻¹⁴。
- • When/Whom分解显示,全部增益来自When:Whom中的显式同行质量乘数没有带来提升,并且在25个测试配置中有11个实际上造成了损害。PPV的多跳传播实现了隐式的“质量清洗”。
- • 在计算余弦之前对嵌入进行基于问题的中心化至关重要:原始的同问题余弦位于[+0.88, +0.99]范围内。中心化暴露了一个判别性几何结构,余弦范围扩展至[−0.68, +0.64]。
- • 三个负面结果:P(True) (Kadavath等人,2022 (https://arxiv.org/html/2606.08098#bib.bib22)) 的ROC曲线下面积 (AUROC) 为0.47——与正确性负相关;CoCoA风格的乘积 (Vashurin等人,2025 (https://arxiv.org/html/2606.08098#bib.bib9)) 被其拖累;并且没有无监督的置信模式集成能够缩小与Oracle的差距,这表明弥合该差距需要一个有监督的极性分类器,而不仅仅是基于问题内部的特征。
我们展示了:(i) 一个基于LLM样本信号的PPV具体参数化方案,一种使用委托网络作为无监督聚合器对采样生成结果进行聚合的方法。(ii) 在MMLU-Pro上涵盖全部12,032个问题的大规模实证研究,附有配对McNemar显著性检验。(iii) When/Whom分解,隔离了哪个杠杆带来了增益,并附有一个机制性的工作示例。(iv) 三个负面结果,限制了未来无监督LLM聚合器的设计空间。
## 2 相关工作
我们的工作处于六条先前研究线索的交汇点。我们依次回顾每条线索并定位我们的贡献。
### 2.1 自一致性与多样本聚合
Wang等人 (2023 (https://arxiv.org/html/2606.08098#bib.bib1)) 确立了“采样加投票”作为思维链推理中默认的无监督聚合方法。聚合器是简单的相对多数:生成多个回答,从每个回答中提取答案字符串,并返回最频繁的那个。后续工作探索了该框架内的替代方案。验证器重排投票 (Cobbe等人,2021 (https://arxiv.org/html/2606.08098#bib.bib3)) 在选取前使用训练好的奖励模型对候选进行评分。还有一些生成式方法,如通用自一致性(USC;Chen等人,2023 (https://arxiv.org/html/2606.08098#bib.bib2)),它促使LLM自身提名最连贯的候选。排序投票方法,如即时决选投票、波达计数法、平均倒数排名,最近已被应用于LLM自一致性,相比相对多数取得了适度提升 (Wang等人,2025 (https://arxiv.org/html/2606.08098#bib.bib4))。
与我们工作最直接同期的是 Pan等人 (2025 (https://arxiv.org/html/2606.08098#bib.bib5)),他们用利用模型回答间一阶和二阶相关性的聚合器取代多数投票,并在MMLU和UltraFeedback上进行评估;我们的不同之处在于使用单个模型的重复样本(而不是一组模型),并将聚合器建立在具有明确每投票者置信参数化的正式委托机制之上。
自适应采样方法在保持准确性的同时减少了样本预算:RASC (Wan等人,2025 (https://arxiv.org/html/2606.08098#bib.bib7)) 训练了一个CoT质量评分函数用于早期停止和评分加权投票;Aggarwal等人 (2023 (https://arxiv.org/html/2606.08098#bib.bib8)) 探索了样本集上的启发式停止规则。Cordero-Encinar和Duncan (2025 (https://arxiv.org/html/2606.08098#bib.bib6)) 提供了理论基础,推导了有限样本浓度边界,量化了多数投票可靠地从模型分布中恢复众数的程度,并引入了鞅多数证书作为顺序停止规则。这些结果刻画了我们的聚合器所处的框架,但没有解决在样本预算固定后*使用哪种*聚合函数的问题。
### 2.2 测试时计算扩展
测试时计算 (TTC) 分配额外的推理计算以改善输出质量。Snell等人 (2024 (https://arxiv.org/html/2606.08098#bib.bib10)) 综述了该领域,将方法分为并行(采样并聚合)和顺序(迭代细化、树搜索)两类。带验证器的Best-of-N (Cobbe等人,2021 (https://arxiv.org/html/2606.08098#bib.bib3); Lightman等人,2023 (https://arxiv.org/html/2606.08098#bib.bib14)) 是标准的并行基线。束搜索和蒙特卡洛树搜索 (Yao等人,2023 (https://arxiv.org/html/2606.08098#bib.bib13)) 探索了顺序分支。我们的工作是并行的且无监督的:我们抽取128个样本并应用一个更丰富的聚合函数——无需额外的展开或验证器。
Muennighoff等人 (2025 (https://arxiv.org/html/2606.08098#bib.bib11)) 表明,一种简单的预算强制方法(“等待”令牌)可以将推理计算转移到更长的链中。Sharma和Chopra (2025 (https://arxiv.org/html/2606.08098#bib.bib12)) 认为,在顺序细化输出上进行逆熵加权投票在同等计算量下优于并行多数投票,从而将基于熵的权重与顺序范式联系起来。我们的发现,即α=1−Ĥ(逆熵作为置信度)在并行框架下提供了全部增益,与熵加权的直觉广泛一致,同时在其PPV委托框架内进行了展示。
### 2.3 语义熵 (SE) 与不确定性量化
Kuhn等人 (2023 (https://arxiv.org/html/2606.08098#bib.bib15)) 引入了语义熵:通过意义等价性(通过NLI)对生成结果进行聚类,然后取聚类分布的熵。Farquhar等人 (2024 (https://arxiv.org/html/2606.08098#bib.bib16)) 将方法扩展到大规模幻觉检测(Nature 2024),表明语义熵是事实可靠性的可靠无监督信号。对于多项选择题,NLI聚类退化为按提取的字母进行分组——这正是我们使用的形式;我们额外应用了Miller-Madow偏差修正 (Miller, 1955 (https://arxiv.org/html/2606.08098#bib.bib21))。
最近有几篇论文扩展或近似了语义熵。Kossen等人 (2024 (https://arxiv.org/html/2606.08098#bib.bib17)) 提出了语义熵探针(SEP),从单次前向传递的隐藏状态中近似语义熵,减少了5-10倍推理开销。核语言熵(KLE; Nikitin等人,2024 (https://arxiv.org/html/2606.08098#bib.bib18)) 将SE推广到基于核的不确定性度量,无需硬分区即可捕获簇内分散和簇间距离;Nguyen等人 (2025 (https://arxiv.org/html/2606.08098#bib.bib19))(ACL 2025)独立地提出了类似论点,并提出了SNNE,一种近邻熵估计器,具有相对于SE的可证明泛化能力。我们使用字母级语义熵,它是该家族的低开销实例化,专门针对多项选择;我们在计算余弦之前对嵌入应用的中心化变换,在精神上类似于KLE的簇间项。Liu (2025 (https://arxiv.org/html/2606.08098#bib.bib20)) 研究了开放生成语义不确定性的统计一致估计量,并给出了收敛性的正式保证。
### 2.4 置信度校准与自我验证
Kadavath等人 (2022 (https://arxiv.org/html/2606.08098#bib.bib22)) 表明,LLM可以通过提示估计其自身输出的P(True)。CoCoA (Vashurin等人,2025 (https://arxiv.org/html/2606.08098#bib.bib9)) 将P(True)与语义熵相乘。我们在我们的设置上评估了P(True),发现它与正确性负相关(AUROC 0.47);CoCoA风格的乘积继承了这种负相关性,表现不如单独使用Ĥ。我们将此解读为模型和温度依赖:从1.7B参数模型的高温生成产生听起来自信但错误的输出,而同一模型的验证器奖励的是表面流畅度而非事实准确性。
更广泛的校准文献支持这一观点。Guo等人 (2017 (https://arxiv.org/html/2606.08098#bib.bib23)) 记录了标准训练产生系统性地过度自信的模型;温度缩放校正了边际校准,但未校正组级校准。Zhou等人 (2026 (https://arxiv.org/html/2606.08098#bib.bib24)) 表明,RL微调(DPO、PPO、GRPO)通过利用奖励优势加权降低了校准质量;RL后SFT恢复了校准。我们使用的Qwen3-1.7B模型是经过RL训练的,这为其P(True)在我们的设置中与正确性负相关提供了机制性解释。基于图的置信度校准 (Li等人,2024 (https://arxiv.org/html/2606.08098#bib.bib25)) 使用多个回答的相似性图,并学习纠正错误校准——这是一种有监督方法,需要我们的无监督框架中不可用的黄金标签。Lin等人 (2024 (https://arxiv.org/html/2606.08098#bib.bib26)) 研究了言语化置信度及其校准性质。这篇文献的总体教训是,对于经过RL训练的小型模型在高温下,可靠的置信度信号不能想当然;我们在P(True)上的负面结果与此一致。
### 2.5 液体民主与传播代理投票
液体民主 (Ford, 2002 (https://arxiv.org/html/2606.08098#bib.bib27)) 是一种投票框架,其中代理人可以传递地委托其选票。其性质已得到理论研究 (Christoff 和 Grossi, 2017 (https://arxiv.org/html/2606.08098#bib.bib28); Brill, 2018 (https://arxiv.org/html/2606.08098#bib.bib29)),包括委托相对于直接投票何时有帮助或有害的孔多塞陪审团分析 (Kahng等人,2018 (https://arxiv.org/html/2606.08098#bib.bib30))、最优委托的算法视角 (Brill等人,2022 (https://arxiv.org/html/2606.08098#bib.bib32)),以及理性委托的博弈论分析 (Bloembergen等人,2019 (https://arxiv.org/html/2606.08098#bib.bib31))。最近的计算社会选择工作继续完善了这一图景:Alouf-Heffetz等人 (2024 (https://arxiv.org/html/2606.08098#bib.bib33))(IJCAI 2024)研究了委托图的操纵;Alouf-Heffetz等人 (2025 (https://arxiv.org/html/2606.08098#bib.bib34))(AAAI 2025)分析了液体机制的福利代价;Bersetche (2025 (https://arxiv.org/html/2606.08098#bib.bib35))(IJGT 2025)将液体民主推广到多智能体设置并进行了均衡分析。
Sakai等人 (2025 (htt相似文章
多利益相关方LLM对齐:将估计与聚合分解
本文识别了多利益相关方任务中LLM评估者的权重噪声,并提出了DecompR方法,该方法通过反事实校准的权重将效用估计从聚合中解耦。
自信的撒谎者:利用对数概率和LLM-as-Judge诊断多智能体辩论
本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。
重访DAgger:大语言模型智能体时代的新探索
本文重新审视了数据集聚合(DAgger)方法在训练长周期大语言模型智能体中的应用,证明了在回合级别上对教师与学生的策略进行插值能够有效缓解协变量偏移,并在SWE-bench Verified等软件工程基准测试中优于现有方法。
@rohanpaul_ai: 斯坦福新论文指出,在同等推理预算下,单个LLM通常比多个……更好地解决多跳问题
一项新的斯坦福论文显示,在同等推理token预算下,单个LLM在多跳推理任务上通常优于多智能体系统,而多智能体设置带来的提升往往来自更多计算而非架构优势。该论文利用数据处理不等式解释为什么交接中的信息丢失会损害多智能体性能,并指出上下文质量是多智能体系统能够提供益处的关键因素。
SearchSwarm:面向长周期深度研究的代理型大语言模型中的委托智能
本文介绍了SearchSwarm,一个基于合成委托智能训练的模型,通过任务分解和子代理协调来改进长周期深度研究任务,在BrowseComp基准测试中取得了最先进的结果。