多元证据,更优预测:信息不对称下的多智能体协商
摘要
本文介绍了InfoDelphi框架,该框架利用信息不对称(将证据划分为共享的公共子集和不相交的私有子集)来改进多智能体LLM的协商与预测。在PolyGym基准测试上,它在Brier得分上比单智能体和多智能体基线提升12-18%,在准确率上提升4-8个百分点,证明了多样化证据是有效多智能体推理的关键。
arXiv:2607.01661v1 Announce Type: new
摘要:多智能体系统越来越多地被用于预测未来事件,因为多LLM之间的协商被认为能够改善推理和校准。然而,现有方法忽略了一个关键的设计选择:每个智能体接收什么信息。当所有智能体被赋予相同的证据时,协商退化为从众行为而非真正的信念修正,使得多智能体系统仅比单智能体好一点。我们将其识别为一个根本性差距,并提出设计信息不对称来缩小它:通过将证据划分为共享的公共子集和不相交的私有子集,每个智能体拥有只能通过协商才能传达给他人的独占知识。我们从理论上证明这种分解降低了智能体间的错误相关性,并在InfoDelphi框架中实例化它,该框架结合了相关性感知的证据路由、基于理由的迭代协商和置信度加权聚合。在PolyGym(一个源自真实世界预测市场的375个二元预测问题基准)上,InfoDelphi在Brier得分上比最强的单智能体和多智能体基线提升12-18%,在准确率上提升4-8个百分点。更详细的实验证实,移除信息不对称会消除大部分协商收益,从而确立了输入多样性作为有效多智能体推理的关键推动因素。
查看缓存全文
缓存时间: 2026/07/03 05:45
# 信息不对称下的多智能体协商 来源:https://arxiv.org/html/2607.01661
## 多元证据,更优预测:信息不对称下的多智能体协商
Yuante Li¹, Yicheng Tao¹†††, Kate Zhang¹†††, Taozhi Wang¹, Gefei Gu¹, Yaxin Zhou²
¹卡内基梅隆大学计算机科学学院
²卡内基梅隆大学工程学院
{yuantel, katezhan}@cs.cmu.edu, [email protected]
###### 摘要
多智能体系统越来越多地被用于预测未来事件,因为人们相信多个LLM之间的协商能改善推理和校准。然而,现有方法忽略了一个关键的设计选择:每个智能体接收什么样的信息。当所有智能体收到相同的证据时,协商退化为从众行为而非真正的信念修正,使得多智能体系统比单个智能体好不了多少。我们将此识别为一个根本性差距,并提出**设计的信息不对称**来弥补这一差距:通过将证据划分为共享的公开子集和互不重叠的私有子集,每个智能体持有排他性知识,这些知识只能通过协商传递给其他智能体。我们从理论上证明了这种分解降低了智能体间的误差相关性,并在**InfoDelphi**框架中实例化了这一思想,该框架结合了相关性感知的证据路由、基于理由的迭代协商以及置信度加权聚合。在**PolyGym**(一个源自真实预测市场的375个二元预测问题的基准测试)上,InfoDelphi在Brier分数上比最强单智能体和多智能体基线高出12-18%,在准确率上高出4-8个百分点。更详细的实验证实,消除信息不对称会消除大部分协商收益,从而确立了输入多样性作为有效多智能体推理的关键推动因素。
多元证据,更优预测:信息不对称下的多智能体协商
Yuante Li¹†††:同等贡献。†††:通讯作者,Yicheng Tao¹†††, Kate Zhang¹†††, Taozhi Wang¹, Gefei Gu¹, Yaxin Zhou²
¹卡内基梅隆大学计算机科学学院
²卡内基梅隆大学工程学院
{yuantel, katezhan}@cs.cmu.edu, [email protected]
## 1 引言
像Polymarket¹⁴¹这样的预测市场汇聚了成千上万参与者的信念,为未来事件提供实时概率估计,其预测准确性往往可与专家小组相媲美甚至超越之(Tetlock,2005)。由于每个问题都针对一个确定的真实结果进行解析,这些市场为机器智能提供了一个自然的基准:自动系统能否基于证据进行推理并达到人类水平的预测?最近的研究表明,配备检索证据的大型语言模型(LLM)可以在二元预测任务上接近人类水平的表现(Halawi等人,2024; Turtel等人,2025),但这些进展主要依赖于单智能体、单次通过流水线,将整个证据语料视为一个单一上下文窗口。一个自然的扩展是**多智能体**设置,其中一组LLM在产生集体预测之前对证据进行协商。此类框架借鉴了经过充分研究的人类聚合分布式知识机制——专家委员会、结构化访谈和德尔菲法(Dalkey,1969)——并在一般推理任务中显示出潜力(Chen等人,2024; Wang等人,2024)。
[插图说明]图1:信息不对称对真实预测的影响。左:拥有相同证据的智能体收敛到同一错误预测。右:拥有互补私有证据的智能体通过理由共享实现自我纠正,将Brier分数从0.45降至0.004。
然而,有效的集体推理要求参与者持有**信息多样**的观点。正如Condorcet陪审团传统所形式化,并在人类预测者的经验研究中得到证实的那样(Lorenz等人,2011),当智能体共享相同信息时,协商无法提高集体准确性:它们独立得出相同结论,迭代交换仅仅是加强了共享先验。在LLM系统中,这个问题更为严重。最近的研究表明,来自不同提供商的模型以超过60%的比率产生相关错误(Kim等人,2025),并且标准的多智能体辩论在同类输入下表现得像**鞅**一样,其期望准确性不会随着轮次而提高(Choi等人,2026b)。图1说明了一个真实预测市场问题中的这种失败模式:当所有智能体接收相同证据时,它们收敛到同一错误预测(左),而配备互补私有证据的智能体可以通过协商自我纠正(右)。
为了解决这个问题,我们提出**设计的信息不对称**,将信息不对称视为一种需要利用的原则,而非需要克服的限制。我们引入**InfoDelphi**,这是一个多智能体预测框架,它将证据划分为共享的公开池和互不重叠的私有子集,为每个智能体提供独特的专业知识,同时保留沟通的共同基础。这模仿了有效的人类专家小组,其中参与者贡献互补知识,而非阅读相同的简报材料。InfoDelphi使用BM25相关性排名构建信息丰富的证据分区。在协商过程中,智能体交换理由摘录而非原始证据,从而实现私有信号的高效传播。最终预测通过对数几率空间中的置信度加权平均进行聚合,强调信息最充分的智能体的预测。这些设计选择共同确保协商会浮现新信息,而非强化共享先验。
此外,现有的预测基准将检索质量与推理能力纠缠在一起,使得无法评估改善是来自更好的搜索还是更好的协商。我们引入**PolyGym**,这是一个受控基准,包含375个二元Polymarket问题,这些问题具有所有方法共享的固定预检索证据。在PolyGym上,InfoDelphi在Brier分数上比最强单智能体和多智能体基线高出12-18%,在准确率上高出4-8个百分点。详细的消融实验证实,公开/私有分割和理由共享是共同必要的,因为移除其中任何一个都会消除大部分收益,而跨模型实验表明,从开源到前沿专有LLM均有一致的改进。这些结果确立了设计的信息不对称作为不确定性下多智能体推理的一般原则。
我们的主要贡献如下:
- • 我们提出了用于多智能体推理的**设计的信息不对称**,并从理论上表明公开/私有证据分区降低了智能体间的误差相关性。
- • 我们引入**InfoDelphi**,通过相关性感知的证据路由、基于理由的协商和置信度加权聚合实例化了这一原则。
- • 我们构建了**PolyGym**,这是一个将信息利用与检索分离的受控预测基准,并进行了大量实验,表明(a) 无信息多样性的协商几乎没有益处,(b) 理由共享对于跨智能体信息传递至关重要,以及(c) 收益在不同LLM后端之间具有普适性。
## 2 相关工作
#### LLM预测。早期研究确立了LLM与人类预测准确性之间的显著差距。Zou等人(2022)发现语言模型在Autocast上仅达到65%的准确率,而人类聚合体达到92%;Schoenegger和Park (2023)表明未经增强的GPT-4在Metaculus上并未显著优于随机基线。检索增强生成(Lewis等人,2020)大幅缩小了这一差距:Yan等人(2023)通过零样本重排序和检索新闻摘要改善了Autocast的准确性;Halawi等人(2024)提出了一个完整流水线,在Polymarket和Metaculus上达到了接近人类的表现。更近期的工作侧重于训练:Turtel等人(2025)在12,100个已解决的Polymarket问题上进行了微调;Chandak等人(2025)通过强化学习训练了一个8B模型,在预测基准上与专有LLM相匹敌。在聚合方面,Schoenegger等人(2024)表明,集成多样化的LLM可以产生与人类预测者在统计上无显著差异的预测。基准设计也同步成熟:ForecastBench(Karger等人,2024)和FutureX(Zeng等人,2025)提供了具有严格时间控制的持续更新评估;Paleka等人(2025)识别了包括时间泄漏和依赖现有预测在内的系统性陷阱。尽管取得了这些进展,现有流水线仍将预测视为单智能体过程,并未研究证据在协商小组中的分配。
#### 多智能体推理与协商。多智能体辩论已成为改善LLM推理的通用策略(Du等人,2024)。Wang等人(2022)表明,采样多样化的思维链路径并通过多数投票选择可提高准确性;Wang等人(2024)提出了混合智能体(MoA)架构,其中后续智能体基于所有先前输出进行条件生成。Chen等人(2024)证明,一个由多样化LLM组成的圆桌会议,结合置信度加权投票,在推理基准上优于单智能体基线。然而,近期理论表明多智能体辩论并非普遍有益。Choi等人(2026a)证明,在Dirichlet-Categorical信念模型下,标准多智能体辩论形成一个鞅:当智能体接收相同输入时,期望正确性不会随轮次提高。Shin (2026)通过数据处理不等式形式化了这一点:封闭系统协商形成一个马尔可夫链,因此与真实结果的互信息只会减少。Kim等人(2025)记录到LLM错误的相关性超过60%,这意味着简单集成会遇到非零误差下限。我们的工作通过引入设计的信息不对称来打破相关性,并将鞅转化为富有成效的信念修正,从而解决了这些限制。
#### 信息聚合与集体智慧。群体优于个体的条件已得到充分研究。Surowiecki (2004)将独立性、多样性和去中心化知识确定为集体智慧的关键条件;Hong和Page (2004)表明,多样化的群体可以胜过仅由高能力个体组成的群体。DeGroot模型(DeGroot,1974)形式化了迭代信念聚合,德尔菲法(Dalkey,1969)则应用结构化多轮启发来减少专家分歧。对于概率预测,线性意见池(Stone,1961)和对数几率空间极端化(Satopää等人,2014)提供了有原则的聚合。同时,社会影响可能抑制多样性而不提高准确性(Lorenz等人,2011),信息级联可能导致智能体一旦形成共识就忽略私有信号(Bikhchandani等人,1992)。我们的框架通过证据分区和基于理由的沟通,将集体智慧的积极条件操作化,同时明确减轻从众行为和信息丢失。
## 3 方法论
### 3.1 问题形式化
设 \(q\) 为一个二元预测问题,其决议日期为 \(\tau\),真实结果为 \(y \in \{0, 1\}\)。每个问题附带一个检索到的证据语料 \(\mathcal{E} = \{e_1, \dots, e_n\}\),其中 \(e_i\) 包含一个标题、URL 和在 \(\tau\) 之前检索到的文本片段。因此,给定问题 \(q\) 和证据语料 \(\mathcal{E}\),目标是估计 \(p(y=1 \mid q, \mathcal{E})\),其中 \(p \in [0, 1]\) 表示事件积极解决的概率。
### 3.2 理论动机
我们首先形式化为什么信息不对称能改善集体预测,这借鉴了集成均方误差的偏差-方差-协方差分解。
#### 同质输入导致相关误差。考虑 \(J\) 个智能体,每个都接收到相同的证据 \(\mathcal{E}\)。设 \(p_j\) 为智能体 \(j\) 的预测,\(y\) 为真实结果。集成预测 \(\bar{p} = \frac{1}{J} \sum_j p_j\) 的均方误差为:
\[
\mathrm{MSE}(\bar{p}) = \mathrm{Bias}^2 + \bar{\sigma}^2 - \mathrm{Div},
\tag{1}
\]
其中 \(\bar{\sigma}^2 = \frac{1}{J} \sum_j \mathrm{Var}(p_j)\) 是智能体的平均方差,\(\mathrm{Div} = \frac{1}{J} \sum_j \mathrm{Var}(p_j - \bar{p})\) 是多样性项(Wood等人,2023)。当所有智能体观察到相同的输入时,它们的预测误差 \(\epsilon_j = p_j - y\) 由相同的证据驱动,因此高度相关:对于 \(i \neq j\),\(\mathrm{Cov}(\epsilon_i, \epsilon_j) \approx \mathrm{Var}(\epsilon)\)。在这种情况下,多样性项 \(\mathrm{Div}\) 趋近于零,因为以相同输入为条件的智能体产生几乎相同的预测,集成相较于单智能体没有任何优势。近期的实证工作证实了这一点:LLM误差在不同提供商之间具有相关性,并且在完全相关下的最优聚合存在非零误差下限(Kim等人,2025; Turkmen等人,2026)。
#### 信息不对称降低误差相关性。我们现在证明公开/私有证据分区直接降低了这种相关性。
**命题 3.1(多样性驱动的去相关)。** 设每个智能体预测误差分解为 \(\epsilon_j = \rho \cdot \epsilon^{\mathrm{pub}} + (1-\rho) \cdot \epsilon_j^{\mathrm{priv}}\),其中 \(\epsilon^{\mathrm{pub}}\) 是由共享公开证据驱动的误差分量,而 \(\epsilon_j^{\mathrm{priv}}\) 是由私有证据驱动的误差分量,且 \(_\mathrm{priv}\)相似文章
法律中多智能体协商研究
本文研究了使用LLM进行法律推理任务的多智能体协商方法,引入了两种受法庭程序启发的新框架。实验表明,多智能体系统在整体性能上与单一LLM相当,但能产生截然不同的答案,并能解决基线模型无法处理的案例,突显了多智能体方法在法律AI中的潜力。
协商幻觉:多智能体大语言模型协商中的事实损耗与立场同质化诊断
本文识别了多智能体大语言模型系统中的'协商幻觉',即讨论导致事实损耗和立场同质化,并引入DelibTrace来测量这些现象,表明在协商过程中高达72%的关键事实可能丢失。
自信的撒谎者:利用对数概率和LLM-as-Judge诊断多智能体辩论
本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。
辩论者的混合体:在多智能体推理中学习架构层面的辩论
提出一种辩论者混合(MoD)框架,利用混合专家模型实现单个LLM内的动态自我辩论,在显著降低延迟和令牌消耗的同时实现更优的准确率。
多智能体LLM商议中的隐藏锚点
本文把多智能体LLM商议建模成一个闭环动力系统,其中每个智能体都拥有隐藏的内部信念(锚点),该锚点持续牵引其观点。文章展示了如何仅从商议数据中恢复这个锚点,并解释了诸如观点逃逸初始信念凸包等现象。