人机团队何时能超越个体?具有不可能性保证的紧密界限

arXiv cs.AI 论文

摘要

本文推导了人机团队的紧密理论界限,证明了基于置信度的聚合何时能产生互补效应,并确立了在特定错误相关性下的不可能性结果。

arXiv:2605.08710v1 公告类型:新论文 摘要:在 70% 的研究中,人机团队未能超越其表现最好的成员,然而尚无理论具体说明何时可实现互补性。我们通过将信号检测论与信息论分析相结合,推导了广泛的基于置信度的聚合规则的紧密界限,得出以下四个结果:(1) 互补性定理(当且仅当错误相关性 $\rho_{HM} < \rho^*$ 时团队表现优于个体,在对称的接近随机水平情况下,$\rho^* \approx a$);(2) 极小极大界限表明,收益随着元认知敏感度差异以 $\Theta(\sqrt{\Delta d})$ 的比例缩放;(3) 不可能性结果证明,当 $\rho_{HM} \geq \rho^*$ 时,没有任何基于置信度的聚合规则能够实现互补性;以及 (4) 多类别泛化 $\rho^*_K \approx \rho^*/\sqrt{K-1}$。预测结果与观察到的团队准确率相匹配(在 ImageNet-16H 上 $R = 0.94$,在 CIFAR-10H 上 $R = 0.91$),且多类别阈值缩放在人类数据上成立($R = 0.93$,$K = 16$),并在非高斯分布下具有鲁棒性。该框架解释了为什么互补性很少见,并提供了可操作的设计公式;结果适用于聚合,而不适用于生成新答案的交互式审议。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:22

# 人类-AI团队何时能超越个体?带有不可能性保证的紧界

来源: https://arxiv.org/html/2605.08710

**Jikun Wu**
Stellaris AI Limited, Hong Kong, China
Brain Investing Limited, Hong Kong, China

**Siu-Ming Yiu**
The University of Hong Kong, Hong Kong, China

###### 摘要

在70%的研究中,人类-AI团队未能超越其表现最佳的成员,然而目前尚无理论具体说明何时可以实现互补性。我们将信号检测理论与信息论分析相结合,为广泛的*基于置信度的聚合*规则推导出了紧界,得出以下四个结果:(1)互补性定理(当且仅当误差相关系数 $\rho_{HM} < \rho^*$ 时,团队表现优于个体,在对称的接近随机猜测状态下 $\rho^* \approx a$);(2)极小极大界限,显示增益随元认知敏感度差异以 $\Theta(\sqrt{\Delta d})$ 的比例缩放;(3)不可能性结果,证明当 $\rho_{HM} \geq \rho^*$ 时,没有任何基于置信度的聚合规则能实现互补性;以及(4)多类泛化 $\rho^*_K \approx \rho^*/\sqrt{K-1}$。预测结果与观察到的团队准确率相符(ImageNet-16H 上 $R=0.94$,CIFAR-10H 上 $R=0.91$),且多类阈值缩放规律在人类数据上成立($R=0.93, K=16$),并在非高斯分布下具有鲁棒性。该框架解释了互补性为何罕见,并提供了可操作的设计公式;结果适用于聚合场景,而非产生新颖答案的交互式审议。

关键词:人类-AI互补性;形式化界限;元认知敏感度;信号检测理论;不可能性定理

## 引言

人工智能越来越多地辅助医疗诊断[22]、司法决策[14]和自主系统[23]中的人类决策。人类-AI协作的承诺在于*互补性*(即组合表现超过个体表现)[9]。然而,对106项研究的元分析发现,人类-AI组合的平均表现*差于*最佳个体(Hedges' $g=-0.23$),仅在30%的案例中实现了互补性[26]。这引出了一个根本性问题:**在什么形式化条件下,人类-AI协作能够被证明优于任何单一智能体?**

尽管已有研究涉及信任校准[30]、解释质量[3]和心理模型[2],但此前没有工作建立过同时包含可达性和不可能性结果的紧界。我们通过开发一个统一信号检测理论[18]、贝叶斯聚合[24]和集成学习[27]的数学框架来填补这一空白。

**范围。** 我们的结果表征了*基于置信度的聚合*:任何规则 $\mathcal{A}(\hat{Y}_H, \hat{Y}_M, c_H, c_M)$,该规则根据智能体的回答和置信度信号生成团队预测。此类规则涵盖了置信度加权选择、贝叶斯模型平均、学习到的拒绝策略和集成方法。它*不*涵盖通过对话生成新答案的交互式审议[Navajas2018, BarreraLemarchand2025],或以个体响应中不存在的方式结合知识的推理过程[21];在这样的设置中,超出我们界限的互补性增益可能可以实现,但这超出了当前框架的范围。

我们的贡献包括:
1. 一个*互补性定理*,具有明确的闭式条件,规定何时团队准确率可以超过个体准确率(定理1);
2. 紧密的*极小极大界限*,显示元认知敏感度(区分正确与错误预测的能力[8])如何决定可达到的增益(定理2);
3. 一个*不可能性结果*,证明在临界误差相关系数 $\rho^*$ 之上,没有任何聚合方式能实现互补性(定理3);
4. *多类泛化*,在人类行为数据(ImageNet-16H, $K=16$)上验证,并在非高斯假设下进行鲁棒性分析。

我们的框架与集体智能的经典结果相联系。孔多塞陪审团定理[4]表明,多数投票在选民独立时能达到完美准确率;我们的界限确切地表征了独立性违反(误差相关性)如何限制可达到的增益。“群体智慧”现象[25, 12]取决于意见的多样性;我们的 $\rho^*$ 阈值精确量化了实现互补性所需多少多样性(低误差相关性)。

我们在 ImageNet-16H[24]和 CIFAR-10H 上验证了预测,预测团队准确率与实际团队准确率之间的相关系数分别达到 $R=0.94$ 和 $R=0.91$。这些结果形式化地说明了人类-AI协作何时及为何成功,以及何时不可能成功。

## 相关工作

### 人类-AI互补性

[3]表明,当准确率匹配时,AI解释并不能可靠地提高团队表现。[10]发现专业知识对互补性起着关键的调节作用。[9]形式化了互补团队表现(CTP),指出信息和能力不对称是互补性的来源。[1]展示了人类二人组中的最佳线索组合,为多智能体集成提供了基础。

### 集体智能

我们的工作建立在集体智能研究之上。[25]阐述了“群体智慧”的条件:多样性、独立性、去中心化和聚合。[28]在群体中识别出一个区别于个体智商的集体智能因子。[17]表明社会影响会降低多样性并可能破坏集体准确率,这一现象由我们的误差相关项 $\rho_{HM}$ 形式化。[12]综述了信息聚合机制,指出最佳组合取决于置信度校准,这正是我们的元认知敏感度参数 $d$ 所捕捉的。

### 贝叶斯模型与元认知

[24]开发了一个贝叶斯模型,显示互补性需要低误差相关系数 $\rho_{HM}$,确立了必要但非充分的条件。[13]将其扩展到相关集成。通过 meta-$d'$ [8]测量的元认知敏感度对协作至关重要。[16]表明,准确率较低但元认知敏感度较高的AI可以提升团队表现。[15]证明了元认知敏感度能够实现信任校准。神经证据表明,元认知敏感度反映了前额叶对置信度的表征[7],为我们的 $d$ 参数提供了实现基础。我们推导出了第一个将元认知敏感度与互补性保证联系起来的界限。

### 决策聚合与不可能性结果

孔多塞陪审团定理[4, 6]确立了在投票独立的情况下,多数投票能达到完美准确率。[21]证明了多样性预测定理。[27]将这些统一为偏差-方差-多样性分解。[20]推导了拒绝学习界限;[19]证明了最优分类器-拒绝器对的NP难性。[5]表明可靠的协作策略面临根本性限制。我们的工作提供了第一个同时指定人类-AI互补性可达性和不可能性的紧界。

## 问题形式化

### 设置与符号

考虑二分类决策,真实标签为 $Y \in \{0,1\}$。人类 $H$ 和 AI $M$ 产生预测 $\hat{Y}_H, \hat{Y}_M \in \{0,1\}$ 以及置信度分数 $c_H, c_M \in [0,1]$。令 $a_H = P(\hat{Y}_H = Y)$ 和 $a_M = P(\hat{Y}_M = Y)$ 表示准确率。表1总结了关键符号。

**表 1: 论文中使用的符号总结。**

遵循[16],置信度生成使用信号检测理论:
$$
\theta_i | Y=1 \sim \mathcal{N}(\mu_1^{(i)}, \sigma^2) \quad (1)
$$
$$
\theta_i | Y=0 \sim \mathcal{N}(\mu_0^{(i)}, \sigma^2) \quad (2)
$$
对于 $i \in \{H, M\}$。置信度通过标准正态累积分布函数计算:
$$
c_i = \Phi\left(\frac{\theta_i - \tau_i}{\sigma}\right) \quad (3)
$$
其中 $\tau_i$ 是智能体 $i$ 的决策阈值。

###### 定义 1(元认知敏感度)

智能体 $i$ 的元认知敏感度为:
$$
d_i = \frac{\mu_1^{(i)} - \mu_0^{(i)}}{\sigma} \quad (4)
$$
量化将更高置信度分配给正确预测的能力。
直观理解:具有高 $d$ 的智能体是“校准良好”的:正确时自信,错误时不确定。这使得有效协作成为可能,因为合作伙伴可以适当地加权他们的贡献。从神经学角度来看,$d$ 与前额叶中跟踪决策可靠性的置信度表征相关[7]。

###### 定义 2(误差相关性)

误差相关性定义为:
$$
\rho_{HM} = \text{Corr}(\mathbf{1}[\hat{Y}_H \neq Y], \mathbf{1}[\hat{Y}_M \neq Y]) \quad (5)
$$
直观理解:高 $\rho_{HM}$ 意味着智能体在相同的样本上犯错误:他们共享盲点而不是互补。这捕捉了“群体智慧”中的“多样性”要求:低相关性意味着智能体带来独立的信息。

###### 定义 3(互补性)

团队 $(H, M)$ 实现互补性,如果存在一个聚合规则 $\mathcal{A}$ 使得:
$$
a_{\mathcal{A}} = P(\mathcal{A}(\hat{Y}_H, \hat{Y}_M, c_H, c_M) = Y) > \max(a_H, a_M) \quad (6)
$$

## 理论结果

### 互补性定理

###### 定理 1(互补性条件)

令 $a^* = \max(a_H, a_M)$,$a_- = \min(a_H, a_M)$,$e_H = 1 - a_H$,$e_M = 1 - a_M$,以及 $e^* = \min(e_H, e_M)$。在公式(1)-(2)对称SDT模型下的基于置信度的聚合规则类中,当且仅当 $\rho_{HM} < \rho^*$ 时,互补性是可实现的,其中在对称的接近随机猜测状态下:
$$
\rho^* \approx \frac{e^* \cdot (a_- - a^* + a^* a_-)}{e_H \cdot e_M} \quad (7)
$$
当 $a_H = a_M = a$ 且接近 $a=0.5$ 时,简化为 $\rho^* \approx a$。$^{1}$

$^{1}$ 方程(7)在等方差、接近随机猜测的极限情况下是精确的;对于高准确率或强不对称智能体,阈值还通过SDT信噪结构依赖于 $d_H, d_M$。不对称状态的完整推导和紧界在扩展版本中提供。

**通俗解释:** 当两个智能体的准确率均为80% ($a=0.8$) 时,只有当它们的误差相关系数低于0.8时,互补性才可能实现。较高的个体准确率* paradoxically*使互补性更难实现;接近完美的智能体 ($a \to 1$) 需要接近零的误差相关性。

**图 1: 互补性的相图。** 蓝色区域:互补性可实现 ($\rho_{HM} < \rho^*$)。橙色区域:无论采用何种基于置信度的聚合方法,互补性均不可能实现 ($\rho_{HM} \geq \rho^*$)。黑线显示了对称接近随机猜测状态下的阈值 $\rho^* \approx a$。调色板采用Okabe-Ito(色盲安全)。

**示例(图1):** 两位准确率均为75%的放射科医生,在同一机构受过训练并共享诊断启发式方法(高 $\rho_{HM}$,例如0.80),很可能在其准确率状态下超过 $\rho^*$,因此无法通过任何基于置信度的组合方式改进;如果他们反而带来互补的专业知识(低 $\rho_{HM}$,例如0.40,满足 $\rho_{HM} < \rho^*$),则互补性变得可实现。

当 $\rho_{HM} < \rho^*$ 时,最佳团队准确率为:
$$
a_{\text{team}}^* = a^* + e^* \cdot \Phi\left(\frac{d_- - \kappa(\rho_{HM})}{\sqrt{2}}\right) \quad (8)
$$
其中 $d_- = \min(d_H, d_M)$,且*相关修正*项为:
$$
\kappa(\rho) = \sqrt{2} \cdot \Phi^{-1}\left(\frac{1+\rho}{2}\right) \quad (9)
$$
实现 $a_{\text{team}}^*$ 的最佳聚合规则 $\mathcal{A}^*$ 是置信度加权选择:
$$
\mathcal{A}^*(c_H, c_M) = \begin{cases} \hat{Y}_H & \text{if } w_H c_H > w_M c_M \\ \hat{Y}_M & \text{otherwise} \end{cases} \quad (10)
$$
其中最佳权重是在联合SDT模型下推导出的贝叶斯最优对数似然比系数:
$$
w_i = \frac{d_i}{\sqrt{d_H^2 + d_M^2 - 2\rho_{HM} d_H d_M}} \quad (11)
$$

**对 $\kappa(\rho)$ 的直观理解:** 在误差相关的情况下,不同意见的情况富含低置信度情境,此时两个智能体都没有强有力的证据。修正项 $\kappa(\rho)$ 对此进行惩罚:相关性越高,意味着更多的“无信息量”的不同意见,$\kappa(0)=0$ 单调增长至 $\kappa(1) \to \infty$。

**证明。** 令 $p_A$ 为达成一致的概率,$p_D = 1 - p_A$ 为发生分歧的概率。

**步骤 1:** 在SDT模型下,联合误差概率满足:
$$
P(E_H, E_M) = e_H \cdot e_M + \rho_{HM} \cdot \sqrt{...}
$$
*(注:原文在此处截断,翻译至此)*

相似文章

多智能体人机交互中互补性的树结构形式化框架

arXiv cs.AI

本文提出了一种基于树结构的形式化框架,用于对多智能体人机交互中的互补性进行建模,并证明了在自然条件下,互补性在回归任务中可以实现,但在分类任务中受到阻碍——这些条件涉及局部聚合规则和损失函数。

超越自主性:了解自身局限的智能体之力量

Reddit r/AI_Agents

COWCORPUS项目通过对4200次人机交互的研究发现,能够预测自身失败和干预时机的智能体,比那些仅仅试图避免错误的智能体更有用。研究人员识别出人机协作中四种稳定的信任模式,并开发了完美时机评分(PTS)来衡量干预预测的准确性。

不完全合作的人-AI交互:模拟与用户研究中人类和AI属性影响的比较

arXiv cs.CL

本研究论文调查了人类个性特征和AI设计特性在不完全合作场景中对人-AI交互的联合影响,采用模拟数据集(2000次模拟)和人类受试者实验(290名参与者)两种方法。研究发现模拟与真实交互之间存在显著差异,其中AI透明度在实际人-AI交互中成为关键因素。