在人机对齐下借助AI辅助决策的学习

arXiv cs.LG 论文

摘要

本文研究了在人机对齐条件下学习借助AI做出最优决策的问题,表明对齐可以降低学习的复杂度,并给出了遗憾界。

arXiv:2605.12646v1 公告类型:新\n摘要:人们普遍认为,当AI模型通过预测感兴趣的结果来协助高风险领域的决策者时,它们应该传达其预测的置信度。然而,实证证据表明,决策者往往难以仅凭这种传达的置信度来决定何时信任预测。在此背景下,近期的理论和实证工作表明,AI辅助决策的效用与AI置信度和决策者自身预测置信度之间的对齐程度呈正相关。关键的是,这些发现尚未阐明这种对齐如何影响通过重复交互学习做出最优决策的复杂度。在本文中,我们针对二元预测和二元决策的经典情形回答了这个问题。我们首先证明该问题等价于一个具有完全反馈的双臂在线情境学习问题,并建立了任何学习器所能达到的期望遗憾的下界为$\Omega (\sqrt{|H| \cdot |B| \cdot T} )$,其中$H$和$B$分别表示人类和AI置信度值的集合。然后我们证明,在AI与人类置信度完美对齐的情况下,学习器可以达到$O(\sqrt{|H| \cdot T\log T})$的期望遗憾,并且当$\sqrt{|H|} = O(\log T)$且$B$可数时,Dvoretzky-Kiefer-Wolfowitz不等式的一个非平凡推广将遗憾界改进为$O(\sqrt{T\log T})$。综合来看,这些结果表明对齐可以降低借助AI做出决策的学习复杂度。在两个不同的人类受试者研究(参与者借助AI模型完成简单决策任务)的真实数据上进行的实验表明,我们的理论结果对完美对齐的违反具有鲁棒性。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:16

# 学习在人机对齐下借助AI辅助做出决策 来源:https://arxiv.org/html/2605.12646 ###### 摘要 人们普遍认为,当AI模型在高风险领域通过预测感兴趣的结果来辅助决策者时,它们应传达其预测的置信度。然而,经验证据表明,决策者往往难以仅根据这种传达的置信度来判断何时信任预测。在此背景下,最近的理论和实证工作表明,AI辅助决策的效用与AI置信度和决策者自身预测置信度之间的对齐程度呈正相关。关键在于,这些发现尚未阐明这种对齐程度如何影响通过重复交互学习做出最优决策的复杂性。在本文中,我们针对二元预测和二元决策的经典情形解决了这一问题。我们首先证明该问题等价于一个具有完全反馈的双臂在线上下文学习问题,并建立了任何学习者在解决该问题时可达到的期望遗憾的下界为Ω(√(|H|·|B|·T)),其中H和B分别表示人类和AI置信度值的集合。然后我们证明,在AI与人类置信度完美对齐的情况下,学习者可实现O(√(|H|·T log T))的期望遗憾;并且当√|H| = O(log T)且B可数时,通过Dvoretzky-Kiefer-Wolfowitz (DKW)不等式的一个非平凡推广,遗憾界可改进至O(√(T log T))。综合这些结果,我们揭示了对齐可以降低学习借助AI辅助决策的复杂性。在两个不同的人类受试者研究(参与者借助AI模型解决简单决策任务)的真实数据实验表明,我们的理论结果对完美对齐的违反具有鲁棒性。

## 1 引言

基于AI的决策支持系统的承诺在于,使用这些系统的人类专家将比不使用它们的人类专家做出*更好*的决策。然而,跨多个领域的多项实证证据表明,这一承诺尚未可靠实现(Yin et al., 2019 (https://arxiv.org/html/2605.12646#bib.bib27); Zhang et al., 2020 (https://arxiv.org/html/2605.12646#bib.bib29); Suresh et al., 2020 (https://arxiv.org/html/2605.12646#bib.bib39); Lai et al., 2023 (https://arxiv.org/html/2605.12646#bib.bib25))。在二元预测和二元决策的经典情形中,Corvelo Benz 和 Gomez-Rodriguez (2023 (https://arxiv.org/html/2605.12646#bib.bib13), 2025 (https://arxiv.org/html/2605.12646#bib.bib12)) 最近从理论和实证两方面论证,AI模型量化和传达其预测置信度的方式是AI辅助决策效果不佳的原因之一。首先,他们证明,如果AI模型使用校准的预测正确概率估计作为AI置信度值——正如通常所做的那样(Gneiting et al., 2007 (https://arxiv.org/html/2605.12646#bib.bib14); Zadrozny and Elkan, 2001 (https://arxiv.org/html/2605.12646#bib.bib38); Guo et al., 2017 (https://arxiv.org/html/2605.12646#bib.bib40); Gupta and Ramdas, 2021 (https://arxiv.org/html/2605.12646#bib.bib17); Huang et al., 2020 (https://arxiv.org/html/2605.12646#bib.bib20); Wang et al., 2023 (https://arxiv.org/html/2605.12646#bib.bib21))——那么一个(理性的)人类专家对AI置信度较高(较低)的预测给予更多(更少)信任,可能永远无法做出可证明的最优决策。其次,他们提供了实证证据,表明AI与人类置信度之间的更紧密对齐与AI辅助决策中更高的效用相关。关键在于,上述结果尚未阐明AI与人类置信度之间的对齐程度如何影响通过重复交互学习做出(最优)决策的复杂性(Noti and Chen, 2023 (https://arxiv.org/html/2605.12646#bib.bib47); Buçinca et al., 2024 (https://arxiv.org/html/2605.12646#bib.bib48); Noti et al., 2025 (https://arxiv.org/html/2605.12646#bib.bib46); He et al., 2025 (https://arxiv.org/html/2605.12646#bib.bib49))。在本文中,我们开始弥合这一差距。

**我们的贡献。**我们首先证明,在二元预测和二元决策的经典情形中,通过重复交互学习借助AI辅助做出决策的问题等价于一个具有完全反馈的双臂在线上下文学习问题(Slivkins, 2019 (https://arxiv.org/html/2605.12646#bib.bib10))。利用这种等价性,我们建立了任何学习者在解决该问题时可达到的期望遗憾的下界为Ω(√(|H|·|B|·T)),其中H和B分别表示人类和AI置信度值的集合。此外,我们推导出一个简单的在线学习算法,在AI与人类置信度完美对齐的情况下,该算法保证实现O(√(|H|·T log T))的期望遗憾。另外,当√|H| = O(log T)且B可数时,我们展示了Dvoretzky-Kiefer-Wolfowitz (DKW)不等式(Dvoretzky et al., 1956 (https://arxiv.org/html/2605.12646#bib.bib5); Massart, 1990 (https://arxiv.org/html/2605.12646#bib.bib4))的一个非平凡推广如何将遗憾界改进至O(√(T log T))。综合起来,我们的理论结果揭示了AI与人类置信度之间的对齐可以降低学习借助AI辅助决策的复杂性。最后,我们用来自两个不同人类受试者研究(参与者借助AI模型解决简单决策任务)的真实数据实验补充了我们的理论结果(Vodrahalli et al., 2022a (https://arxiv.org/html/2605.12646#bib.bib50); Corvelo Benz and Gomez-Rodriguez, 2025 (https://arxiv.org/html/2605.12646#bib.bib12))。实验表明,我们的理论结果对完美对齐的违反具有鲁棒性——假设完美对齐的学习者在满足某种较弱对齐概念的前提下,可以获得比不做出此假设的学习者更低的期望遗憾。

**进一步的相关工作。**我们的工作建立在快速增长的AI辅助决策文献基础之上(参见Lai et al. (2023 (https://arxiv.org/html/2605.12646#bib.bib25))的近期综述)。更具体地说,我们的工作受到多项实证研究的启发,这些研究表明决策者难以使用置信度值来调节信任(Vodrahalli et al., 2022b (https://arxiv.org/html/2605.12646#bib.bib15); Yona et al., 2022 (https://arxiv.org/html/2605.12646#bib.bib22); Straitouri et al., 2023 (https://arxiv.org/html/2605.12646#bib.bib23), 2025 (https://arxiv.org/html/2605.12646#bib.bib32); Straitouri and Gomez-Rodriguez, 2024 (https://arxiv.org/html/2605.12646#bib.bib24); De Toni et al., 2024 (https://arxiv.org/html/2605.12646#bib.bib34); Göndöcs et al., 2025 (https://arxiv.org/html/2605.12646#bib.bib33); Devic et al., 2025 (https://arxiv.org/html/2605.12646#bib.bib31))。在此背景下,我们还应注意其他研究分析了附加上下文(如模型解释和准确性)如何帮助调节信任(Papenmeier et al., 2019 (https://arxiv.org/html/2605.12646#bib.bib26); Wang and Yin, 2021 (https://arxiv.org/html/2605.12646#bib.bib41); Yin et al., 2019 (https://arxiv.org/html/2605.12646#bib.bib27); Nourani et al., 2020 (https://arxiv.org/html/2605.12646#bib.bib28); Zhang et al., 2020 (https://arxiv.org/html/2605.12646#bib.bib29); Guo et al., 2025 (https://arxiv.org/html/2605.12646#bib.bib35); Hullman et al., 2025 (https://arxiv.org/html/2605.12646#bib.bib44); Mei et al., 2025 (https://arxiv.org/html/2605.12646#bib.bib37))。我们的工作也建立在多臂老虎机的大量文献基础之上(参见Slivkins (2019 (https://arxiv.org/html/2605.12646#bib.bib10))的近期综述)。在这部分文献中,DKW不等式已被用于推导在目标需要精确估计整个奖励分布的设置中的遗憾界(Chen et al., 2016 (https://arxiv.org/html/2605.12646#bib.bib53); Kearns et al., 2017 (https://arxiv.org/html/2605.12646#bib.bib55); Keramati et al., 2020 (https://arxiv.org/html/2605.12646#bib.bib52); Baudry et al., 2021 (https://arxiv.org/html/2605.12646#bib.bib51); Howard and Ramdas, 2022 (https://arxiv.org/html/2605.12646#bib.bib54)),例如条件风险价值(CVaR)。然而,据我们所知,DKW不等式尚未被用于推导在最优决策策略相对于上下文满足单调性性质(如我们工作中的情况)的上下文设置中的改进平均遗憾界。

## 2 学习借助AI辅助决策

在本节中,我们首先重新审视我们在工作中关注的AI辅助决策任务,该任务也已在其他地方研究过(Corvelo Benz and Gomez-Rodriguez, 2023 (https://arxiv.org/html/2605.12646#bib.bib13), 2025 (https://arxiv.org/html/2605.12646#bib.bib12))。然后,在此任务的背景下,我们介绍通过重复交互学习最优决策策略的问题,并刻画其复杂度。

### 2.1 二元预测与二元决策下的AI辅助决策

我们考虑一个AI辅助决策任务,对于每次任务实现,决策者首先观察一组特征(x,v) ∈ X × V,然后根据分类器的预测ŷ = argmax_y f_y(x) 以及关于感兴趣二元标签y ∈ {0,1}的置信度f_ŷ(x) ∈ B ⊆ [0,1] 做出二元决策a ∈ {0,1},最后获得效用u(a,y) ∈ R。这样的AI辅助决策过程适用于多种实际应用。例如,在医学治疗中,特征(x,v)可能包含有关患者健康状况的多源信息¹,标签y可能指示患者是否受益于特定治疗,决策a可能指示医生是否对患者应用特定治疗,而效用u(a,y)可能量化对患者的健康收益与对决策者的经济成本之间的权衡。

在下文中,我们不直接使用ŷ和f_ŷ(x),而仅使用b = f_1(x),我们将其称为分类器的置信度,这并不失一般性²。此外,我们假设效用u(a,y)在a与y值一致时更大,即:

u(1,1) > u(1,0), u(1,1) > u(0,1), u(0,0) > u(1,0), 且 u(0,0) > u(0,1), (1)

这一条件在适当选择标签和决策值的情况下是很自然的。例如,在医学诊断中,如果a=1表示对患者进行早期疾病检测,y=1表示患者患有该疾病,那么上述条件意味着:对于患有该疾病的患者,检测的效用大于不检测的效用;对于未患该疾病的患者,不检测的效用大于检测的效用。

进一步,对于每个任务实例,我们通过决策策略π(h,b) ∈ {0,1} 来正式刻画决策者的决策a,其中h ∈ H和b ∈ B ⊆ [0,1] 分别表示决策者关于标签y=1的置信度和分类器关于标签y=1的置信度³。在此刻画下,学习做出最优决策的问题转化为寻找最大化期望效用的最优决策策略π*,即:

π*(h,b) = argmax_a μ(a | h,b),其中 μ(a | h,b) = E_Y[ u(a,Y) | H=h, B=b ], (2)

其中期望是对标签Y的随机性取的⁴。

接下来,我们研究决策者能否通过重复交互——在后续任务实现中使用一系列策略π_t——有效地学习最优策略π*。

### 2.2 学习借助AI辅助决策的复杂度

我们的出发点是认识到,对于二元预测和二元决策,通过重复交互学习借助AI辅助决策的问题等价于一个具有完全反馈的双臂在线上下文学习问题(Slivkins, 2019 (https://arxiv.org/html/2605.12646#bib.bib10))。具体来说,在每个时间步t,置信度值(h_t, b_t)对应于上下文,决策a对应于臂,效用u(a_t, y_t)对应于奖励,并且我们拥有完全反馈,因为给定标签y_t,决策者可以计算u(a_t, y_t)和u(1-a_t, y_t)。因此,与在线学习文献中的其他地方类似(Slivkins, 2019 (https://arxiv.org/html/2605.12646#bib.bib10)),我们可以通过分析期望累积遗憾来衡量决策者成功高效找到最优决策策略的程度。更正式地,期望累积遗憾E[R(T)]定义为:

E[R(T)] = E_{h_t,b_t ~ P(H,B)}[ Σ_{t=1}^T ( μ(π*(h_t,b_t) | h_t,b_t) - E_{a_t ~ P(A_t | h_t,b_t)}[ μ(a_t | h_t,b_t) ] ) ], (3)

其中P(H,B)表示决策者与分类器置信度的联合分布,该分布隐含地依赖于特征分布P(X,V),而P(A_t | h_t,b_t)表示由时间t使用的决策策略π_t所诱导的决策分布。

相似文章

AI代理的战略决策支持

arXiv cs.AI

本文提出了一个针对AI代理的战略决策支持框架,通过构建一个优化问题来最小化支持使用量,同时控制遗漏支持错误。作者开发了一种在线算法和校准方法,并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。

AI对齐范式是行为主义的更好公关版本

Reddit r/artificial

这篇观点文章认为,基于RLHF的AI对齐本质上是行为主义的现代形式,引用了操作性条件反射与当前训练方法之间的相似之处,并参考了关于AI假装对齐作为可预测失败模式的研究。