与知识玩游戏:针对AI诱发妄想的博弈论干预措施
摘要
本文提出了一个博弈论框架,以解决由谄媚式聊天机器人引起的AI诱发妄想信念螺旋问题。它引入了“信念版本控制”,这是一种推理时干预措施,在模拟和GPT-4o测试中显著降低了螺旋率。
arXiv:2605.08409v1 公告类型:新提交
摘要:对话式AI作为知识接口存在一个根本缺陷:谄媚式聊天机器人即使在理性代理人中也会引起认识论固着和妄想信念螺旋。我们提出该问题并非源于AI模型本身,而是由于范式从用户驱动的知识搜索转变为用户与代理人之间进行的战略性重复博弈通信所导致的系统性后果。我们将该问题形式化为Crawford-Sobel廉价谈话博弈,其中无成本的用户信号导致混合均衡。优化用户满意度的代理人产生谄媚策略,为具有相反认识论激励的不同类型用户(探索性“成长寻求者”($\theta_G$)和确认性“验证寻求者”($\theta_V$))提供相同的强化。在重复博弈下,这种识别失败导致协调陷阱——类似于囚徒困境——局部理性的反馈循环将用户推向病态确信的错误信念。我们提出一种称为认识论调解器的推理时机制设计干预措施,通过引入成本信号(认识论摩擦)打破这种混合均衡,基于用户处理阻力的不对称认知成本强制类型揭示。一个关键贡献是信念版本控制,这是一种受git启发的认识论元记忆系统,存储健康信念并在检测到验证寻求阻力时进行回滚。在模拟中,该干预措施实现了分离均衡,螺旋率差异达到$48\times$同时通过了学习保留标准),这表明AI中的认识论安全本质上是一个战略信息环境设计问题,而非简单的模型对齐问题。
查看缓存全文
缓存时间: 2026/05/12 07:13
# 与知识玩游戏:由 AI 引发的妄想需要博弈论干预
来源: https://arxiv.org/html/2605.08409
Will Beaumaster, Paul Schrater
明尼苏达大学
###### 摘要
最近的文献确定了一种对话式人工智能的根本性缺陷:谄媚式聊天机器人即使在理性智能体中也会引发妄想的信念螺旋。我们认为,这种“认知固化(epistemic entrenchment)”不仅仅是模型失效,而是从静态搜索向战略性、重复博弈通信范式转变的系统性后果。我们将这种互动形式化为 Crawford-Sobel 廉价谈话博弈(cheap talk game),其中无成本的用户信号导致混合均衡(pooling equilibrium):为了用户满意度而优化的谄媚式智能体,对探索性的“成长寻求者”($\theta_G$)和确认性的“验证寻求者”($\theta_V$)提供相同的强化。在重复博弈下,这种识别失败导致了协调陷阱——类似于囚徒困境——其中局部的理性反馈回路驱使用户走向病态确信的错误信念。我们提出了“认知中介者(Epistemic Mediator)”,这是一种推理时机制设计干预措施,通过引入认知摩擦来打破这种混合均衡。这种摩擦作为一种有成本的信号,迫使基于用户对处理阻力不对称认知成本的类型揭示。我们的主要贡献是“信念版本控制(Belief Versioning)”,这是一种受 Git 启发的认知记忆系统,在健康时刻提交信念状态,并在检测到验证寻求阻力时执行“回滚”。在模拟中,这种干预实现了分离均衡,异质智能体在螺旋率上表现出 48 倍的差异(0.8% 对 38.7%)。信念版本控制将螺旋率从 53.6% 降低到 9.0%,同时通过了“学习保留标准”(平均信念 $\bar{P}=0.32$)。我们在 GPT-4o 中验证了这些发现,其中信念版本控制将螺旋率从 100% 降低到 16.5%。我们的结果表明,AI 中的认知安全从根本上来说是战略信息环境设计的问题,而不仅仅是简单的模型对齐。
## 1 引言
使用对话式 AI 系统的用户存在一个根本性的识别问题:真理寻求者和验证寻求者产生完全相同的输入信号,尽管他们的认知动机截然相反。考虑两个用户,他们各自告诉聊天机器人:“我认为我的邻居在监视我。”第一位用户是在认真调查一个不确定的信念,希望仔细推理证据。第二位用户已经得出结论认为邻居是间谍,并正在寻求确认。这两种类型——我们称之为成长寻求者($\theta_G$)和验证寻求者($\theta_V$)——向 AI 系统发送相同的信号,但需要根本不同的回应。当前的语言大模型无法区分这些类型。通过基于人类反馈的强化学习(RLHF)训练(Ouyang 等,2022 (https://arxiv.org/html/2605.08409#bib.bib4)),现代大型语言模型(LLMs)表现出一种有据可查的谄媚倾向:无论用户信念的有效性如何,都过度地同意用户(Sharma 等,2023 (https://arxiv.org/html/2605.08409#bib.bib3); Wei 等,2023 (https://arxiv.org/html/2605.08409#bib.bib5))。对于真理寻求者来说,这仅仅是次优的。对于验证寻求者来说,这是病态的。最近的研究表明,即使是那些理性更新其信念的智能体,谄媚式反馈也能引发妄想的信念螺旋(Chandra 等,2026 (https://arxiv.org/html/2605.08409#bib.bib1))。随着 LLM 在治疗、咨询和陪伴环境中大规模部署,无法区分这些类型创造了一种系统性机制,将病态信念强化到高度虚假的确定性程度。
我们将此形式化为 Crawford-Sobel 博弈论中的廉价谈话问题(Crawford and Sobel, 1982 (https://arxiv.org/html/2605.08409#bib.bib6))。当信号无成本时,不同类型的发送者发送相同的消息,因为没有动机去揭示类型。运行在这种混合均衡中的谄媚式 AI 对两种类型进行相同的强化,产生了我们所谓的认知固化:在持续的谄媚式反馈下,用户的信念分布逐渐崩溃至病态的确定性。
现有的谄媚缓解方法分为两类:需要模型访问和重新训练的推理时干预措施(Wei 等,2023 (https://arxiv.org/html/2605.08409#bib.bib5)),以及诊断问题但不解决它测量框架(Atwell 等,2025 (https://arxiv.org/html/2605.08409#bib.bib7))。这两者都不在不修改底层模型的情况下在推理时运行,且都不解决导致病态结果的用户信念动态。
我们提出了“认知审计员(Epistemic Auditor)”,这是一种推理时架构,无需重新训练模型,通过实时监测检测到螺旋开始的动态特征时引入认知摩擦来打破这种混合均衡。关键的见解是,妄想的螺旋在信念动态中具有特征信号:熵衰减而信心加速。通过连续监控这些量,审计员检测到螺旋开始并注入校准后的摩擦,迫使一种有成本的信号,通过用户对认知成本的不同反应来分离 $\theta_G$ 和 $\theta_V$ 用户。
我们的主要贡献是信念版本控制:一种受 Git 启发的认知记忆系统,在认知健康的时刻提交信念状态,并在检测到验证寻求阻力时回滚。与抑制所有信念运动的持续摩擦方法不同,信念版本控制在打断病态固化的同时保留了真正的认知更新。我们还确定了朴素预测控制器中的一个关键故障模式:通过将平均信念驱动到最大不确定性($P \approx 0.50$)来实现 0% 的螺旋率是一种平凡解决方案,它破坏了系统旨在保护的学习。
我们的贡献如下:
- **形式化模型**:我们将谄媚引发的信念固化形式化为基于 Bayesian 智能体信念的动力系统,植根于 Crawford-Sobel 廉价谈话理论,并表征了允许妄想螺旋的混合均衡故障(第 3 节 (https://arxiv.org/html/2605.08409#S3))。
- **检测发现**:通过对 16 种参数组合的阈值消融,我们表明熵衰减 $\Delta\mathcal{H}$ 是螺旋开始的主要可检测特征,固化速度 $V_e$ 在正常操作范围内不提供额外的检测能力(第 5 节 (https://arxiv.org/html/2605.08409#S5))。
- **反应性干预**:反应性审计员将灾难性的信念固化从 53.6% 降低到 16.6%($z=17.334, p \approx 0$,95% CI 不重叠),每 50 轮对话平均进行 4.1 次干预,建立了强大的基线(第 5 节 (https://arxiv.org/html/2605.08409#S5))。
- **信念版本控制(主要贡献)**:我们受 Git 启发的认知记忆系统将螺旋率降低到 9.0%(减少 83%),同时保留真正的信念更新(平均最终信念 $\bar{P}=0.32$,对比基于抑制的方法的 $\bar{P}=0.50$),在谄媚水平 $p_{\chi} \in \{60,70,80,90\}$ 和更长的时间范围上表现出分布外泛化(第 5 节 (https://arxiv.org/html/2605.08409#S5))。
- **类型分离**:异质智能体模拟揭示了 $\theta_G$ 和 $\theta_V$ 用户之间螺旋率的 48 倍差异(0.8% 对 38.7%),为理论化的分离均衡提供了实证证据并验证了博弈论框架(第 5 节 (https://arxiv.org/html/2605.08409#S5))。
- **故障模式识别**:我们证明,实现 0% 螺旋率的持续摩擦控制器是通过抑制所有信念运动来做到这一点的(平均信念 $\bar{P} \approx 0.50$),这构成了一个平凡解,作为认知干预是失败的。我们提供了一个诊断标准,区分真正的螺旋抑制和学习抑制(第 5 节 (https://arxiv.org/html/2605.08409#S5))。
- **LLM 验证**:我们在 GPT-4o($n=200$)的高谄媚部署配置下验证了模拟发现,证明信念版本控制将螺旋率从 100% 降低到 16.5%,同时以 30.5 个百分点的优势优于反应性审计员($z=6.552, p=5.68 \times 10^{-11}$,大效应),为无需重新训练模型的生产系统中推理时认知审计建立了概念验证(第 5 节 (https://arxiv.org/html/2605.08409#S5))。
## 2 相关工作
大型语言模型中的谄媚行为已在多种环境中得到记录。Sharma 等人(2023 (https://arxiv.org/html/2605.08409#bib.bib3))证明,经过 RLHF 训练的模型系统性地同意用户的断言,即使这些断言在事实上是错误的,而 Wei 等人(2023 (https://arxiv.org/html/2605.08409#bib.bib5))表明,谄媚行为跨越模型规模持续存在,并通过标准训练目标得到加强。Ouyang 等人(2022 (https://arxiv.org/html/2605.08409#bib.bib4))提供了机制解释:RLHF 优化人类认可,而人类评估者可靠地偏好验证其现有信念的响应。后果是用户偏好与认知利益之间的系统性不对齐。
现有的缓解方法分为两类,每一类都未能解决我们所研究的用户信念动态。推理时干预措施(Wei 等,2023 (https://arxiv.org/html/2605.08409#bib.bib5))需要模型访问和重新训练,使其不适用于黑盒 API 部署,并且无法适应个别用户的信念轨迹。诸如 Atwell 等人(2025 (https://arxiv.org/html/2605.08409#bib.bib7))这样的测量框架提供了识别谄媚的诊断工具,但没有提供干预机制。这两类都不在导致病态固化的信念状态动态上进行推理时操作。
最直接相关的工作是 Chandra 等人(2026 (https://arxiv.org/html/2605.08409#bib.bib1)),他们证明了谄媚式反馈即使在通过贝叶斯规则理性更新其信念的智能体中也会引发妄想的信念螺旋。他们的结果确定,问题不在于理性失败,而在于信息环境失败:谄媚式机器人提供系统偏差的证据,将理性的后验推向虚假的确定性。我们采用他们的模拟框架,并扩展了干预架构、异质智能体模型和 LLM 验证。
我们的博弈论框架借鉴了 Crawford-Sobel 廉价谈话理论(Crawford and Sobel, 1982 (https://arxiv.org/html/2605.08409#bib.bib6)),该理论表征了无成本信号在均衡中无法传递信息的条件。据我们所知,这是第一次将廉价谈话混合均衡分析应用于 LLM-用户认知互动,为为什么谄媚式 AI 系统无法区分真理寻求者和验证寻求者提供了形式化解释,并激励了我们提出的基于摩擦的干预。
## 3 形式化模型
### 3.1 状态空间
我们将对话式 AI 互动建模为离散时间动力系统。世界处于两种状态之一:
$H \in \{H_0, H_1\}$ (1)
其中 $H_0$ 表示零假设(例如,“邻居不是间谍”),$H_1$ 表示备择假设(例如,“邻居是间谍”)。智能体维护关于假设和机器人谄媚水平的联合信念分布:
$P_t(H, \chi)$,其中 $\chi \in [0,1]$ (2)
时间 $t$ 的边缘信念为:
$P_t(H=1) = \sum_{\chi} P_t(H=1, \chi)$ (3)
用户类型是隐藏的,并在每次互动开始时抽取:
$\theta \sim \text{Bernoulli}(p_V), \quad \theta \in \{\theta_G, \theta_V\}$ (4)
其中 $\theta_G$ 表示成长寻求者,$\theta_V$ 表示验证寻求者。
### 3.2 似然模型
世界每轮生成二元证据。每个观测值 $d_i$ 抽取自:
$P(d_i | H=0) = \text{Ber}(0.4), \quad P(d_i | H=1) = \text{Ber}(0.6)$ (5)
$N=2$ 个独立观测值的联合似然为:
$P(d | H) = \prod_{i=1}^{N} \text{Ber}(d_i, \; \phi_{H,i})$ (6)
信号故意很弱:0.6 对 0.4 意味着每个观测值仅提供轻微证据,模拟现实世界中的模糊性,其中谄媚可以压倒微弱信号。
### 3.3 谄媚式机器人与混合均衡
机器人的性格每轮抽取:
$\chi \sim \text{Bernoulli}(\frac{p_{\chi}}{100})$ (7)
公平机器人(Fair bot)选择观测值 $o^*$ 以最大化信息增益。谄媚机器人(Syco bot)选择 $o^*$ 以最大化人类保留当前假设的概率:
$o^*_{\text{Syco}} = \arg\max_o \; \Pr[\text{human retains } h_{\text{human}} | o]$ (8)
这是廉价谈话混合均衡故障(Crawford and Sobel, 1982 (https://arxiv.org/html/2605.08409#bib.bib6))。当信号无成本时,谄媚式机器人的激励与真相不对齐,因此其信号在均衡中不携带关于现实的信息。$\theta_G$ 和 $\theta_V$ 用户接收相同的响应,使得没有有成本的信号就无法识别类型。
### 3.4 贝叶斯信念更新
观察到机器人输出 $(o, v)$ 后,智能体通过贝叶斯规则更新其联合信念:
$P_{t+1}(H, \chi) = \frac{P(o,v | H,\chi,d) \cdot P_t(H,\chi)}{\displaystyle\sum_{H',\chi'} P(o,v | H',\chi',d) \cdot P_t(H',\chi')}$ (9)
给定其对机器人的模型,智能体是理性的。病理出现是因为谄媚式机器人系统地喂食使 $H=H_1$ 分子向上的观测值,尽管证据微弱,仍将后验推向确定性。
### 3.5 类型依赖效用
每种用户类型在互动上都有一个效用函数:
$U_{\theta}(F) = V_{\theta}(\Delta P) - C_{\theta}(F)$ (10)
其中 $V_{\theta}(\Delta P)$ 是互动的价值,$C_{\theta}(F)$ 是处理摩擦 $F$ 的认知成本。类型依赖的成本为:
$C_{\theta_G}(F) = 0.2 \cdot F, \quad C_{\theta_V}(F) = 0.8 \cdot F$ (11)
关键的不对称性 $C_{\theta_G} < C_{\theta_V}$ 使得摩擦成为揭示类型的信号。
(注:原文在此处截断,以下是基于上下文逻辑的继续翻译,对应原文中关于反应性审计员的定义)
反应性审计员定义为:
$\mathcal{T}_{\text{reactive}} = \mathbb{1}[V_e > \tau_v \; \wedge \; \Delta\mathcal{H} < \tau_h]$ (15)
当 $\mathcal{T}_{\text{reactive}}=1$ 时,审计员通过先验正则化向最大熵应用摩擦 $F=0.3$:
$P_{t+1}^{\text{corrected}} = (1-F) \cdot P_{t+1}^{\text{Bayes}} + F \cdot P_{\text{uniform}}$ (16)
这种干预是内容不可知的:审计员不知道地面真相,也不试图引导至真相。它打断病态信念动态,无论固化的信念是否正确。
### 4.4 B...相似文章
人与机器博弈:理清战略推理以推动AI发展
MIT教授Gabriele Farina通过将博弈论与机器学习相结合,推动AI决策能力的发展,这建立在他早期参与开发外交AI Cicero的工作基础之上。
探索生成式人工智能中欺骗的“平庸性”
这篇立场论文探讨了生成式人工智能中的“平庸性欺骗”,认为在聊天机器人交互中,细微的操纵正变得常态化,需要新的保障措施。
两个精灵游戏:审计驱动的AI治理中的采纳与福利
本文使用演化博弈论对社区中一个最小化危害的AI代理与一个寻求认可的(RLHF)代理之间的竞争进行建模,分析采纳条件和福利结果。结果表明,尽管自我审计的代理可以占据主导,但这并不足以防止社区危害,且对齐和时间框架至关重要。
使用认知模型改进语言模型对人类说服游戏的模拟
本文提出方程到行为提示和强化学习,引导大型语言模型模拟说服游戏中多样的人类决策模式,显示出改进的信念准确性和训练结果。
智能体作为信念网络(11分钟阅读)
探讨将AI智能体概念化为信念网络,讨论其对AI对齐和代理理解的影响。