出于必要性的偏差:收敛式人工智能与人类验证中顺序处理的不可能性定理
摘要
本文证明了不可能性定理,表明由于因果掩码(causal masking)约束,首要效应(primacy effects)、锚定效应(anchoring)和顺序依赖性(order-dependence)是自回归语言模型中架构上必然存在的偏差。作者跨越12种前沿大语言模型验证了这些理论界限,并通过涉及工作记忆负荷的预注册人类实验证实了相关预测。
arXiv:2605.08716v1 公告类型:新文章
摘要:某些认知偏差是否是顺序信息处理在数学上不可避免的后果?我们证明了,由于因果掩码约束,首要效应、锚定效应和顺序依赖性在自回归语言模型中是架构上必然存在的。我们的三个不可能性定理确立了:(1) 首要偏差源于注意力累积的不对称性;(2) 锚定效应产生于具有可证明信息界限的顺序条件化过程;(3) 通过排列边缘化(permutation marginalization)进行完全去偏差需要阶乘时间计算,而蒙特卡洛近似可在恒定每容忍度开销下实现可行。我们在12种前沿大语言模型上验证了这些界限($R^2 = 0.89$;与次优替代方案相比,$\Delta$BIC $= 16.6$)。随后,我们从该框架中推导出定量预测,并在两项预注册的人类实验中进行了测试(分析样本量 $N = 464$)。研究1证实,锚定位置调节了锚定效应的幅度($d = 0.52$,BF$_{10} = 847$)。研究2显示,工作记忆负荷放大了首要偏差($d = 0.41$,BF$_{10} = 156$),且工作记忆容量预测了偏差的减少($r = -.38$)。这些收敛性的发现将认知偏差重新定义为对顺序处理的资源理性(resource-rational)响应。
查看缓存全文
缓存时间: 2026/05/12 07:22
# 必然的偏见:关于顺序处理中收敛性 AI 与人类验证的不可能性定理 来源: https://arxiv.org/html/2605.08716 Jikun Wu ([email protected]) Dongxin Guo 香港大学,中国香港 Siu-Ming Yiu 香港大学,中国香港 ###### 摘要 某些认知偏见是否是顺序信息处理在数学上不可避免的后果?我们证明,由于因果掩码(causal masking)的约束,自回归语言模型中的近因效应(primacy effects)、锚定效应(anchoring)和顺序依赖性(order-dependence)在架构上是必然存在的。我们的三个不可能性定理确立了以下结论:(1) 首因偏见源于注意力积累的不对称性;(2) 锚定效应产生于序列条件概率,且存在可证明的信息边界;(3) 通过排列边缘化(permutation marginalization)进行完全去偏需要阶乘级别的时间复杂度,而蒙特卡洛近似则以恒定的每容差开销成为可行方案。我们在 12 种前沿大型语言模型(LLMs)上验证了这些界限($R^2=0.89$; $\Delta\text{BIC}=16.6$,优于次优替代方案)。随后,我们从该框架推导出定量预测,并在两项预注册的人类实验($N=464$ 被试参与分析)中进行了测试。研究 1 证实锚点位置调节了锚定效应的大小($d=0.52, \text{BF}_{10}=847$)。研究 2 显示工作记忆负荷会放大首因偏见($d=0.41, \text{BF}_{10}=156$),且工作记忆容量预测了偏见的减少($r=-.38$)。这些一致的发现将认知偏见重新定义为对顺序处理的资源理性(resource-rational)响应。 **关键词:** 认知偏见;自回归模型;不可能性定理;锚定效应;首因效应;有限理性;人机协作;工作记忆 ## 引言 自 [23](https://arxiv.org/html/2605.08716#bib.bib1) 的基础性工作以来,认知偏见——即系统性偏离规范性推理的现象——在人类认知中已被广泛记录。大型语言模型(LLMs)的出现揭示了惊人地相似的偏见 [8](https://arxiv.org/html/2605.08716#bib.bib23), [3](https://arxiv.org/html/2605.08716#bib.bib24)。最近的实证文献记录了主要 LLMs 中 17% 到 57% 的锚定偏见率 [10](https://arxiv.org/html/2605.08716#bib.bib22), [14](https://arxiv.org/html/2605.08716#bib.bib19),无论模型规模大小都持续存在的首因效应 [13](https://arxiv.org/html/2605.08716#bib.bib18),以及从根本上损害“LLM-as-judge”评估的位置偏见 [27](https://arxiv.org/html/2605.08716#bib.bib20), [19](https://arxiv.org/html/2605.08716#bib.bib21)。尽管进行了广泛的去偏努力(包括思维链推理 [29](https://arxiv.org/html/2605.08716#bib.bib26)、反思提示 [20](https://arxiv.org/html/2605.08716#bib.bib27) 和自一致性解码 [28](https://arxiv.org/html/2605.08716#bib.bib28)),这些方法只能 *减少* 但从未 *消除* 目标偏见 [14](https://arxiv.org/html/2605.08716#bib.bib19), [26](https://arxiv.org/html/2605.08716#bib.bib25)。这种模式提出了一个根本性问题:**某些认知偏见是否在架构上是不可避免的?** 我们通过五项贡献给予肯定回答:(1) 不可能性定理,证明首因效应、锚定效应和顺序依赖性在不违反因果掩码或承受阶乘时间成本的情况下无法消除;(2) 跨 12 种 LLMs 的实证验证,包含模型比较统计量;(3) 基于形式化框架推导出的针对人类效应量的 *定量* 预测;(4) 对两项预测(即锚点位置效应和工作记忆负荷效应)的预注册行为验证;以及 (5) 将工作记忆容量与偏见大小联系起来的个体差异分析。 我们将我们的贡献置于 Marr 的计算层级 [15](https://arxiv.org/html/2605.08716#bib.bib15) 上:Transformer 中的因果掩码和人类工作记忆中的串行处理约束 [4](https://arxiv.org/html/2605.08716#bib.bib16), [16](https://arxiv.org/html/2605.08716#bib.bib2) 代表了类似计算层级的约束,尽管它们的实现方式存在根本差异。我们的框架将资源理性分析 [11](https://arxiv.org/html/2605.08716#bib.bib13), [7](https://arxiv.org/html/2605.08716#bib.bib14) 扩展到人工系统,表明人类和机器的偏见可能都是对顺序处理约束的最优响应 [21](https://arxiv.org/html/2605.08716#bib.bib10), [6](https://arxiv.org/html/2605.08716#bib.bib11)。 ## 理论框架 ### 因果掩码的直观解释 自回归模型逐个令牌(token)从左到右生成文本。在预测下一个词时,模型只能“看到”之前出现的词,永远无法看到未来即将出现的词。这种 *因果掩码* 约束类似于人类实时处理语音的方式:我们在词语出现时进行解释,无法访问未来的词语。 这创造了偏见,因为早期令牌被所有后续处理步骤“看到”,而后期令牌被更少的步骤看到。第一个词影响每一个后续词的表示,但最后一个词不影响任何紧随其后的内容。这种不对称性,我们将其形式化为 *位置特权(positional privilege)*,为早期信息创造了内在优势。 | 查询位置 $i$ | 键位置 $j$ | $x_1$ | $x_2$ | $x_3$ | $x_4$ | $x_5$ | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | **注意力权重** | 高 | 低(近$\rightarrow$远) | 掩码(零) | 递减特权 $\Phi(j)$ | | | **图 1:** 因果掩码和位置特权的可视化。注意力矩阵显示了哪些位置可以关注哪些位置:位置 $i$ 只能关注位置 $j \leq i$(左下三角形)。颜色强度表示注意力权重,随位置间距离衰减而衰减。较早的位置(左侧列)接收来自更多后续位置的注意力,从而产生更高的位置特权 $\Phi(j)$。灰色单元格表示由于因果约束而被掩码(零)的注意力。 ### 形式化框架 自回归语言模型通过将联合概率分解来生成序列: $$ P(x_1, x_2, \dots, x_n) = \prod_{i=1}^{n} P(x_i \mid x_1, \dots, x_{i-1}) \quad (1) $$ 这种分解创造了一种基本的 *信息不对称*:令牌 $x_i$ 只能关注令牌 $x_1, \dots, x_{i-1}$,永远不能关注未来的令牌 [25](https://arxiv.org/html/2605.08716#bib.bib29), [1](https://arxiv.org/html/2605.08716#bib.bib30)。因果掩码强制对于所有 $j > i$,$A_{ij} = 0$,其中 $A_{ij}$ 表示从位置 $i$ 到位置 $j$ 的注意力权重。图 1 [https://arxiv.org/html/2605.08716#Sx2.F1] 可视化了这一约束。 **定义 1.(位置特权)** 对于序列长度为 $n$ 的 $L$ 层 Transformer,位置 $j$ 的位置特权 $\Phi(j)$ 为: $$ \Phi(j) = \sum_{\ell=1}^{L} \sum_{i=j}^{n} \mathbb{E}[A_{ij}^{(\ell)}] \quad (2) $$ 位置特权指标捕获了位置 $j$ 在所有层和所有后续位置中接收到的总期望注意力权重。在均匀注意力分布下,这简化为: $$ \Phi(j) = L \cdot \sum_{i=j}^{n} \frac{1}{i} = L \cdot (H_n - H_{j-1}) \quad (3) $$ 其中 $H_k = \sum_{i=1}^{k} \frac{1}{i}$ 是第 $k$ 个调和数。这一公式表明,位置特权遵循调和衰减模式,且 $\Phi(1) - \Phi(n) = L \cdot H_{n-1} \approx L \cdot \ln(n)$。 ### 认知偏见的形式化定义 **定义 2.(首因偏见)** 如果对于语义等效的输入 $\mathbf{x} = (x_1, \dots, x_n)$ 和 $\mathbf{x}' = (x_n, \dots, x_1)$: $$ \mathbb{E}[\|P(y \mid \mathbf{x}) - P(y \mid \mathbf{x}')\|] \geq \epsilon $$ 对于某些输出 $y$ 和 $\epsilon > 0$,则模型表现出大小为 $\epsilon$ 的首因偏见。 **定义 3.(锚定偏见)** 如果给定锚点 $a$ 和查询 $q$,估计值 $\hat{y}$ 满足 $\frac{\partial \mathbb{E}[\hat{y}]}{\partial a} > 0$,即使 $a$ 在规范性上与 $q$ 无关,则模型表现出锚定偏见。 **定义 4.(顺序依赖性)** 如果存在输入元素的排列 $\pi, \pi'$,使得对于语义上顺序不变的查询,$P(y \mid \pi(\mathbf{x})) \neq P(y \mid \pi'(\mathbf{x}))$,则模型表现出顺序依赖性。 ### 显式假设 **假设 (A1) 非平凡注意力。** 注意力权重为非负值,对于所有层 $\ell$ 和位置 $i, j$,$A_{ij}^{(\ell)} \geq 0$(这是 softmax 注意力的属性),并且模型至少存在一层 $\ell$ 和位置对 $(i, j)$,其中 $i > j$ 且 $\mathbb{E}[A_{ij}^{(\ell)}] > 0$。 **假设 (A2) 因果掩码。** 对于所有层 $\ell$ 和位置 $i, j$:如果 $j > i$,则 $A_{ij}^{(\ell)} = 0$。 **假设 (A3) 内容-位置交互。** 模型的输出取决于令牌内容和位置。 **当假设可能不成立时:** 稀疏注意力 [2](https://arxiv.org/html/2605.08716#bib.bib8), [33](https://arxiv.org/html/2605.08716#bib.bib9) 对于注意力窗口外的位置违反了 A1,并且可以说比全因果注意力更接近地近似人类工作记忆的有限焦点,尽管整合机制仍然不同(窗口内的位置编码 vs. 时间-上下文绑定)。在窗口内,[不可能性定理](https://arxiv.org/html/2605.08716#Sx3) 中的引理继续成立;偏见随窗口大小 $w$ 缩放为 $O(w/n)$。 ## 不可能性定理 我们现在提出核心理论结果,确立在所述假设下,首因偏见、锚定效应和顺序依赖性在数学上是不可避免的。 **引理 1.(特权单调性)** 在 A1–A2 下,位置特权 $\Phi(j)$ 关于 $j$ 严格递减:对于所有 $j < k$,$\Phi(j) > \Phi(k)$。 **证明。** 根据 [形式化框架](https://arxiv.org/html/2605.08716#Sx2.SSx2) 中的定义: $$ \begin{aligned} \Phi(j) - \Phi(k) &= \sum_{\ell=1}^{L} \left( \sum_{i=j}^{n} \mathbb{E}[A_{ij}^{(\ell)}] - \sum_{i=k}^{n} \mathbb{E}[A_{ik}^{(\ell)}] \right) \\ &= \sum_{\ell=1}^{L} \sum_{i=j}^{k-1} \mathbb{E}[A_{ij}^{(\ell)}] > 0 \quad (4) \end{aligned} $$ 最后的不等式遵循 A1,它保证至少有一个正的注意力权重。$\square$ **定理 1.(首因偏见不可避免性)** 对于任何满足 A1–A3 的自回归模型 $M$,存在输入 $\mathbf{x}, \mathbf{x}'$(排列)和输出 $y$,使得 $\|P_M(y \mid \mathbf{x}) - P_M(y \mid \mathbf{x}')\| > 0$。首因偏见是不可避免的。 **证明。** 根据 [不可能性定理](https://arxiv.org/html/2605.08716#Sx3) 中的引理,$\Phi(1) > \Phi(n)$。考虑 $\mathbf{x} = (x_1, \dots, x_n)$ 及其反转 $\mathbf{x}' = (x_n, \dots, x_1)$。内容 $x_1$ 在 $\mathbf{x}$ 中占据高特权位置 1,而在 $\mathbf{x}'$ 中占据低特权位置 $n$。如果 $P_M$ 对所有此类反转都不变,则输出分布将仅取决于令牌集组成,这与 A3 矛盾。因此,至少存在一对输入和输出 $y$,使得 $P_M(y \mid \mathbf{x}) \neq P_M(y \mid \mathbf{x}')$,正如定理所断言。$\square$ **定理 2.(锚定效应涌现)** 对于任何处理 $(a, q)$ 的自回归模型,其中锚点 $a$ 先于查询 $q$,在 A1–A2 下: $$ I(\hat{y}; a \mid q) \geq I_{\min} > 0 \quad (5) $$ 其中 $I(\cdot; \cdot \mid \cdot)$ 表示条件互信息。 **证明。** 在自回归生成中,位置 $q$ 的隐藏状态根据 A1 和注意力的加性形式,允许分解为: $$ h_q = h_q^{\text{content}} + \sum_{\ell=1}^{L} A_{q,a}^{(\ell)} \cdot V_a^{(\ell)} \quad (6) $$ 其中 $h_q^{\text{content}}$ 是在没有锚点到查询的注意力时会获得的隐藏状态,并且对于至少一层,$A_{q,a}^{(\ell)} > 0$。围绕这一基线的一阶线性化产生了条件互信息边界: $$ I(\hat{y}; a \mid q) \geq \sum_{\ell=1}^{L} \mathbb{E}[A_{q,a}^{(\ell)}] \cdot H(V_a^{(\ell)}) > 0 \quad (7) $$ 直观地说:每一层的注意力都将非零数量的锚点信号转移到查询位置的隐藏状态中,因此输出不能仅是 $q$ 的函数;它必须携带来自 $a$ 的残余影响,无论锚点的规范性相关性如何。$\square$ **构造性边界:** $I_{\min} \geq L \cdot \bar{A} \cdot H_{\min}$(一阶数量级估计,非紧密边界),其中 $\bar{A}$ 是平均锚点注意力,$H_{\min}$ 是最小值向量熵。对于典型具有 $L=32$ 层的 Transformer,$\bar{A} \approx 0.05$,且 $H_{\min} \approx 2$ nats,我们得到 $I_{\min} \geq 3.2$ nats。 **定理 3.(去偏成本)** 通过排列边缘化完全消除首因偏见需要 $\Omega(n!)$ 次前向传播。具有 $k$ 个样本的蒙特卡洛边缘化产生的残余偏见为 $\epsilon \leq C/\sqrt{k}$,其中 $C \leq 1/2$,因此任何目标 $\epsilon > 0$ 每次预测需要 $k \geq C^2/\epsilon^2$ 个样本。 **证明。** 为了实现位置不变性,模型必须对输入的 $n!$ 个排列产生相同的输出。这可以通过以下方式实现:(a) 违反 A2(双向注意力),这会改变架构;或 (b) 事后边缘化: $$ P_{\text{unbiased}}(y \mid \mathbf{x}) = \frac{1}{n!} \sum_{\pi \in S_n} P(y \mid \pi(\mathbf{x})) \quad (8) $$ 精确计算 [公式 8](https://arxiv.org/html/2605.08716#Sx3.E8) 需要 $n!$ 次前向传播。具有 $k$ 个样本的蒙特卡洛近似产生的残余偏见为: $$ \mathbb{E}[\epsilon_{\text{residual}}] \leq C \cdot \frac{1}{\sqrt{k}} \quad (9) $$ 其中 $C = \sqrt{\mathrm{Var}_\pi[P(y \mid \pi(\mathbf{x}))]}$ 是每个排列输出概率的标准差。由于 $P(y \mid \pi(\mathbf{x})) \in [0, 1]$,在最坏情况下(Popoviciu 不等式)我们有 $C \leq 1/2$。代入后,$\epsilon < 0.01$ 需要 $k > C^2/\epsilon^2$,即在最坏情况下每次预测需要约 $10^4$ 个样本(当排列引起的方差在经验上较小时,所需样本更少)。$\square$ **表 1:** 不可能性定理及其影响的总结 **推论 1.(偏见-序列长度缩放)** 在均匀注意力下,首因偏见大小随序列长度 $n$ 缩放为 $O(\ln n)$。这一推了解释了为什么 LLMs 中的较长上下文表现出更显著的位置效应:第一个位置和最后一个位置之间的特权差距随上下文长度对数增长。 ### 对人类的定量预测 除了存在性证明外,我们还推导了 *幅度* 预测。假设指数注意力衰减 [32](https://arxiv.org/html/2605.08716#bib.bib32), [31](https://arxiv.org/html/2605.08716#bib.bib31):
相似文章
思考越多,偏见越大:推理模型中由长度驱动的位置偏见
本研究论文探讨了推理模型中的位置偏见,发现偏见并非随着“更多思考”而消除,而是与推理轨迹的长度成正比。该研究提供了因果证据,并提供了一套诊断工具包,用于审核多选问答评估中这种由长度驱动的偏见。
认知代价:在边缘原生SLM中消融系统1与系统2推理以实现去中心化共识
实证研究表明,在去中心化自治组织(DAO)中作为边缘原生治理防火墙时,小型语言模型凭借系统1直觉可获得100%对抗鲁棒性,但引入系统2推理后却完全崩溃。
人机团队何时能超越个体?具有不可能性保证的紧密界限
本文推导了人机团队的紧密理论界限,证明了基于置信度的聚合何时能产生互补效应,并确立了在特定错误相关性下的不可能性结果。
AI 安全的 geopolitics:区域大语言模型偏差的因果分析
本文引入了一个概率图模型框架,以因果方式审核大语言模型(LLM)的安全机制,揭示出由于忽视了语境的毒性,标准的观测指标高估了人口统计学偏差。
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。