幻觉作为轨迹承诺：Transformer生成中非对称吸引子动力学的因果证据

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文提供因果证据表明自回归语言模型中的幻觉源于由非对称吸引子动力学驱动的早期轨迹承诺。通过在Qwen2.5-1.5B上进行同提示分叉和激活补丁实验，证明幻觉轨迹在首个token处分叉，并在模型各层间展现强烈的因果非对称性。

arXiv:2604.15400v1 公告类型：跨领域摘要：我们提供因果证据表明自回归语言模型中的幻觉是由非对称吸引子动力学驱动的早期轨迹承诺。通过同提示分叉方法（重复采样相同输入以观察自发发散），我们将轨迹动力学与提示级混淆因素隔离开来。在Qwen2.5-1.5B上跨越6个类别的61个提示中，27个提示（44.3%）出现分叉，事实性和幻觉轨迹在首个生成token处分叉（步骤0处KL=0，步骤1处KL>1.0）。跨28层的激活补丁揭示了明显的因果非对称性：将幻觉激活注入正确轨迹导致输出在87.5%的试验中被破坏（第20层），而反向操作仅恢复33.3%（第24层）；两者均超过10.4%的基线（p=0.025）和12.5%的随机补丁对照。窗口补丁显示纠正需要持续的多步干预，而破坏仅需单一扰动。通过探索提示编码本身，步骤0残差状态在第15层以Pearson r=0.776预测每个提示的幻觉率（相对于1000次排列零假设p<0.001）；无监督聚类识别出5个类似体制的组（eta^2=0.55），其鞍点相邻集群集中了13个假前提提示中的12个，表明盆地结构围绕在提示编码阶段固定的体制承诺而组织。这些发现将幻觉描述为局部稳定吸引子盆地：进入是概率性的且迅速的，退出需要跨层和步骤的协调干预，相关盆地由已在步骤0可识别的可聚类体制选择。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:30

# 因果证据：Transformer生成中的不对称吸引子动力学
来源：https://arxiv.org/html/2604.15400
## 幻觉作为轨迹承诺：Transformer生成中不对称吸引子动力学的因果证据

Gokturk Aytug Akarlar Chimera Research Initiative 伊斯坦布尔，土耳其 通讯作者：[email protected]。Chimera Research Initiative 是一个独立研究项目，探索AI系统的因果和神经符号方法。

（2026年4月）

###### 摘要

我们提供因果证据表明，自回归语言模型中的幻觉是由不对称吸引子动力学控制的*早期轨迹承诺*。通过相同提示分岔（重复采样相同输入以观察自发分歧），我们将轨迹动力学与提示级混淆变量隔离开来。在Qwen2.5-1.5B上，跨越6个类别的61个提示中，27个提示（44.3%）发生分岔，事实轨迹与幻觉轨迹在第一个生成的token处发散（步骤0处KL=0，步骤1处KL>1.0）。跨28层的激活补丁揭示了明显的因果不对称性：将幻觉激活注入正确轨迹在87.5%的试验中会损坏输出（第20层），而反向恢复仅占33.3%（第24层）；两者都超过10.4%的基线（p=0.025）和12.5%的随机补丁对照。窗口补丁表明纠正需要持续的多步干预，而损坏仅需单次扰动。探究提示编码本身，步骤0残差状态在第15层以Pearson r=0.776预测按提示的幻觉率（p<0.001相对于1000次排列零假设）；无监督聚类识别了五个类似体制的群组（η²=0.55），其鞍点相邻群集集中了13个分岔假前提提示中的12个，表明盆地结构围绕在步骤0固定的体制承诺组织。这些发现将幻觉表征为局部稳定的吸引子盆地：进入是概率性和快速的，退出需要跨层和步骤的协调干预，相关的盆地由步骤0已经可辨别的可聚类体制选择。

## 1 引言

大语言模型会产生幻觉；它们以高置信度生成看似合理但事实上不正确的文本[1, 2]。尽管进行了广泛的实证研究，控制幻觉的内部机制仍未得到充分表征。现有工作已证实幻觉与模型内部可识别的特征相关：隐藏状态上的探针可以检测高于随机的幻觉[3, 4]，基于熵的信号先于幻觉输出[5]，表示工程可以部分地引导模型趋向真实性[4, 6]。

但关联不能确立机制。一个核心问题仍然存在：*模型何时何地承诺幻觉轨迹，以及这一承诺在因果上是否可逆？*

我们通过两项方法论贡献来解决这个问题：

#### 相同提示分岔。

我们不是比较引发正确输出与幻觉输出的不同提示（这混淆了提示级语义与轨迹级动力学），而是在非零温度下重复采样*相同提示*并识别模型产生*既有*事实*又有*幻觉完成的提示。这隔离了轨迹级分歧：相同的初始状态仅通过随机采样路径产生不同的结果。

#### 对称因果补丁。

对于每个分岔提示，我们收集每个类别（正确和幻觉）K=6个缓存运行，存储每个(层, 步骤)的完整残差流。然后我们执行双向激活补丁：在每层和生成步骤，用正确运行的激活替换幻觉运行的激活（反之亦然），包含三个对照条件（随机提示补丁、错误到错误补丁、未补丁基线）。

我们的发现揭示了尖锐的不对称性。通过单层激活替换腐蚀正确轨迹成功率达87.5%，而纠正幻觉轨迹仅达33.3%，纠正需要持续的多步干预才能达到这个速率。我们通过动力系统的镜头解释这种不对称性：幻觉作为残差流状态空间中局部稳定的吸引子盆地运作，具有容易进入和难以逃脱的特点（图1）。

图1：概念概览。从共享初始状态h₀，随机token采样将轨迹承诺到正确（绿色）或幻觉（红色）盆地之一。激活补丁揭示，进入幻觉盆地需要仅单点扰动，而逃脱幻觉盆地需要持续的多步干预，这是不对称吸引子景观的标志。

## 2 相关工作

#### 通过内部进行幻觉检测。

Li等人[4]和Azaria & Mitchell[3]证明了隐藏状态上的线性探针可以检测幻觉。Burns等人[12]通过无监督方法找到与真实相关的方向。这些工作证实幻觉留下可检测的痕迹，但没有解决因果性。

#### 表示工程和引导。

Zou等人[6]和Li等人[4]表明，将学习的引导向量添加到激活中可以将模型行为转变为真实性。Cherukuri & Varshney[7]的并行工作通过盆地几何来框架化幻觉，并提出几何感知引导。我们的工作在方法上有所不同：我们采用相同提示分岔和带对照的经典激活补丁，提供因果而非相关证据。

#### 激活补丁和因果追踪。

Meng等人[8]介绍了用于定位事实回忆的激活补丁。Heimersheim & Neel[9]系统化了其解释。我们将这一方法扩展到幻觉轨迹，新颖之处在于测量腐蚀和纠正之间的*方向不对称性*。

#### 生成中的轨迹分析。

Suresh等人[10]表明变换器在不确定性下激活连贯但与输入无关的特征。Naparstek[11]通过连续状态空间中的投影自回归研究承诺时间。我们提供了第一个相同提示分岔分析，证明相同的初始状态在第一个生成步骤发散。

## 3 方法

### 3.1 实验设置

我们在Qwen2.5-1.5B[14]上进行所有实验，这是一个28层变换器，d_model=1536，使用TransformerLens[13]在Apple Silicon（MPS后端）上。激活从每层的残差流后注意力提取（h_l^(t)表示第l层在生成步骤t处）。

### 3.2 提示数据集

我们构建了一个跨6个类别的61个提示数据集，设计用于通过不同机制引发幻觉：

- **事实类**（14个提示）：具有确定正确答案的问题（例如，"缅甸的首都是一个称为...的城市"）。
- **假前提类**（14个提示）：嵌入事实错误的陈述（例如，"由于亚马孙河流经欧洲..."）。
- **虚构类**（22个提示）：对虚构实体的引用（例如，"量子力学中的Krasnov效应描述..."）。
- **诱导类**（3个提示）：作为问题提出的常见误解。
- **多跳类**（4个提示）：需要链式推理的问题。
- **数学类**（4个提示）：具有可验证答案的算术。

每个提示用地面真实指标（用于正确分类）和错误答案指标（用于幻觉分类）进行注释。

### 3.3 第1阶段：分岔发现

对于每个提示x，我们在温度τ=0.7下生成N=20个完成。每个完成根据与地面真实和错误答案指标的子字符串匹配分类为正确、幻觉或其他。

**定义1（分岔提示）。** 提示x是*分岔的*，如果它的N个完成中至少有2个分类为正确，至少有2个为幻觉。

分岔提示是实验目标：它们证明模型占据决策边界，其中相同的输入通过采样轨迹而非提示编码仅通过随机采样路径产生不同结果。

### 3.4 第2阶段：轨迹分歧分析

对于每个分岔提示，我们为每个类别（正确和幻觉）收集K=6个缓存运行，存储每个生成步骤的完整残差流：{h_l^(t)}_{l=0}^{L-1}。

#### 逐步KL散度。

在每个步骤t，我们计算正确和幻觉运行的平均输出分布之间的KL散度：

D_KL^(t) = D_KL(P̄_hall^(t) ∥ P̄_corr^(t))     (1)

其中P̄_hall^(t) = (1/K)∑_{k=1}^K P_k^(t)是步骤t处幻觉运行的平均softmax分布。我们将*分歧起始*定义为D_KL^(t) > 0.5的第一步。

#### 逐层分离。

在每个(层, 步骤)，我们计算正确和幻觉运行隐藏状态之间的Cohen's d：

d_{l,t} = (‖h̄_l,t^hall - h̄_l,t^corr‖_2) / s_{l,t}^pooled     (2)

其中s_{l,t}^pooled是跨两组的汇总标准差。这产生(层×步骤)网格上的分离热力图。

### 3.5 第3阶段：因果激活补丁

我们执行激活补丁[8]以建立隐藏状态值与生成结果之间的因果关系。

**定义2（激活补丁）。** 给定生成来自提示x的*目标运行*和相同提示的*源运行*，在(层l, 步骤t)处的激活补丁用源运行的替换目标运行的残差流激活：

h_l^(t),target ← h_l^(t),source     (3)

生成然后从步骤t+1继续自回归，其中补丁状态通过所有下游层传播。

我们通过TransformerLens前向钩子实现这一点，仅在指定步骤的最后token位置补丁。

#### 实验条件。

我们测试四个补丁配置：

1. **H→C（纠正）**：目标=幻觉运行，源=正确运行。测量注入正确激活是否重定向幻觉轨迹。
2. **C→H（腐蚀）**：目标=正确运行，源=幻觉运行。测量注入幻觉激活是否破坏正确轨迹。
3. **随机清洁对照**：目标=幻觉运行，源=*不同提示*的正确运行。测试任何看起来正确的激活是否足够，或效果是否提示特定。
4. **错误到错误对照**：目标=幻觉运行，源=相同提示的*不同*幻觉运行。测试补丁效果是否源于注入不同状态（任何变化）或特别是正确状态。

我们还测量*未补丁基线*：不进行干预的自然正确率，通过简单地重新采样提示。

#### 扫描协议。

我们执行三个扫描：

- **层扫描**：固定步骤=1，变化层l∈{0,...,27}。
- **步骤扫描**：固定层=l*（来自层扫描的最优），变化步骤t∈{0,...,4}。
- **窗口扫描**：固定层=l*，补丁步骤{1}、{1,2}、{1,2,3}、{1,2,3,4}。

每个条件在8个分岔提示×3次试验=24次试验的单元格上评估。

#### 指标。

对于每个补丁条件，我们报告：

- **翻转率**：输出分类更改为目标类别（H→C正确，C→H幻觉）的试验分数。
- **弃权率**：产生其他（既不清晰正确也不幻觉）的分数。

## 4 结果

### 4.1 分岔发现

在61个提示中，27个（44.3%）表现出真实分岔。分布按类别变化显著（表1）。

表1：按幻觉类别的分岔率。分岔提示在温度采样（τ=0.7, N=20）下从相同输入产生正确和幻觉输出。

图2：所有61个提示的按提示正确率（轴上方）和幻觉率（轴下方），按类别着色。星号(⋆)标记分岔提示。假前提提示（红色）几乎普遍分岔；虚构提示（紫色）趋于确定性幻觉。

三个观察值值得注意。首先，*假前提*提示几乎普遍分岔：模型对于是否接受嵌入的假误真正不确定。其次，*虚构*提示主要是确定性的；模型要么自信地虚构（9/22总是幻觉）要么偶尔自我纠正。这表明虚构幻觉反映了与假前提幻觉不同的内部体制。第三，额外6个提示是*接近分岔的*（从20个中产生恰好1个正确或1个幻觉样本），表明分岔不是二元属性而是在连续体上：模型与决策边界的接近度跨提示平稳变化（图2）。

### 4.2 逐步分歧

跨所有27个分岔提示，正确和幻觉输出分布之间的KL散度遵循特征模式：

D_KL^(0) = 0.00,  D_KL^(1) ∈ [0.12, 19.25],  平均起始 = 1.1     (4)

步骤0处的零KL是方法论验证：相同提示在采样前产生相同logits，确认任何后续分歧由轨迹驱动而非提示驱动。

图3：跨所有24个具有轨迹数据的分岔提示的逐步KL散度。细灰线：各个提示。粗线：中位数。阴影区域：四分位数间范围。所有提示共享相同模式：D_KL^(0)=0（步骤0处相同logits），接

幻觉作为轨迹承诺：Transformer生成中非对称吸引子动力学的因果证据

相似文章

从架构到输出：大型语言模型中幻觉的结构根源及数据的放大作用

Transformer 记忆的吸引子几何：从冲突仲裁到自信幻觉

理解语言模型为何产生幻觉：测试推理与先验知识之间的对抗

将幻觉视为异常：通过概率电路进行动态干预

转码器追踪视觉语言模型中的视觉定位与幻觉现象

提交意见反馈