Transformer 记忆的吸引子几何：从冲突仲裁到自信幻觉

arXiv cs.AI 2026/05/08 04:00 论文

摘要

本文提出了一个统一的几何框架，用于理解 Transformer 的内存故障，通过隐藏状态吸引子盆地（attractor basins）区分冲突仲裁与幻觉。研究表明，随着模型规模的扩大，几何边际（geometric margin）在检测这些故障方面优于输出熵。

arXiv:2605.05686v1 公告类型：新文章摘要：语言模型依赖于两种知识来源：嵌入在权重中的事实（参数化记忆，PM）和上下文中的信息（工作记忆，WM）。我们研究了两种机制上截然不同的故障模式——冲突（当 PM 和 WM 不一致并产生干扰时）和幻觉（当所查询的事实从未被学习过）。无论哪种情况，模型都会产生自信的输出来，这使得基于输出的监控在本质上存在盲点。我们表明，这两种故障都可以通过统一的几何视角来解释。在自回归生成的隐藏状态空间中，学到的事实形成吸引子盆地。冲突表现为盆地竞争：WM 干扰了对正确盆地的收敛，但并未提高输出熵。幻觉表现为盆地缺失：当不存在记忆化的盆地时，隐藏状态自由漂移。设计用于下一个 token 预测的固定 LM 头部无法区分这些情况，无论哪种情况都会自信地触发。我们在一个受控的合成任务中验证了这一观点——实体标识符映射到唯一代码，PM 通过 LoRA 适配器安装——其中地面真实值确切，可以通过有针对性的适配器放置因果隔离组件角色。几何边际——隐藏状态到最近记忆化盆地的距离——直接读取这种几何结构，比输出熵更清晰地将正确回忆与幻觉分开，而在基于熵的检测无法避免拒绝大多数正确输出的情况下，实现了零错误拒绝。这种分离在预训练模型的天然语言事实查询中也成立，无需适应，确认吸引子几何是结构性的，而不是微调的产物。自信幻觉的比例遵循缩放定律 $C = \exp(-c/\bar\Delta)$，即使总体错误率下降，随着规模增长。隐藏状态可靠地编码了认知状态；固定的输出头部系统地抹去了它——并且这种抹除随着规模的增长而加剧。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:32

# 从冲突仲裁到自信的幻觉：Transformer 记忆中的吸引子几何
来源: https://arxiv.org/html/2605.05686

## 从冲突仲裁到自信的幻觉：Transformer 记忆中的吸引子几何

**Qiyao Liang**  
麻省理工学院  
qiyao@mit\.edu  

**Risto Miikkulainen**  
德克萨斯大学奥斯汀分校, Cognizant  
risto@cs\.utexas\.edu  

**Ila Fiete**  
麻省理工学院  
fiete@mit\.edu  

###### 摘要

语言模型依赖两种知识来源：通过训练固化在权重中的事实（*参数记忆*, PM）和上下文中的信息（*工作记忆*, WM）。我们研究了两种机制上截然不同的失败模式——*冲突*（当 PM 和 WM 不一致并发生干扰时）和*幻觉*（当查询的事实从未被学习过）。这两种情况都会产生自信的输出来，使得基于输出的监控在设计上就是盲目的。我们表明，这两种失败模式共享一个统一的几何解释。在自回归生成的隐藏状态空间中，学到的事实形成了吸引子盆地。*冲突*是盆地之间的竞争：WM 破坏了对正确盆地的收敛，但并未增加输出熵。*幻觉*是盆地的缺失：当不存在记忆化的盆地时，隐藏状态自由漂移。专为下一个令牌预测设计的冻结 LM 头部无法区分这些情况，无论哪种情况都会自信地触发。我们在一个受控的合成任务中验证了这一解释——实体标识符映射到唯一代码，PM 通过 LoRA 适配器安装——其中地面真值是精确的，并且可以通过有针对性的适配器放置来因果隔离组件的角色。几何边缘（隐藏状态到最近记忆盆地的距离）直接读取这种几何结构，并且比输出熵更清晰地将正确回忆与幻觉分开，在基于熵的检测无法避免拒绝绝大多数正确输出的情况下，实现了零错误拒绝。这种分离在没有适应的情况下，在预训练模型对自然语言事实查询上也成立，证实吸引子几何是结构性的，而不是微调伪影。自信幻觉的比例遵循缩放定律 $C=\exp(-c/\bar{\Delta})$，即使总体错误率下降，随着规模增大而增长。隐藏状态可靠地编码了认知状态；冻结的输出头系统地擦除了它——而且这种擦除随着规模扩大而恶化。

## 1 引言

语言模型在生成文本时依赖于两个不同的知识来源：通过训练编码在模型权重中的事实——*参数记忆*（PM）——和当前输入上下文中提供的信息——*工作记忆*（WM）。这种架构产生了两种不同的失败模式，每种都有不同的起源。第一种是*冲突*：当 PM 和 WM 不一致时，模型必须在它们之间进行仲裁，当仲裁失败时，它会产生错误的答案，而不会检测到任何输出不确定性的增加，尽管正确答案*确实*存储在模型的权重中。第二种是*幻觉*：当模型查询一个它从未学过的事实时，没有记忆化的知识可供利用——然而模型仍然生成一个自信且具体的错误答案。输出置信度对这两种情况都是不可靠的指南。

本文用一个统一的框架解释了这两种失败模式，并表明模型的隐藏状态几何而非其输出分布是权威的诊断工具，使得在基于输出的监控随着模型规模扩大而变差的情况下，能够以零错误拒绝检测这两种失败模式。

我们在一个受控的合成任务中研究记忆仲裁：将实体标识符映射到唯一的 5 位代码，PM 通过 LoRA 适配器 [Huet al.(2022)](https://arxiv.org/html/2605.05686#bib.bib5) 安装，WM 由上下文示例提供。系统地改变 LoRA 应用的*位置*（QK, VO, MLP, Full）以及 PM *如何*训练（单格式脆弱 vs. 多格式稳健），为我们提供了模型所知内容的确切地面真值，并让我们直接测量每种干预下隐藏状态几何的变化。结果是关于记忆仲裁的*吸引子几何*解释：PM 对应于由 MLP 权重更新雕刻出的表示空间中持久的盆地；WM 对应于瞬时的注意力介导的转向；冲突源于 PM 盆地吸引力和 WM 转向之间的干扰，轨迹结果取决于这些竞争拉力的相对强度。

这种框架不仅仅是一种比喻：transformer 作为离散时间动力系统自回归地生成，权重编码的事实塑造了跨输入变化的稳定收敛区域，而上下文只提供在上下文窗口改变时消失的瞬时转向——这是一种更简单的“MLP 存储，注意力检索”解释所无法捕捉的区别。

![Figure 1](https://arxiv.org/html/2605.05686#F1)
**图 1**：Transformer 语言模型中的双记忆系统。Transformer 的每个组件都扮演着不同的记忆角色；本文通过有针对性的 LoRA 干预使这种分离精确化。(a) 架构：回忆分解为一个*注意力寻址*机制（QK；蓝色），它将证据通过残差流路由，和一个*共享内容管道*（VO+MLP；橙色），它写入内容并更新状态。(b) QK 改变选择的盆地而不重塑盆地。(c) VO 在选定的盆地内扰动内容读出。(d) MLP 重塑盆地景观本身。由于路由（QK）和盆地形成（MLP）在功能上是可分离的，相同的几何框架可以分别诊断冲突（模型路由到错误的盆地）和幻觉（根本不存在盆地），并将每种失败归因于其负责的电路。

出现三组发现。第一组确立了架构机制；接下来两组展示了它所解释的两种不同的失败模式：

1.  **电路分离**。在孤立的单个组件中放置适配器因果地确立了它们的角色：仅 MLP 适配器创建持久的吸引子盆地而不影响路由；仅 QK 适配器修改路由而不重塑盆地；仅 VO 适配器扰动内容写回。Jacobian 分解证实这些角色是预训练架构固有的，而不是微调伪影。
2.  **冲突和上下文失聪（失败模式 1）**。当 PM 和 WM 不一致时，轨迹被拉向竞争的方向。结果取决于 PM 盆地的深度相对于 WM 拉力的比例——这一比例直接由训练控制。在*脆弱 PM*（单模板训练）下，盆地很浅且受格式门控：在冲突下 WM 获胜，因为 PM 盆地在训练格式之外处于非活动状态。在*稳健 PM*（带有干扰项的多模板训练）下，MLP 盆地变得深且格式不变，扭转了平衡：WM 被完全抑制——我们称之为*上下文失聪*的失败——在显式冲突下，相反的拉力破坏了生成轨迹而没有干净地解决。在这两种情况下，正确答案都存储在模型的权重中；失败的是仲裁。即使准确性在生成步骤中衰减，输出熵保持平坦。
3.  **幻觉（失败模式 2）**。冲突涉及模型*知道*的实体：至少存在一个记忆化的盆地，错误输出源于轨迹竞争。幻觉在类别上是不同的：实体根本没有记忆化的盆地，隐藏状态在整个盆地景观之外游荡，错误输出源于盆地缺失而非竞争。吸引子框架准确预测了这里会发生什么——隐藏状态远离每个盆地中心，但冻结的 LM 头部无法区分盆地接近度和盆地缺失，无论何种情况都自信地触发。几何边缘完美地将这种情况与正确回忆分开；输出熵无法做到。并且由于对数几率间隙 $\bar{\Delta}$ 随着 $N^{1/3}$ 的规模增长，最大自信的幻觉比例遵循 $C=\exp(-c/\bar{\Delta})$，即使聚合错误率下降，该比例也在增长。

这三个发现是单一吸引子景观中的三种几何配置。尽管起源不同，冲突和幻觉共享一个架构后果：冻结的 LM 头部无法区分盆地占用和缺失，使得在这两种情况下都需要几何监控。模型自己的表示编码了它知道什么以及它是否知道任何东西；LM 头部擦除了这种编码。几何监控以零错误拒绝绕过这一瓶颈，并且正是在基于输出的监控随着规模降级时得到改善。

## 2 实验设计

研究记忆仲裁的中心挑战是为模型所知内容建立确切的地面真值。自然语言任务混淆了语义知识和检索策略，使得不可能知道正确答案是反映真正的回忆还是幸运的近似。我们通过构建一个合成记忆任务来解决这个问题，其中记忆化的内容得到精确控制，检索成功是明确的，并且架构干预可以独立应用于所有组件。

实验设计有三个自由度，每个隔离仲裁问题的一个方面：*什么*被记忆化（任务），*多强*被记忆化（脆弱 vs. 稳健训练），以及*哪里*安装记忆化（LoRA 放置）。下面依次描述。

#### 任务和基础模型

我们使用 $N=1,600$ 个实体（E000000–E001599）研究记忆仲裁，每个实体分配一个唯一的五位代码 $y \in \{0,...,9\}^5$（在 90,000 个可能字符串中的 1,586 个唯一代码）。给定包含实体标识符的提示，模型必须生成关联的代码。所有实验使用 Qwen2.5-3B-Instruct ($d=2,048$, 36 层)。WM 操作化为模型从上下文中读取代码的能力；PM 是通过微调存储在适配器权重中的代码。

#### 评估场景和指标

我们在五种场景下进行评估：PM-seen（训练实体，训练格式），WM baseline（上下文中的代码，适配器关闭），WM recall（上下文中的代码，适配器开启），WM–PM conflict（上下文: $c_{\mathrm{WM}}$, 适配器: $c_{\mathrm{PM}}$），以及 PM-unseen（训练中没有实体）。所有都使用贪婪解码，每种条件下 200 个保留实体。指标是：*准确性*（子字符串匹配）；*每位错误*；*正确令牌排名*在第一位数字位置；以及*数字熵* $H=-\sum_{d}p_{d}\log_{2}p_{d}$。

#### 训练制度

我们以两种方式训练模型。*脆弱 PM*：所有训练示例的单个固定模板，产生受格式门控的记忆化。*稳健 PM*：53 个不同的模板，带有 25% 的同义词释义和 10% 的干扰前缀（附录 A.1 [https://arxiv.org/html/2605.05686#A1.SS1](https://arxiv.org/html/2605.05686#A1.SS1)）；在仲裁训练数据中没有冲突、拒绝或上下文阅读示例（拒绝细节在附录 A.1 [https://arxiv.org/html/2605.05686#A1.SS1](https://arxiv.org/html/2605.05686#A1.SS1)）。

#### LoRA 适配器放置

我们在四个组件组上微调秩为 8 的 LoRA 适配器 [Huet al.(2022)](https://arxiv.org/html/2605.05686#bib.bib5) ($\alpha=16$, $lr=5\times 10^{-5}$, 10 epochs)（附录 A.4 [https://arxiv.org/html/2605.05686#A1.SS4](https://arxiv.org/html/2605.05686#A1.SS4)）：QK（查询-键投影；控制关注什么）：`q_proj`, `k_proj`；VO（值-输出投影；控制如何写回检索到的内容）：`v_proj`；MLP（前馈子层；雕刻盆地景观）：`gate_proj`, `up_proj`, `down_proj`；Full：以上全部。所有适配器共享相同的超参数；只有目标模块不同。选择这四个组是为了与下一节开发的吸引子几何解释中的功能角色一对一映射。

## 3 记忆仲裁的吸引子几何

在运行实验之前，我们将 PM 和 WM 形式化为模型表示空间中不同的动态结构。动态框架是精确的，而不是比喻：每个 transformer 层应用非线性映射 $h \mapsto h+\Delta(h)$，并且在深度上组合这些映射产生一个迭代系统，其固定点正是模型记忆化的内容。MLP 权重中的事实创建持久的盆地——系统收敛到的稳定区域，无论输入如何变化——而上下文令牌创建瞬态扰动，引导轨迹但在权重中不留永久痕迹。持久吸引子和瞬时转向之间的这种结构差异赋予了框架预测能力：它对哪些架构干预将重塑盆地而不仅仅是重新路由轨迹做出了具体、可测试的声明。

![Figure 2](https://arxiv.org/html/2605.05686#F2)
**图 2**：最后一步的表示空间几何示意图。记忆仲裁——输出是来自存储的权重还是输入上下文——可以理解为模型表示空间中竞争吸引子的轨迹收敛。(a) WM 条件诱导瞬态*伪*吸引子：一种朝向上下文一致状态的拉力，仅在那些上下文令牌活跃时存在，不同于编码在权重中并在所有输入中持久的 PM 盆地。(b) PM 盆地是持久的，编码在权重中。(c) 组合景观：轨迹收敛到 PM 盆地 vs. WM 偏转决定输出。(d–f) 适配器扰动：QK 修改路由而不重塑盆地；VO 修改选定盆地内的读出；MLP 重塑盆地结构。冲突是盆地竞争（PM 和 WM 拉力都存在）；幻觉是盆地缺失（隐藏状态在所有盆地之外游荡）。

具有固定权重，transformer 诱导输入条件的离散时间动力系统 [Geshkovskiet al.(2023)](https://arxiv.org/html/2605.05686#bib.bib22)

$$
h_{t+1}=F(h_{t};\,x,\,y_{\leq t}), \quad (1)
$$

其中 $F$ 组合注意力、MLP、残差和归一化。PM 对应于主要由 MLP 权重更新塑造的持久吸引子盆地 [Gevaet al.(2021)](https://arxiv.org/html/2605.05686#bib.bib1)；WM 对应于提示条件的路由，瞬时引导轨迹朝向上下文一致状态。四种 LoRA 放置以可预测的不同方式扰动此景观（图 2 [https://arxiv.org/html/2605.05686#S3.F2](https://arxiv.org/html/2605.05686#S3.F2) d–f）：QK 修改路由而不重塑盆地；VO 扰动内容写回；MLP 修改定义固定点盆地本身的迭代映射 $h \mapsto h+\mathrm{MLP}(h)$。

### 3.1 架构-动态桥梁：Jacobian 分解

为了验证这些角色是预训练模型固有的，而不是微调伪影，我们应用 Jacobian 分解。QK、VO 和 MLP 的不同角色可以通过分解每个子层的 Jacobian 来精确化。对于状态 $h$ 处的子层 $f:\mathbb{R}^{d}\to\mathbb{R}^{d}$：

$$
J=S+A,\quad S=\tfrac{1}{2}(J+J^{\top}),\quad A=\tfrac{1}{2}(J-J^{\top}). \quad (2)
$$

$S$ 捕捉收缩/扩展（盆地塑造）；$A$ 捕捉旋转/传输。我们定义对称相关性 $\varphi=\mathrm{corr}(J_{ij},J_{ji})$ 对于 $i \neq j$。

关键的是，几何优势不是微调伪影。在 196 个自然语言事实查询中，由没有适配器的预训练基础模型回答（附录 J [https://arxiv.org/html/2605.05686#A10](https://arxiv.org/html/2605.05686#A10)），边缘达到 AUROC=1.000，而熵降至 0.622（面板 c）。这项测试——真实的事实知识，无 LoRA，无合成代码——直接验证了吸引子几何是预训练模型如何存储知识的结构性属性：相同的几何结构在

Transformer 记忆的吸引子几何：从冲突仲裁到自信幻觉

相似文章

幻觉作为轨迹承诺：Transformer生成中非对称吸引子动力学的因果证据

我发现Transformer中一个预测几何稳定性的隐藏比率 [R]

思维的谱几何：相变、指令反转、Token级动力学与Transformers推理中的完美正确性预测

幽灵吸引子网络：用于闭环序列生成的盆地结构动态解码器

你的Transformer注意力熵坍缩不是Bug。模型只是在做你训练它做的事。以下是用三行温度调度修复它的方法。可投稿arXiv。自包含证明。无需引用。

提交意见反馈