[R] 所有路线都通向崩溃:注意力沉没、表示坍塌和范数分层——盲范数度量下基于内容的路由的后果

Reddit r/MachineLearning 论文

摘要

本文证明,注意力沉没、表示坍塌和范数分层并非注意力机制所独有,而是基于内容的路由在盲范数相似性度量下的普遍结果,这一结论在包括Transformer、graph attention、state-space models和recurrent mixers在内的多种架构中得到了验证。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/25 19:24

# 万路归坍 来源:https://arxiv.org/html/2606.22325 ###### 摘要 注意力沉没、表征坍塌和范数分层通常被视为 Transformer 特有的病理现象。我们证明它们并非注意力独有:它们是*基于内容的路由*在固定相似度度量下的必然行为。我们给出一个重构恒等式:softmax 注意力是在常数键范数下对欧氏距离的玻尔兹曼加权聚合,因此其分数省略了 −‖k‖² 项,对键的大小不敏感。这预测:任何路由器的度量若与其表征不匹配,就会通过集中路由和坍塌被路由表征来进行补偿。我们在不同的路由轴上对此进行检验:跨 token 的 softmax 注意力(九个预训练 Transformer)、跨节点的图注意力、选择性的状态空间模型和跨时间的循环混合器、以及跨深度的学习残差。所有这些都呈现出相同的特征,并且模型内的两次消融实验表明,该特征*由*路由机制引起,而非偶发动力学。其*形式*是偶然的,由每个路由器在内容分数之外携带的位置制动强度决定;我们扫描该制动,使其起始点遍历整个范围。其*机制*并非偶然,且不要求范数分层:一个键归一化的路由器同样集中路由。我们不声称这些模型实现了黎曼几何;几何视角是一种诊断工具,它命名了平坦、对范数不敏感的度量所导致的不足。 ## 1 引言 训练后的 Transformer 会发展出一组引人注目的规律性。少数 token 吸收了大部分注意力(Xiao 等,2024),隐藏表征随深度向低秩子空间坍塌(Dong 等,2021),键和查询范数产生分层而非保持均匀。这些通常被视为注意力的病理,逐个模型、逐个机制地进行诊断和修补。我们认为它们根本不是注意力的病理。它们是基于内容的路由在固定、对范数不敏感的相似度度量下的必然行为,并且出现在任何共享该度量的路由器中,无论其路由对象为何。¹¹¹代码和数据:https://github.com/parzi-val/all-routes-lead-to-collapse 起点是一个重构恒等式。Softmax 注意力可以写成查询和键之间欧氏距离上的玻尔兹曼加权聚合,其中分数省略了 −‖k‖² 项,因此看不到键的范数。路由器使用的度量是平坦的且对范数不敏感。一个其度量与其表征不匹配的路由器必须进行补偿,这种补偿具有固定的形状:路由集中,被路由的表征坍塌,它们的范数分层。该恒等式是一个充分条件,而非声称任何模型实现了几何;它告诉我们审视何处。 我们在五个地方进行审视。在九个预训练 Transformer 中,该特征都存在,并且相对于匹配的空零基线在数量上清晰可见。随后,它不变其类地出现在四个非标准 token 注意力路由器中:异质图上的图注意力、无显式注意力的选择性状态空间模型、跨时间的循环混合器、以及跨深度路由的注意力残差。当路由权重可以从我们固定的量中重建时,我们对其进行了消融,发现集中是由路由机制引起的,而非偶发动力学。不同架构之间的差异在于形式——起始深度、强度和特定子空间——主要由每个路由器在内容分数旁携带的位置制动强度决定;我们在两个架构中扫描该制动,观察形式随之移动。不变的则是机制。 我们的贡献是: - • 一个重构恒等式(第3节),揭示了 softmax 路由内部对范数不敏感的度量,并预测了补偿特征。 - • 在九个 Transformer 中相对于空零基线测量该特征(第4节),以及在四个跨越图、时间和深度的非标准路由器中测量,包括两次模型内因果消融(第5节)。 - • 一个假设(第6节),将不变机制与偶然形式分离,指出位置制动决定了形式,并通过一个键归一化的路由器证明范数分层是补偿而非原因。 路径各异;终点相同。 ## 2 背景与相关工作 #### 三种病理,分别研究。 在训练后的 Transformer 分析中,三种现象反复出现。注意力沉没:少数位置(通常是第一个 token)吸收了大部分注意力质量(Xiao 等,2024)。秩坍塌:随深度增加,隐藏表征失去有效维度性并向共享子空间漂移,纯注意力会双重指数地驱动该效应(Dong 等,2021)。以及范数分层:键和查询范数分散开来而非保持均匀。这些通常单独研究,并被视为注意力的属性。我们将其视为同一路由机制的三个侧面。 #### 作为路由器的架构。 我们测量的模型共享一个结构:每个模型对一组源进行评分,并按分数聚合它们。Softmax 注意力(Vaswani 等,2017)通过查询-键点积对 token 评分。图注意力(Veličković 等,2018)对图中邻居评分。选择性状态空间模型如 Mamba(Gu 和 Dao,2023)没有显式注意力,但其选择性扫描展开为相同形式的数据控制算子,即 Ali 等(2024)的隐藏注意力。RWKV(Peng 等,2023)通过衰减的 softmax 跨时间混合。注意力残差(Kimi Team,2026)跨深度而非跨 token 路由。我们将所有这些视为基于内容的路由器,并询问它们共享的度量会做什么。 #### 过平滑,图特有的解释。 图神经网络有其自身的坍塌故事:重复的邻域聚合将节点特征冲刷为公共值,独立于任何学习的注意力(Li 等,2018;Oono 和 Suzuki,2020)。因为过平滑通过非我们机制的路径到达低秩,图案例需要一个控制来分离学习到的注意力坍塌与通用平滑,第5节提供了这一点。 #### 度量视角。 我们的动机源于将 softmax 视为最大熵或玻尔兹曼加权(Jaynes,1957),这使得潜在的相似度度量显式化,并揭示了其对键范数的无视。第3节发展了这个恒等式;论文的其余部分测试了它的预测。 ## 3 注意力作为基于距离的路由 本节精确地阐明了标准注意力在固定几何上进行路由的含义,并分离出该视角中唯一具有经验内容的假设。结果是一个恒等式,而非贡献;它告诉我们测量什么。 #### 基于内容的路由。 如果一层将每个输出生成为值向量的凸组合或锥组合,并且权重是根据查询和一组键之间的相似度分数计算得出,则我们称该层为*基于内容的路由器*。Softmax 注意力是典型实例,但该定义刻意与架构无关:图注意力对节点与其邻居评分,选择性状态空间模型通过输入相关的门对当前位置与其自身过去评分(第5节)。每个这样的路由器都携带一个固定的*相似度度量*(其分数的函数形式)以及该度量作用于其上的学习表征。本文问的问题是当两者不匹配时会发生什么。 #### 距离视角。 固定一个查询 q 和 Rd 中的键 {kᵢ}ᵢ₌₁ⁿ。一个在距 q 的固定期望平方距离下最大化熵的基于距离的路由器赋予玻尔兹曼权重 αᵢ = exp(-β D(q,kᵢ)²) / Σⱼ exp(-β D(q,kⱼ)²),(1) 这是该约束下唯一的最大熵权重(Jaynes,1957)。因此玻尔兹曼形式是*推导*出来的,而非假设的;KKT 推导见附录 A(命题1)。 ###### 定理 1。 假设键位于一个度量为共形平坦且共形因子为常数的光滑流形上(A1 至 A3),因此测地距离在常数范围内是欧氏的,D(q,kᵢ)² = Ω²‖q - kᵢ‖²,并假设键是超球面的,‖kᵢ‖ = c(A4)。那么当 2βΩ² = 1/√d 时,最大熵加权 (1) 等于缩放点积注意力,αᵢ = softmaxᵢ(⟨q,kᵢ⟩/√d)。 ###### 证明。 展开 ‖q - kᵢ‖² = ‖q‖² - 2⟨q,kᵢ⟩ + ‖kᵢ‖²。代入 (1),因子 exp(-βΩ²‖q‖²) 在 i 上是常数,并在归一化中抵消。因子 exp(-βΩ²‖kᵢ‖²) 在 i 上是常数,精确地因为 ‖kᵢ‖ = c,同样抵消。剩下 αᵢ ∝ exp(2βΩ²⟨q,kᵢ⟩);令 2βΩ² = 1/√d 即得结论。∎ #### 实际假设了什么。 在四个假设中,只有 A4 具有经验权重。A1 至 A3 是一个几何透镜:它们展平和均匀缩放度量,使 D 在常数内是欧氏的,我们借此命名路由器所承诺的度量,而非声称训练好的网络在流形上执行几何。A4,即键是超球面的,恰好抵消了 ‖kᵢ‖² 项:标准注意力分数使用原始内积 ⟨q,kᵢ⟩,而平方距离分数去掉了该项,因此去掉它假设键范数不变。在这个精确意义上,点积分数*对键的大小不敏感*。附录 A 列出了假设,推导了玻尔兹曼形式,并完整证明了该恒等式。该定理给出充分性,而非必要性。Softmax 注意力*可表示为*平坦欧氏玻尔兹曼路由加范数均匀的键,但这并不意味着 Transformer 假设了一个流形或执行了几何,我们不做出这样的声称。可证伪的点很窄:如果键范数不是常数,点积分数与基于距离的分数相差被省略的、随位置变化的量 ‖kᵢ‖²。 #### 反转及其产生的预测。 逆转定理1,它说标准注意力承诺了一个忽略键大小的平坦度量,而该度量是否足够是一个关于网络所学表征的经验问题。如果键集中在 Rd 的一个低维弯曲子集上,平坦度量会过度计数数据未使用的方向,而对范数的无视可能丢弃任务所需的量。路由器无法改变其度量,但它可以改变度量所看到的表征。本文的假设是它确实改变了,以三种可测量的形式:向低维子集坍塌,路由集中到少数位置,以及使用范数作为控制信号。第4节和第5节对此进行测试;键范数假设是我们首先检查的,它在每个模型的每一层都失败。 #### 双线性族之外的修正。 该诊断也指出了其自身的干预:恢复被省略的项会得到一个学习度量分数 -(q - k)ᵀM(q - k),其查询无关惩罚 -kᵀMk 无法通过查询和键投影的重新参数化来重现,因为双线性分数 qᵀAk 在 q=0 时为零,而该项不为零。这是一个新的自由度,而非现有自由度的重新加权(命题2)。关于对度量进行干预是否能减少我们记录到的补偿,留待后续工作;我们提此点仅是为了表明几何视角既指向测量也指向干预。 ## 4 Transformer 中的补偿特征 我们在九个预训练 Transformer 中测量第3节命名的三个量:GPT-2 small/medium/large/XL,以及 Pythia 160M/410M/1B/1.4B/2.8B。所有测量使用 WikiText-103 验证集的 150 个长度为 128 的序列,fp32 精度,对于 Pythia 模型,键在旋转变换前后均取用。表1总结了运行情况;下文三个小节逐列解读。 | 模型 | L | d_h | norm-CV | VE@8 | Gauss | shuffle | onset | r_{cv,sh} |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| GPT-2 small | 12 | 64 | 0.151 | 0.774 | 0.294 | 0.514 | L2 (17%) | 0.37 |
| GPT-2 medium | 24 | 64 | 0.210 | 0.758 | 0.294 | 0.471 | L4 (17%) | 0.45 |
| GPT-2 large | 36 | 64 | 0.249 | 0.732 | 0.294 | 0.422 | L8 (22%) | 0.59 |
| GPT-2 XL | 48 | 64 | 0.307 | 0.737 | 0.294 | 0.415 | L8 (17%) | 0.70 |
| Pythia 160M | 12 | 64 | 0.258 | 0.885 | 0.294 | 0.819 | L2 (17%) | 0.28 |
| Pythia 410M | 24 | 64 | 0.260 | 0.783 | 0.294 | 0.636 | L6 (25%) | 0.05† |
| Pythia 1B | 16 | 256 | 0.254 | 0.572 | 0.160 | 0.370 | L4 (25%) | 0.18 |
| Pythia 1.4B | 24 | 128 | 0.289 | 0.733 | 0.212 | 0.554 | L3 (12%) | 0.19 |
| Pythia 2.8B | 32 | 80 | 0.286 | 0.753 | 0.262 | 0.539 | L3 (9%) | 0.07 |

表1:WikiText-103 上每个模型的总结(N=150,序列长度 128)。norm-CV 是深度平均的键范数变异系数(A4 违反);每个值都超过其各向同性高斯基线 (1/√(2d_h))。VE@8 是深度平均的键距离矩阵秩 8 方差解释度(Pythia 为预 RoPE);Gauss 和 shuffle 是匹配的空零基线。onset 是平均最大注意力份额首次超过 0.20 的层。r_{cv,sh} 是各(层,头)对上键范数 CV 与最大注意力份额之间的皮尔逊相关系数(†: p ≥ 0.05)。VE@8 值是对各层取平均。

相似文章

注意力的路由与过滤结构

arXiv cs.LG

本文将注意力交互矩阵分解为路由(反对称)和过滤(对称)两个组成部分,并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象,可预测注意力简化的位置,从而在极小困惑度损失下实现显著的参数减少。

表征优先于路由:克服多时间尺度PPO中的代理劫持

Hugging Face Daily Papers

本文指出了代理劫持和时间不确定性是多时间尺度强化学习中的失败模式,并提出了一种目标解耦架构,该架构从Actor中移除路由,利用Critic进行辅助表征学习。该方法消除了LunarLander-v2基准上的策略崩溃,并稳定地超越了'环境已解决'阈值,而无需超参数劫持。

结构注意力税:检索格式如何独立于内容劫持上下文学习

arXiv cs.CL

本文识别并形式化了'结构注意力税'现象,即检索内容的格式(例如知识图谱三元组)独立于语义相关性扭曲了LLM的注意力分布,导致演示注意力压缩。它提供了正式框架、跨模型和基准的实证证据,并提出了结构感知的缓解策略。

超越模式崩溃:面向多样化推理的分布匹配

arXiv cs.AI

本文识别了同策略强化学习方法(如GRPO)中的模式崩溃问题,并提出了DMPO,该方法通过近似前向KL散度最小化来保持解的多样性。在NP难组合优化和数学推理任务上取得了显著改进。