Transformer 残差流的动力学:谱几何与网络拓扑的耦合

arXiv cs.LG 论文

摘要

本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。

arXiv:2605.14258v1 公告类型:新 摘要:大型语言模型能力非凡,但计算如何在其层间传播仍然知之甚少。越来越多的工作将深度视为离散时间,将残差流视为动力系统,其中每层的非线性更新具有局部线性描述。然而,以往的分析依赖于标量总结或近似线性化,使得训练后大型语言模型的完整谱几何未知。我们对三个生产规模的大型语言模型进行了完整的 Jacobian 特征分解,并表明训练在深度上建立了一个单调的谱梯度——从非正规、旋转主导的早期层到接近对称的后期层——以及一个累积的低秩瓶颈,将扰动引入残差流有效维度的极小部分。我们的实验表明,这种梯度和维度崩溃是习得的而非架构性的,并且在去除结构化非正规性后大部分消失。我们进一步表明,图社区的拓扑位置预测 Jacobian 是放大还是抑制它们,耦合符号由局部算子类型决定,这种关系在初始化时不存在。这些结果描绘了大型语言模型中习得的谱几何,将扰动传播与压缩连接到网络的功能拓扑。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:28

# Transformer残差流的动力学:将谱几何与网络拓扑耦合
来源:https://arxiv.org/html/2605.14258
Jesseba Fernando Network Science Institute, Northeastern University fernando\.je@northeastern\.edu&Grigori Guitchounts Flagship Pioneering g\.guitchounts@alumni\.harvard\.edu

###### 摘要

大型语言模型的能力令人瞩目,但计算如何在其层间传播仍未被充分理解。一个日益增长的研究方向将深度视为离散时间,并将残差流视为一个动力系统,其中每层的非线性更新具有局部线性描述。然而,以往的分析依赖标量摘要或近似线性化,使得训练后LLM的完整谱几何仍然未知。我们对三个生产级LLM进行了完整的雅可比矩阵特征分解,结果发现训练在深度方向上建立了一个单调的谱梯度——从非正规、旋转主导的早期层到近乎对称的晚期层——同时伴随着一个累积的低秩瓶颈,将扰动汇聚到残差流有效维度的一小部分中。我们的实验表明,这种梯度和维度塌缩是学习得到的,而非架构固有的,并且在移除结构化非正规性时基本消失。我们还进一步发现,图社区的拓扑定位可以预测雅可比矩阵是放大还是抑制它们,耦合的符号由局部算子类型决定,这种关系在初始化时不存在。这些结果描绘了LLM中学习到的谱几何,它将扰动传播和压缩与网络的功能拓扑联系起来。

## 1 引言

尽管计算如何通过神经网络传播是机械可解释性背后的驱动原则之一,但它很大程度上仍是未知的。一个不断增长的工具包正在解决Transformer的这一问题:电路分析追踪通过特定注意力头和MLP块的计算(Olaf等人,2020 (https://arxiv.org/html/2605.14258#bib.bib26);Olsson等人,2022 (https://arxiv.org/html/2605.14258#bib.bib28);Lindsey等人,2025 (https://arxiv.org/html/2605.14258#bib.bib27));稀疏自编码器将激活分解为可解释特征(Cunningham等人,2023 (https://arxiv.org/html/2605.14258#bib.bib29);Bricken等人,2023 (https://arxiv.org/html/2605.14258#bib.bib30));探针分类器和残差流读出测试每层线性可访问的信息(Alain and Bengio,2016 (https://arxiv.org/html/2605.14258#bib.bib31);Belrose等人,2023 (https://arxiv.org/html/2605.14258#bib.bib32))。这些方法在识别*什么*个体组件代表方面卓有成效。但*如何*形成这些组件,或者一层的扰动如何在通过后续层时被放大、压缩或重定向,是一个开放性问题。

动力系统理论是解决这个问题的自然形式化方法,将层视为离散时间步长在将Transformer视为ODE求解器或相互作用粒子系统的工作中有先例(Lu等人,2019 (https://arxiv.org/html/2605.14258#bib.bib15);Geshkovski等人,2024 (https://arxiv.org/html/2605.14258#bib.bib19)),也在残差流轨迹随深度的实证分析中有所体现(Hosseini and Fedorenko,2023 (https://arxiv.org/html/2605.14258#bib.bib16);Lawson等人,2024 (https://arxiv.org/html/2605.14258#bib.bib20);Fernando and Guitchounts,2025 (https://arxiv.org/html/2605.14258#bib.bib33))。每个Transformer块更新共享的残差流,hl\+1=hl\+fl\(hl\)\mathbf{h}_\{\ell\+1\}=\mathbf{h}_\{\ell\+1\}=\mathbf{h}_\{\ell\+1\}=\mathbf{\mathbf{h}_\{\mathbf{\ell}\+\mathbf{\ell}\+\mathbf{\ell}\+\mathbf{\ell}\+\mathbf{l}\+\mathbf{\ell\}+\mathbf{\ell\}+\mathbf{\ell\}+\mathbf{\ell\}+\ell\}+f_\{\ell\}(\mathbf{h}_\{\ell\}),使得深度成为离散时间的一种形式,而每层雅可比矩阵Jl=∂hl\+1/∂hlJ_\{\ell\}=\partial\mathbf{h}_\{\mathbf{h}_\{\mathbf{\ell\}\}/partial\mathbf{h}_\{\mathbf{h}_\{\mathbf{\ell\}\})是动力学的局部线性描述。关于信号传播的理论文献已经在随机初始化时对这些雅可比矩阵进行了表征,建立了有序-混沌相界(Poole等人,2016 (https://arxiv.org/html/2605.14258#bib.bib5);Schoenholz等人,2017 (https://arxiv.org/html/2605.14258#bib.bib6))和动力等距条件(Pennington等人,2017 (https://arxiv.org/html/2605.14258#bib.bib7)),但在大多数情况下仅在初始化时应用,或将雅可比矩阵简化为标量摘要。最近的实证工作开始探索*训练后*Transformer中的类雅可比对象——种群级线性映射(Fu等人,2025 (https://arxiv.org/html/2605.14258#bib.bib9))、具有冻结非线性的解耦雅可比矩阵(Golden,2025 (https://arxiv.org/html/2605.14258#bib.bib10))、与基准性能相关的残差雅可比矩阵(Aubry等人,2025 (https://arxiv.org/html/2605.14258#bib.bib11))、对平均状态进行动态模态分解(Jacobs等人,2026 (https://arxiv.org/html/2605.14258#bib.bib12))——并且每个都独立发现深度方向上渐进维度汇聚的迹象。这些方法使用近似或聚合的线性化方法,而非真正的输入空间雅可比矩阵。因此,训练后的生产级雅可比矩阵的完整谱几何——特征值分布、非正规性结构、扩张和收缩模式的平衡、复数特征值编码的旋转动力学——仍未得到表征。

另一个独立的问题涉及网络计算*拓扑*与其*动力学*之间的关系。先前关于神经网络模块性的工作集中在权重图上——表明训练后的网络比初始化时更“可聚类”(Filan等人,2021 (https://arxiv.org/html/2605.14258#bib.bib34))或从权重连接模式中提取社区(Watanabe等人,2018 (https://arxiv.org/html/2605.14258#bib.bib35))。在Transformer中,Elhage等人(2021 (https://arxiv.org/html/2605.14258#bib.bib24))将计算框架化为独立组件“读取”和“写入”共享残差流。这种加法结构是否在残差流的*激活*相关性中产生介观尺度的社区组织——以及这种结构是架构固有的还是学习得到的——尚未在生产规模下得到检验。

我们通过计算三个生产级LLM——Llama 3.1 8B、OLMo 3 7B和Gemma 4 E4B——的精确雅可比矩阵来解决这些空白,并对每一层进行完整的特征分解和奇异值分析。对于OLMo,我们在三个训练检查点重复此操作:步骤0(随机初始化)、步骤471k和步骤1.41M(最终预训练步骤)。由于步骤0与训练后模型共享架构、深度和连接,仅权重不同,因此它充当零模型:在步骤0出现的结果是架构固有的;而在步骤0不存在、在训练检查点出现的结果归因于训练。我们将这些动力学与激活图拓扑连接起来,通过构建激活相关性图并运行社区检测,以测试在上述三个检查点上与雅可比动力学的吻合度。

我们的贡献是:

1. 1.训练后生产级雅可比矩阵的完整谱表征。我们发现逐层雅可比矩阵组织成深度区域,具有单调的非正规性梯度——从接近旋转的早期层到接近对称的晚期层。大约98%的特征值以复共轭对出现。在所有三种架构中,跨深度组合雅可比矩阵表明扰动被汇聚到少数有效通道(∼4−40\sim 4-40)中。
2. 2.通过OLMo的步骤0零模型进行架构与训练的分解。深度区域和相邻层子空间解耦在很大程度上是架构固有的,而非正规性梯度和维度汇聚是由训练安装的。使用Schur分解将雅可比矩阵的非正规性置零会揭示出与秩塌缩是否保持相关的破坏,表明非正规结构对残差流执行的计算至关重要。
3. 3.每单元111我们通篇使用“单元”,指神经科学意义上的记录通道:即hl∈Rd\mathbf{h}_\{\ell\}\in\mathbb{R}^\{d\}的第ii个坐标。我们避免使用“神经元”,因为残差流坐标不对应于离散的计算元素,而是共享工作空间的簿记通道(Elhage等人,2021 (https://arxiv.org/html/2605.14258#bib.bib24))。社区拓扑与雅可比动力学之间的耦合。连接多个激活图社区的单元(边界节点)被雅可比矩阵优先放大或抑制,符号由算子类型决定:边界单元在近对称层被放大,在非正规层被去放大。这种耦合在初始化时不存在,并在训练过程中单调出现(在OLMo检查点上,FDR显著的层数从0→14→240\to 14\to 24),从而确立了它作为一种学习属性,即使介观尺度社区结构本身部分是架构固有的。

## 2 训练将逐层雅可比矩阵重塑为非正规性梯度与维度瓶颈

我们将每个Transformer块视为残差流上离散动力系统的一步,并询问其局部线性描述——逐层雅可比矩阵Jl=∂hl\+1/∂hlJ_\{\ell\}=\partial\mathbf{h}_\{\mathbf{h}_\{\mathbf{\ell\}\}/partial\mathbf{h}_\{\mathbf{h}_\{\mathbf{\ell\}\})——在训练后的Transformer中是什么样子。我们在三种架构(Llama 3.1 8B、OLMo 3 7B、Gemma 4 E4B)的1,000个WikiText-2(Merity等人,2017 (https://arxiv.org/html/2605.14258#bib.bib3))样本上计算每个子层边界的精确逐样本雅可比矩阵,并且对于OLMo,在三个预训练检查点(步骤0、471k、1.41M)进行计算。步骤0与训练后模型共享架构、深度和连接,仅权重不同,因此它充当架构零模型。计算和统计细节,以及下文使用的谱量的正式定义,见附录A (https://arxiv.org/html/2605.14258#A1)。

一个基本的观察结果横跨每个模型和每一层:平均雅可比矩阵约98%的特征值以复共轭对形式出现(图1 (https://arxiv.org/html/2605.14258#S2.F1)以Llama为例进行了可视化;所有三个模型的逐层完整密度见图S1 (https://arxiv.org/html/2605.14258#A1.F1))。每一对代表一个螺旋——一个二维子空间,同时被旋转和拉伸或压缩——而不是纯粹的径向扩张或收缩。这种旋转结构对于所有先前Transformer谱分析中使用的奇异值分解是不可见的(Fu等人,2025 (https://arxiv.org/html/2605.14258#bib.bib9);Golden,2025 (https://arxiv.org/html/2605.14258#bib.bib10);Aubry等人,2025 (https://arxiv.org/html/2605.14258#bib.bib11)),因为奇异值分解在构造上将每个模式折叠为一个非负尺度因子并丢弃相位。因此,训练后的Transformer在每个深度通过耦合的旋转模式路由信息。

### 2.1 训练后Transformer的雅可比矩阵随深度从旋转主导算子过渡到近对称算子

我们着手探究不同层是否扮演不同的动力学角色,如果是,这些角色如何沿深度轴分布。两个互补的度量对层进行了组织(图2 (https://arxiv.org/html/2605.14258#S2.F2))。条件数κl=σmax/σmin\\kappa_\{\ell\}=\sigma_{\max}/\sigma_{\min}总结了几何畸变;自对齐‖Vl,:k⊤Ul,:k‖F2/k\\\|V_{\ell,:k}^{\top}U_{\ell,:k}\\\|_F^\{2}/k(前导输入和输出奇异子空间的重叠,k=64k=64)总结了算子类型,对于对称算子等于1,对于纯旋转算子等于k/d≈0.016k/d\approx 0.016。在Llama 3.1 8B中,这些度量将32层划分为三个区域。早期层(0–4)高度各向异性(κ∼106\\kappa\sim 10^\{6\})且强烈非正规(自对齐∼0.04\\sim 0.04):接近纯旋转算子。中部层(5–19)将条件数压缩到∼102\\sim 10^\{2\}–10310^\{3\},并将扩张模式比例降到17–30%,但仍然非正规。晚期层(20–31)重新扩张κ\\kappa到∼105\\sim 10^\{5\}–10610^\{6\},同时向对称性上升(自对齐∼0.55\\sim 0.55)。在OLMo和Gemma中观察到类似模式(图S2 (https://arxiv.org/html/2605.14258#A1.F2))。

参见图注 图1:Llama 3.1 8B平均雅可比矩阵的特征值结构。(a) 五个深度的复平面散点图;轴线外点的优势反映了∼\\sim98%的复共轭对。(b) 所有32层的Re(λ)\mathrm{Re}(\lambda)、Im(λ)\mathrm{Im}(\lambda)和|λ|\|\lambda\|的对数密度热力图。两个面板都显示了三个区域过渡:早期宽广、中部收缩、晚期重新扩张。参见图注 图2:跨深度的三区域雅可比矩阵结构。第一行:Llama 3.1 8B逐层剖面。(a) 条件数κ\\kappa(1,000个样本的中位数;阴影带表示IQR),(b) 扩张特征值模式的比例,(c) 平均特征值幅度。第二行:所有五种配置下相同三个量的区域均值(早期0–4、中部5–19、晚期20–31):(d) κ\\kappa,(e) 扩张比例,(f) 平均|λ|\|\lambda\|(y轴断裂)。自对齐从≈0.04\\approx 0.04(第2层)单调上升到≈0.70\\approx 0.70(第29层);亨里奇偏差δ(J)=‖J‖F2−∑|λi|2/‖J‖F\\delta(J)=\sqrt{\\\|J\\\|_F^\{2\}-\sum\|\lambda_i\|^\{2\}}\,\/\,\\\|J\\\|_F同步下降,从0.910.91降至0.470.47(图3 (https://arxiv.org/html/2605.14258#S2.F3)a,c)。因此,算子类型从旋转连续地向对称性变化,即使几何畸变在中部达到最小值。这种上升的对称性是否仅仅反映了跳跃连接中的恒等映射在晚期层占主导?剥离跳跃(Rl=Jl−IR_\{\ell\}=J_\{\ell\}J_\{\ell\}-I)排除了这一点:RlR_\{\ell\}的自对齐在所有地方保持在∼0.20\\sim 0.20以下(图3 (https://arxiv.org/html/2605.14258#S2.F3)a)。块计算在每一层都是非正规的;JlJ_\{\ell\}的对称性反而追踪残差范数比‖Rl‖F/‖Jl‖F\\\|R_\{\ell\}\\\|_F/\\\|J_\{\ell\}\\\|_F,该比值从0.9630.963下降到0.5180.518,因为恒等映射逐渐占主导(图3 (https://arxiv.org/html/2605.14258#S2.F3)b)。所有模型都呈现相同模式(图S3 (https://arxiv.org/html/2605.14258#A1.F3))。

OLMo的步骤0检查点将架构贡献与学习贡献分开。在初始化时,除第一层外的所有层几乎都是对称的(中部0.95,晚期0.98),特征值云在Re(λ)=1\mathrm{Re}(\lambda)=1附近聚集(图S4 (https://arxiv.org/html/2605.14258#A1.F4)a;完整轨迹见图S5 (https://arxiv.org/html/2605.14258#A1.F5))。训练使晚期上限保持近对称(0.98→0.860.98\to 0.86),同时将早期和中部层拉向旋转(中部0.95→0.650.95\to 0.65;早期0.64→0.430.64\to 0.43;表2 (https://arxiv.org/html/2605.14258#A1.T2))。因此,非正规性梯度是架构(晚期区域上限)和训练(早期/中部旋转区域)的共同产物。

参见图注 图3:跨深度的非正规性梯度。第一行:Llama 3.1 8B逐层剖面。(a) JlJ_\{\ell\}(橙色)和Rl=Jl−IR_\{\ell\}=J_\{\ell\}-I(蓝色)的自对齐,随机基线k/d≈0.016k/d\approx 0.016(虚线)。(b) 残差范数比‖Rl‖F/‖Jl‖F\\\|R_\{\ell\}\\\|_F/\\\|J_\{\ell\}\\\|_F。(c) 偏离正规性的亨里奇偏差δ(Jl)\\delta(J_\{\ell\})。第二行:区域均值(早期/中部/晚期)

相似文章

关于循环变换器中残差缩放:稳定性与可迁移性

arXiv cs.LG

本文分析了循环(权重共享)变换器中的残差缩放问题,表明权重共享需要比标准残差网络更强的缩放(1/N),并推导出一种因式参数化方法,使得超参数可以在不同循环次数之间迁移,无需重新调参。

高斯Transformer动力学的可达性与渐近性

arXiv cs.LG

本文提出了一个将Transformer动力学视为概率测度上的非线性控制系统的数学框架,证明了高斯分布在流动下保持高斯性,简化为有限维双线性控制,并建立了可达性条件和渐近稳定性结果。

用于定位 Grokking 相变的分布谱诊断方法

arXiv cs.LG

本文提出了一种分布谱诊断方法,用于在测试准确率上升之前定位 Transformer 模型中的 Grokking 相变。该方法利用经验分布和汉克尔动态模态分解(Hankel DMD)创建监测信号,以区分发生 Grokking 和未发生 Grokking 的训练运行。