测量死方向:脱离规范对齐的奇异结构解构与分类
摘要
本文提出了一种无需下降和对齐的方法来测量训练后神经网络中的奇异结构。该方法从方向Fisher率中恢复死方向的阶数,将真实奇点与平坦规范对称性区分开来,并展示了该技术在Transformer和卷积层上的应用。
arXiv:2607.00603v1 公告类型:新
摘要:我们提出了一种无需下降和对齐的方法来测量训练后网络中的奇异结构。在单个冻结检查点上,该读取从方向Fisher率中恢复每个死方向的阶数 $k$,方向Fisher率是主不变式,由此每个方向的学习系数 $1/(2k)$ 精确得出,且与优化器留下的基无关。同样的读取对每个方向进行分类,将真实奇点(其阶数由架构固定)与平坦规范对称性区分开;方向Fisher的大小解决了阶数无法判定的情况。一个可插拔检测器为Transformer、卷积和归一化层提供方向。该读取在构建的细胞和训练后的网络中恢复了架构预测的阶数,包括一个微调后的视觉Transformer(其死结构为LayerNorm核规范)和一个从头训练的视觉Transformer(其压缩的MLP在其激活阶数处形成节点死亡)。当奇异结构被枚举时,每个方向的阶数通过位点的类型化交集组合成全局系数 $(\lambda, m)$,与封闭形式匹配。该方法去除了底层率结果的规范对齐和下降前提,将阶数恢复转变为确定性的、架构通用的读取。然后我们将其覆盖范围映射到Watanabe三元组:阶数决定了通用奇异波动 $\nu(k)$,尽管训练后网络实际实现的 $\nu$ 低于该值,因为活性结构吸收了死方向的数据波动,而重数在单一位置假设下从主导结构中恢复。
查看缓存全文
缓存时间: 2026/07/02 05:39
# 分解与分类规范对齐下的奇异结构
来源:https://arxiv.org/html/2607.00603
## 测量死亡方向:规范对齐下的奇异结构分解与分类
Tejas Pradeep Shirodkar IIIT, Hyderabad
###### 摘要
我们提出了一种免下降、免对齐的测量方法,用于测量训练网络上的奇异结构。在单个冻结检查点,该方法通过方向性Fisher率恢复每个死亡方向的阶数 \(k\),这是主不变量,每方向学习系数 \(1/(2k)\) 精确地由此得出,无论优化器留下了何种基。该读取方法同样分类每个方向,将架构固定的阶数的真正奇异点与平坦规范对称性区分开;方向性Fisher量级解决了阶数无法分辨的情况。一个可插拔检测器为Transformer、卷积和归一化层提供方向。该读取在构造单元和训练网络上恢复了架构预测的阶数,包括一个微调视觉Transformer,其死亡结构是LayerNorm核规范,以及一个从头训练的视觉Transformer,其压缩MLP在其激活阶数处形成节点死亡。当奇异结构可枚举时,每方向阶数通过轨迹的类型化交集(横向、可分离、相切或行列式)组装成全局系数 \((\lambda, m)\),匹配闭式解。该方法去除了底层率结果的规范对齐和下降前提,将阶数恢复转变为一种确定性的、架构通用的读取。然后我们将其应用范围映射到Watanabe三元组:阶数决定了通用奇异波动 \(\nu(k)\),尽管训练网络的实现 \(\nu\) 低于该值,因为活跃结构吸收了死亡方向的数据波动;而重数在单轨迹假设下从主导结构中恢复。
## 1 引言
死亡方向是两种传统在同一视角上看到的对象。从Amari的信息几何(Amari, 2016 (https://arxiv.org/html/2607.00603#bib.bib1))来看,它是Fisher度量失去非退化性的方向。从Watanabe的奇异学习理论(Watanabe, 2009 (https://arxiv.org/html/2607.00603#bib.bib29))来看,它与解析奇异集相切,在该点上Kullback–Leibler散数以整数阶数消失,该阶数通过奇点分辨率恢复。这两种视角命名了同一个向量,阶数 \(k\) 是连接它们的桥梁。Shirodkar(2026b (https://arxiv.org/html/2607.00603#bib.bib23))的轨迹率结果在原始参数坐标中读取 \(k\),无需分辨率:沿死亡方向 \(u\) 移动参数,\(\theta(t) = \theta_0 + t u\),方向性Fisher衰减为 \(u^\top F(\theta(t)) u = \Theta(t^{2(k-1)})\),因此对数-对数斜率返回 \(k\),每方向学习系数 \(\lambda = 1/(2k)\)。
参见图注
图1:读取规范对齐外的阶数。(a) 训练网络留下一个旋转偏离坐标轴的死亡方向 \(u\);我们将 \(u\) 构造为K-FAC因子 \(A \otimes G\) 的联合模式,并从冻结检查点 \(\theta_0\) 扫描方向性Fisher,无需下降和对齐。(b) 在一个真实的gelu Transformer块上,其死亡方向旋转偏离轴,非规范联合模式读取恢复了激活阶数(\(\hat{k}=1.95\),\(k=2\)),而沿坐标轴的逐坐标扫描会跟随错误方向,读取到背离的阶数(\(\hat{k}=1.26\))。纯度匹配窗口(阴影区域)中的斜率返回 \(k\)。
奇异学习理论通过学习系数、重数 \(m\) 和奇异波动 \(\nu\)(即Watanabe三元组 \((\lambda, m, \nu)\))来刻画训练网络,该三元组控制贝叶斯自由能和广泛适用信息准则(WAIC)(Watanabe, 2018 (https://arxiv.org/html/2607.00603#bib.bib30))。在真实网络上读取三元组代价高昂且需要前提条件。学习系数的标准估计器使用随机梯度Langevin动力学(SGLD)对后验进行采样(Lau et al., 2025 (https://arxiv.org/html/2607.00603#bib.bib15));它返回单个校准后的标量,需要针对每个模型调整采样器,不定位到网络坐标,也不隔离 \(m\) 或 \(\nu\)。上述斜率读取更廉价,但Shirodkar(2026b (https://arxiv.org/html/2607.00603#bib.bib23))的干净逐层版本假定规范对齐(死亡方向在每层是同一坐标)以及一个支持定理的下降优化器。训练网络只能部分满足这些条件。我们提出一种测量方法论,适用于任何已形成死亡方向(即网络携带可读奇异结构的区域)的情况。给定一个死亡方向,流程为“检测然后读取”:检测器定位方向,并在单个冻结检查点进行一次免下降扫描,通过方向性Fisher率读取其阶数,使用纯度匹配窗口隔离 \(t^{2(k-1)}\) 区间。读取返回每个方向的阶数 \(k\),因此 \(\lambda_{\mathrm{dir}} = 1/(2k)\),并附带死亡子空间维度,因此后验采样报告的单系数分解为其求和所依据的每方向结构。该扫描还读取它发现了哪种方向。有限阶数标记真正退化:节点死亡(隐藏单元,其输入和输出权重均已坍缩,阶数为该单元激活的局部解析阶数),或深度诱导的深度线性映射奇异点(阶数为深度)。方向性Fisher保持地板值的则标记规范方向(架构的对称性,增加重数但不携带有限阶数)。区分两者需使用Fisher的大小:沿切线读取的弯曲规范轨道会单独在斜率上模仿有限阶数。我们在死亡结构类型的分类法上测试该读取方法,从构造的节点死亡和深度线性深度奇异点,到真实微调视觉Transformer的LayerNorm核规范和从头训练视觉Transformer的旋转节点死亡(第4节)。检测器是流程中随架构变化的部分,因为暴露死亡方向的结构因人而异。通用层将方向呈现为K-FAC(Kronecker因子近似曲率)因子的接近零空间(Martens and Grosse, 2015 (https://arxiv.org/html/2607.00603#bib.bib17));检测器形成激活因子和梯度因子,并读取两者中更清晰分离方向的那个——即Shirodkar(2026b (https://arxiv.org/html/2607.00603#bib.bib23))的激活-梯度对偶。卷积层将激活因子替换为空间块协方差,读取在该协方差上进行。LayerNorm Transformer无需扫描,因为其归一化尺度的零空间以闭式给出方向。下游读取在每种情况下相同。读取和后验采样器互补。读取是确定性的,无需规范对齐或下降,采样器提供读取分解为每方向结构的单个校准系数。除了阶数及其精确系数 \(1/(2k)\),读取通过阶数触及通用波动 \(\nu(k)\),并通过主导结构触及重数,尽管训练网络仅部分实现两者。
##### 贡献。
1. 一种免下降、免对齐的每方向阶数 \(k\) 读取方法,因此 \(\lambda_{\mathrm{dir}} = 1/(2k)\),以及死亡子空间维度,在单个冻结检查点(图1),通过对偶标识,通过从因子构造死亡模式而非搜索Fisher谱,以及纯度匹配的率窗口(第3节)。
2. 一个“检测然后读取”流程,其检测器适应架构:K-FAC对偶因子扫描,卷积通道死亡因子,或代数LayerNorm核方向,而读取保持不变(第3节)。
3. 一个将每个死亡方向分类为真正奇异点(其有限阶数由架构固定:节点死亡在激活阶数,深度奇异点在网络深度,单元重叠合并)或平坦规范(增加重数但无阶数:LayerNorm核、注意力旋转和交叉熵平移规范)的分类法,配有量级准则,用于区分弯曲规范轨道和有限阶数。我们在构造单元、从头训练的视觉Transformer(其压缩MLP形成真正节点死亡)和真实微调视觉Transformer(其死亡结构读取为LayerNorm核和注意力旋转规范)上填充该分类法(第4节,表2)。
4. 读取报告的优化器相关几何:标准优化器可能使深层网络的死亡结构过于扩散而无法携带阶数,或较浅网络的死亡结构旋转偏离坐标轴(逐坐标扫描会丢失),而正交化优化器会形成干净的死亡结构,非规范读取可恢复(第5节)。
5. 奇异结构可枚举时的全局系数:每方向阶数通过轨迹的类型化交集(横向、可分离、相切或行列式)组装成全局 \((\lambda, m)\),匹配Aoyagi在解析胞上的闭式解,与后验采样器(枚举处于开放状态)并列(第7节,附录D.3)。
6. 读取方法在Watanabe三元组其余部分的应用范围映射:阶数决定通用奇异波动 \(\nu(k)\),我们通过在孤立阶数 \(k\) 方向上的采样确认;训练网络的实现 \(\nu\) 低于 \(\nu(k)\),因为活跃结构吸收了死亡方向的数据波动,我们隔离并测量这种抑制;在单主导轨迹假设下,重数从主导结构中恢复(第6节)。
## 2 背景
##### 率基元。
沿死亡方向,方向性Fisher以 \(t^{2(k-1)}\) 衰减,其中 \(k\) 是该方向的KL阶数,衡量损失沿该方向的平坦程度:\(k\) 越大,在损失响应之前消失的导数越多。阶数是两种传统在原始坐标中读取的不变量(Shirodkar, 2026b (https://arxiv.org/html/2607.00603#bib.bib23);Watanabe, 2009 (https://arxiv.org/html/2607.00603#bib.bib29))。该阶数固定了该方向的局部阈值 \(\lambda_{\mathrm{dir}} = 1/(2k)\)。全局阈值收集每方向贡献,对独立死亡方向求和 \(\sum_i 1/(2k_i)\),但在方向相遇形成正则交叉(其奇异轨迹横向相交)时取 \(\min_i 1/(2k_i)\),因此全局值需要每方向阶数和组合它们的交叉结构。
##### Watanabe三元组。
正则模型(具有可识别参数和非退化Fisher度量)的贝叶斯自由能和泛化误差由参数数量的一半 \(d/2\) 设定。神经网络是奇异的:不同的参数实现相同函数,Fisher在最优参数集 \(\Sigma_T\) 上退化,因此 \(d/2\) 不再适用(Watanabe, 2009 (https://arxiv.org/html/2607.00603#bib.bib29))。奇异学习理论用该奇异结构的三个不变量替代它。学习系数(即实对数规范阈值)\(\lambda\) 是有效复杂度:它是自由能 \(F_n = n L_0 + \lambda \log n - (m-1) \log \log n + O(1)\) 中主导修正的系数,对于正则模型等于 \(d/2\),随着结构变得更加退化而低于它,并控制贝叶斯泛化误差。重数 \(m\) 计数达到该最小 \(\lambda\) 的 \(\Sigma_T\) 分量,并设定 \(\log \log n\) 项。奇异波动 \(\nu\) 通过广泛适用信息准则 \(\mathrm{WAIC} = T_n + 2\nu/n\)(Watanabe, 2018 (https://arxiv.org/html/2607.00603#bib.bib30))控制泛化与训练损失的差距,在正则情形下也减少至 \(d/2\)。对于解析奇异模型(降秩回归和深度线性网络),三元组已知闭式解(Aoyagi and Watanabe, 2005 (https://arxiv.org/html/2607.00603#bib.bib4);Aoyagi, 2024 (https://arxiv.org/html/2607.00603#bib.bib3));这些是该论文校准的基准真值。
##### 两个前提条件。
Shirodkar(2026b (https://arxiv.org/html/2607.00603#bib.bib23))的干净逐层率读取在两个条件下成立,训练网络仅部分满足:规范对齐,使得死亡方向在每一层占据一个坐标并且逐坐标扫描跟随它;以及下降,在支持定理的优化器下,使得率沿趋近奇异点的路径读取。我们两者都不保留,只要求死亡方向已形成,并在单次冻结检查点上以其所在任意基读取。替代下降,扫描沿提名方向 \(u\) 从检查点 \(\theta_0\) 合成位移 \(\theta_0 + t u\),扫描比例 \(t\) 由读取设置,从沿该扫描方向的方向性Fisher增长中取出阶数。无需训练轨迹;检查点只需位于 \(u\) 中的奇异点处,这是唯一保留的前提条件。
##### K-FAC因子和A–G对偶。
层 \(y = W x\) 的参数Fisher因子化为(Martens and Grosse, 2015 (https://arxiv.org/html/2607.00603#bib.bib17))\(F_W \approx A \otimes G\),其中 \(A = \mathbb{E}[x x^\top]\) 为输入协方差,\(G = \mathbb{E}[g g^\top]\) 为输出梯度协方差(\(g = \partial L / \partial y\)),其最小Fisher方向是秩一提升 \(g_{\min} a_{\min}^\top\)。两个因子对偶,\(\lambda_{\min}(A_\ell) \, \lambda_{\min}(G_\ell) = \Theta(t^{2(L-1)})\) 在深度 \(L\) 网络的每一层 \(\ell\) 相同(Shirodkar, 2026b (https://arxiv.org/html/2607.00603#bib.bib23), Thm. 3),因此检测器可以从任一因子在给定层分离时读取死亡方向。我们将两个因子累积为“真实”Fisher(标签重采样和蒙特卡洛估计,表中true-MC),从模型自身预测分布重采样标签。“经验”Fisher由数据标签构建,携带模型的拟合误差:其中 \(g\) 为观察标签处的残差,仅在完全拟合时消失,且不贡献曲率。重采样去除该项,因此 \(\lambda_{\min}\) 和有效秩(Roy and Vetterli, 2007 (https://arxiv.org/html/2607.00603#bib.bib21))保持为几何量。Bushnaq等人(2024 (https://arxiv.org/html/2607.00603#bib.bib相似文章
角度-范数分解下的激活转向几何解释
本文通过将干预分解为角度和径向分量,分析了语言模型中的线性激活转向。研究发现概念主要编码在角度结构中,但范数调整对稳定性至关重要,支持球形转向方法的同时表明加性系数混淆了几何特性。
完美检测,控制失效:语言模型中认知与引导的几何关系
本文研究了语言模型激活中检测行为的向量与控制行为的向量之间的几何关系,发现对于幻觉检测,它们几乎正交(余弦约0.12),而对于输出格式,它们完美对齐,这对机械可解释性中的一个常见假设提出了挑战。
稀疏自编码器将大脑-LLM对齐映射到皮层语义拓扑
本文使用稀疏自编码器将大语言模型分解为可解释的特征,并表明语义特征能够解释大脑与皮层语义拓扑的对齐,且该结论在英语、中文和法语中均具有泛化性。
图对齐拓扑作为接地检测的归纳偏置
本文介绍了将图对齐拓扑作为接地检测的归纳偏置,使用图神经网络对参考信息与LLM输出之间的对齐结构进行建模。该方法在多个幻觉和问答数据集上取得了最先进的结果,性能优于GPT-4o。
测量、定位和消除LLM中的对齐特征
本文研究了LLM后训练如何引入类似AI的风格规律,并提出了PASTA,一种无需训练的方法来定位和消除这些对齐特征,从而在11个模型和6个检测器上降低AI检测率同时保持连贯性。