噪声驱动的亚稳态逃逸解释了深度神经网络中的Grokking现象
摘要
该论文提出,深度神经网络中的grokking现象源于一阶L2相变中噪声驱动的亚稳态逃逸,证明了延迟泛化遵循Arrhenius标度,并再现了典型的grokking曲线。
arXiv:2606.17120v1 公告类型:新
摘要:深度神经网络(DNNs)在L2正则化强度变化下表现出了一阶相变,每次相变都标志着新的可学习特征的出现。在临界正则化强度以下,所有特征原则上都是可学习的,但共存的亚稳态(由能量势垒分隔)可能会困住网络并阻碍收敛。DNN的一个优势是其泛化能力。但仍有许多未解之谜,其中包括所谓的“grokking”的起源:在长时间明显的过拟合后,突然延迟出现的泛化。我们在线性DNN中证明,grokking与一阶L2相变中的滞后现象一致:利用L2正则化来人为制造困局,我们展示了低准确率亚稳态模型只有在SGD噪声驱动其跨越能量势垒时才会逃逸,且逃逸时间遵循Arrhenius标度。我们通过有意将模型困在亚稳态中,在逃逸时间的两个数量级范围内重现了类似grokking的延迟收敛。使用稀疏子采样,我们还重现了典型的grokking曲线,其中测试误差最终接近最终训练误差。我们的工作表明,亚稳态的数量等于可学习特征的数量——数据协方差的每个奇异值对应一个——滞后现象的潜力随任务复杂性自然增长。我们提供了证据表明,相同的机制可能也适用于一般的非线性DNN。我们的结果为更高效的学习方案提供了途径。
查看缓存全文
缓存时间: 2026/06/17 05:36
# 噪声驱动的亚稳态逃逸解释了深度神经网络中的 Grokking 现象
**来源:** https://arxiv.org/html/2606.17120
\NameIbrahim Talha Ersoy\Emailtalha\.ersoy@uni\-potsdam\.de \NameKaroline Wiesner\Emailkaroline\.wiesner@uni\-potsdam\.de \addr波茨坦大学复杂科学小组,德国波茨坦
###### 摘要
深度神经网络 (DNN) 在 L2 正则化强度变化下会表现出第一类相变,每个相变标志着新可学习特征的开始。当正则化强度低于临界值时,原则上所有特征都是可学习的,但共存的亚稳态(由能量势垒分隔)可能困住网络并阻碍收敛。DNN 的一个优势是其泛化能力。但仍有许多未解之谜,其中包括所谓 grokking 现象的起源:在长时间明显的过拟合之后,泛化能力突然、延迟地出现。我们针对线性 DNN 证明,grokking 与第一类 L2 相变中的滞后现象一致:利用 L2 正则化进行工程化故意捕获,我们展示了一个处于低精度亚稳态的模型只有当 SGD 噪声驱动其越过能量势垒时才会逃逸,且逃逸时间遵循阿伦尼乌斯标度。我们通过故意将模型困在亚稳态中,在跨越两个数量级的逃逸时间上重现了类似 grokking 的延迟收敛。利用稀疏子采样,我们还重现了典型的 grokking 曲线,其中测试误差最终接近最终训练误差。我们的工作表明,亚稳态的数量等于可学习特征的数量——每个数据协方差奇异值对应一个——滞后现象的可能性随任务复杂度自然增长。我们提供了证据表明,类似的机制很可能也存在于一般的非线性 DNN 中。我们的结果为更高效的学习方案开辟了道路。
## 1 引言
L2 正则化是现代机器学习的基石,从经典的岭回归[1 (https://arxiv.org/html/2606.17120#bib.bib1)]到大规模深度学习[2 (https://arxiv.org/html/2606.17120#bib.bib2)]都用于对抗过拟合。除了其实用作用,L2 正则化还引出了丰富的现象,这些现象最近通过统计物理学得到了理解。Ziyin 和 Ueda[3 (https://arxiv.org/html/2606.17120#bib.bib3)] 表明,变化正则化强度会在 DNN 中驱动真正的相变,确定了 DNN 在学习开始时的第一类相变(从欠参数化到过参数化的转变)。后续工作将该图景扩展到了学习开始之后:Ersoy 和 Wiesner 将这些相变与损失景观中的曲率下降联系起来[6 (https://arxiv.org/html/2606.17120#bib.bib6)];Ersoy、Licha 和 Wiesner 将其与可学习特征层次结构联系起来[7 (https://arxiv.org/html/2606.17120#bib.bib7)];Ladewig、Ersoy 和 Wiesner 证明在线性网络中,数据协方差的每个非零奇异值都会产生自己的秩相变[8 (https://arxiv.org/html/2606.17120#bib.bib8)],这意味着相变在整个训练过程中不断出现,每个可学习特征一次。
Grokking,即训练损失饱和后泛化能力从接近零突然转变为接近完美,自 Power 等人[9 (https://arxiv.org/html/2606.17120#bib.bib9)] 在用模加法的 Transformer 中展示以来,引起了广泛关注。这一现象的起源尚未完全理解。Liu 等人[10 (https://arxiv.org/html/2606.17120#bib.bib10)] 指出正则化是 grokking 的核心驱动力。Nanda 等人[21 (https://arxiv.org/html/2606.17120#bib.bib21)] 在转变中识别出了可解释的表示,Tian[22 (https://arxiv.org/html/2606.17120#bib.bib22)] 推导出了特征出现的标度律。Rubin 等人[11 (https://arxiv.org/html/2606.17120#bib.bib11)] 提出了一个包含熵垒的第一类相变类比。随后这受到 Zhang 等人[23 (https://arxiv.org/html/2606.17120#bib.bib23)] 的质疑,他们发现不存在熵垒,并提出了玻璃态弛豫作为解释。可解线性模型也被证明会发生 grokking[24 (https://arxiv.org/html/2606.17120#bib.bib24)],而且训练和测试数据之间的分布偏移已被确定为延迟泛化的一个驱动因素[25 (https://arxiv.org/html/2606.17120#bib.bib25)]。我们提供另一种解释。作为核心机制,我们提出**滞后**,类似于相变统计物理学:模型初始化于低精度相,并一直停留在那里,直到 SGD 噪声驱动其越过能量(损失)势垒进入全局最优相位。为了表明滞后与 grokking 现象一致,我们基于变换 L2 正则化强度会导致第一类相变这一发现来构建模型。我们问:能否是来自所产生的亚稳态的激活逃逸(而非相变本身)解释了 grokking 的标志性特征?为了回答这个问题,我们使用 L2 正则化作为一种控制工具来工程化造成亚稳态捕获。我们成功重现了 grokking 行为,并且进一步表明,这个激活过程受阿伦尼乌斯型动力学[12 (https://arxiv.org/html/2606.17120#bib.bib12),13 (https://arxiv.org/html/2606.17120#bib.bib13)] 控制,有效温度[14 (https://arxiv.org/html/2606.17120#bib.bib14)] \(T_{\mathrm{eff}}\propto\eta_{\mathrm{lr}}/B\)。这里 \(\eta_{\mathrm{lr}}\) 是学习率,\(B\) 是批次大小,使得逃逸时间对超参数的选择呈指数敏感。我们的结果在第2 (https://arxiv.org/html/2606.17120#S2)–3 (https://arxiv.org/html/2606.17120#S3) 节中确立,支持三个主张:
(1) 第一类 L2 相变会产生多个共存的亚稳态(每个可学习特征一个),其能量势垒将模型困在低精度相位中。
(2) 逃逸类似于服从阿伦尼乌斯动力学的热激活过程,其中 \(T_{\mathrm{eff}}\propto\eta_{\mathrm{lr}}/B\);我们数值上确认了这一点,\(R^2=0.991\)。
(3) 故意捕获在跨越两个数量级的逃逸时间上重现了 grokking 的标志性特征,即长延迟、突变性、对初始化的敏感性,以及在稀疏采样下的训练/测试分离。
## 2 方法
### 2.1 L2 相变
我们使用深度线性网络作为我们的最小模型,因为其损失景观是精确可解的,使我们能够解析地定位所有 \(d\) 个亚稳态最小值和能量势垒。所有定性结果——鞍结分岔、共存相、阿伦尼乌斯逃逸——在非线性网络中都存在(附录 G (https://arxiv.org/html/2606.17120#A7)),但线性情况使分析易于处理。在本节,我们回顾关于 L2 相变的关键先前结果,然后介绍我们的逃逸时间框架。
Ladewig 等人[8 (https://arxiv.org/html/2606.17120#bib.bib8)] 描述了线性 DNN 的精确机制,将相变与数据协方差的奇异值联系起来:给定输入 \(x\) 和输出 \(y\),协方差 \(\Sigma_{xx}\)、\(\Sigma_{yy}\) 以及互协方差 \(\Sigma_{yx}\),在对齐情况下(\(\Sigma_{xx}=\mathbf{I}\)),\(\Sigma_{yx}\) 的奇异值 \(\eta_i\) 直接表征可学习特征。在网络达到 0-平衡子空间(所有层对端到端映射贡献相等的权重组)之后,L2 正则化损失解耦为端到端权重矩阵的每个奇异值 \(\lambda_i\) 独立项:
\[
\mathcal{L}(\{\lambda_i\},\beta)=\frac{1}{2}\sum_{i=1}^{d}(\lambda_i-\eta_i)^2+\frac{\beta}{2}\sum_{i=1}^{d}\lambda_i^{2/L}, \tag{1}
\]
其中 \(L\) 是网络深度,\(d\) 是非零模态的数量,\(\beta>0\) 是正则化强度。对于深度 \(L\ge 3\),单个模态的驻定条件 \(\partial\mathcal{L}/\partial\lambda_i=0\) 为:
\[
\lambda-\eta+\beta\,\lambda^{2/L-1}=0. \tag{2}
\]
随着 \(\beta\) 增大穿过 \(\beta_c\),两个非平凡解(一个稳定最小值和一个不稳定鞍点)合并并在鞍结分岔中湮灭(参见附录 D (https://arxiv.org/html/2606.17120#A4)),只剩下 \(\lambda=0\)。在 \(\beta_c\) 以下,零秩解和非零秩解共存,由有限的能量势垒分隔(参见附录 C (https://arxiv.org/html/2606.17120#A3) 的分岔图)。临界正则化强度为:
\[
\beta_c^{(i)}=\frac{1}{1-k}\left(\eta_i\frac{1-k}{2-k}\right)^{2-k},\qquad k=\frac{2}{L}. \tag{3}
\]
对于 \(\beta>\beta_c^{(i)}\),亚稳态最小值消失。等损失点 \(\beta_i^*\)(低秩解和高秩解具有相等正则化损失的点)对于 \(L\ge 3\) 严格位于 \(\beta_c^{(i)}\) 以下,产生滞后现象:即使高秩相位在能量上更有利,模型仍被困在低秩相位中。排序 \(\eta_1>\cdots>\eta_d>0\) 给出 \(d\) 个不同的分岔,每个可学习特征对应一个亚稳态。
### 2.2 SGD 作为朗之万动力学与阿伦尼乌斯逃逸
为了模拟从亚稳态的逃逸,我们注意到 SGD 小批量噪声向梯度注入随机波动,其协方差标度为 \(\eta_{\mathrm{lr}}/B\),其中 \(\eta_{\mathrm{lr}}\) 是学习率,\(B\) 是批次大小。在过阻尼极限下,动力学映射到有效温度[14 (https://arxiv.org/html/2606.17120#bib.bib14)] 的朗之万动力学:
\[
T_{\mathrm{eff}}\propto\frac{\eta_{\mathrm{lr}}}{B}. \tag{4}
\]
从亚稳态的平均逃逸时间遵循克拉默斯-阿伦尼乌斯定律[12 (https://arxiv.org/html/2606.17120#bib.bib12),13 (https://arxiv.org/html/2606.17120#bib.bib13)]:
\[
\ln \tau = \ln \tau_0 + \frac{\Delta E_{\mathrm{eff}}}{T_{\mathrm{eff}}}, \tag{5}
\]
其中 \(\Delta E_{\mathrm{eff}}\) 是有效的势垒高度,吸收了高维曲率和熵修正(参见附录 F (https://arxiv.org/html/2606.17120#A6))。这得出了一个可证伪的预测:\(\ln \tau\) 与 \(B/\eta_{\mathrm{lr}}\) 呈线性关系。
## 3 结果
### 3.1 滞后与捕获重现 Grokking
亚稳态的共存意味着训练结果敏感地依赖于初始化。为了演示这一点,我们在 \(\beta=0.32\) 下运行,该值位于 \(\beta<\beta_c^{(1)}\) 的范围内,因此全局最小值为秩-2,但也存在一个亚稳态的秩-1 最小值。所有三个实验均使用学习率 \(\eta_{\mathrm{lr}}=0.08\) 和批次大小 \(B=64\)。我们考虑三种初始化协议(图1 (https://arxiv.org/html/2606.17120#S3.F1)):
(i) 随机初始化。
*设置*: 在 \(\beta=0.32\) 下使用标准随机权重初始化。
*观察*: 模型快速收敛到秩-2 全局最小值(图1 (https://arxiv.org/html/2606.17120#S3.F1),蓝色;\(\tau\approx 10\) 轮)。
*结论*: 当模型开始在亚稳态相位之外时,不会发生捕获。
(ii) 秩-1 陷阱。
*设置*: 模型从在 \(\beta>\beta_c^{(1)}\) 下训练的检查点初始化,使其处于亚稳态的秩-1 相位。
*观察*: 模型在秩-1 状态停留约 \(\tau\approx 5500\) 轮,然后突然逃逸到秩-2(图1 (https://arxiv.org/html/2606.17120#S3.F1),绿色)。
*结论*: 在亚稳态相位中的捕获产生了类似 grokking 的延迟收敛。
(iii) 平凡相陷阱。
*设置*: 模型从在 \(\beta>\beta_c^{(2)}\) 下训练的检查点初始化,使其处于秩-0 相位。
*观察*: 模型经过 \(\tau>7000\) 轮逃逸到秩-1,然后在秩-1 中进一步被捕获较长时期,总延迟 \(\tau>10{,}000\) 轮(图1 (https://arxiv.org/html/2606.17120#S3.F1),橙色)。
*结论*: 跨多个亚稳态相的顺序捕获重现了跨越两个数量级的分阶段 grokking 延迟。
(iv) 通过稀疏子采样的典型 Grokking。
*设置*: 训练集和测试集来自**相同**分布(弱相关 \(0.8\),强相关 \(0.9\)),但训练集非常稀疏,只有 \(25\) 个样本(占 \(5{,}000\) 样本池的 \(0.5\%\)),因此弱特征从训练数据中难以确定,而在测试中保持完整强度。模型在秩-1 捕获状态下初始化,并用小正则化 \(\beta=0.0025\) 训练,选择该值使得平台寿命较长但最终会解决。
*观察*: 在强模式平衡的短暂瞬态之后,两个误差均达到平台,训练误差低于测试误差(图1 (https://arxiv.org/html/2606.17120#S3.F1) (b));模型在秩-1 相位维持约 \(\approx 1500\) 轮,然后逃逸到秩-2,测试误差急剧下降,接近训练误差,仅留下由任务不可约噪声决定的小残余差距。
*结论*: 当弱特征在训练样本中代表性不足时,相同的捕获机制重现了典型的 grokking 曲线。
**图 1:**
\(a\) 作为初始化依赖的滞后
\(b\) 滞后中的训练-测试差异
**图 1: 深度线性网络中的延迟收敛。**
\(a\) 在 \(\beta=0.03\), \(\eta_{\mathrm{lr}}=0.08\), \(B=64\) 下的随机(蓝色)、秩-1 陷阱(绿色)、平凡相陷阱(橙色)。当模型初始化在低精度相位的局部最小值时,收敛被强烈延迟。
\(b\) 通过稀疏子采样(25 个训练样本,\(\beta=0.0025\))的典型 grokking。初始化为秩-1 相位,训练 MSE(蓝色)快速下降但只到达一个平台,而测试 MSE(红色)平台更高;在大约 1500 轮时,模型逃逸出秩-1 相位,测试 MSE 急剧下降,接近训练 MSE,仅留下由任务不可约噪声决定的小残余差距。
### 3.2 亚稳态之间的能量势垒
捕获机制要求不同秩相位之间存在有限能量势垒。图2 (https://arxiv.org/html/2606.17120#S3.F2) (a) 显示了在 \(\beta=0.32\) 时沿最小损失路径的损失景观截面,参数化为奇异值 \(\lambda\)。一个明显的势垒将 \(\lambda=0\) 处的局部最小值与全局最小值分开。我们数值计算了 Eq. (1 (https://arxiv.org/html/2606.17120#S2.E1)) 在鞍点 \(\lambda^{\mathrm{sad}}\approx 0.41\)(通过 Eq. (2 (https://arxiv.org/html/2606.17120#S2.E2)) 在 \(\beta=0.32\), \(\eta=0.8\), \(L=3\) 获得)处的值。这给出了 \(\Delta E_{\mathrm{min}}\approx 0.003\),即沿最低损失路径离开亚稳态的势垒(图2 (https://arxiv.org/html/2606.17120#S3.F2) (a))。正如我们接下来所示,控制逃逸时间的有效势垒远大于此。
### 3.3 阿伦尼乌斯标度确认热激活逃逸
为了测试逃逸是否受 Eq. (5 (https://arxiv.org/html/2606.17120#S2.E5)) 预测的激活势垒跨越支配,我们在固定批次大小 \(B=64\) 的情况下,变化 \(\eta_{\mathrm{lr}}\in [5\times 10^{-4}, 5\times 10^{-3}]\),测量了在 \(\beta=0.32\) 下从秩-1 捕获态的逃逸时间。为了测量逃逸时间,我们 (未完待续...)相似文章
特征排斥与谱锁定:两层网络 Grokking 现象的实证研究
这项实证研究验证了关于两层神经网络在 Grokking 现象期间的特征排斥和谱锁定理论发现,展示了激活函数如何影响从记忆到泛化的过渡。
驱动信息系统中的相变:学习理论与非平衡化学的双场视角
本文提出了一个统一的理论框架,用于描述深度学习中的相变(grokking、涌现能力)和非平衡化学中的相变,将两者描述为受两个梯度场控制的驱动信息系统。
图谱分析(Fiedler值与Scheffer CSD指标)在损失函数变化前21,000步预测grokking——五个可重复实验 [R]
应用图谱分析(Fiedler值)和Scheffer临界减速指标来预测神经网络中的grokking,在损失函数变化前21,000步检测到它,在五个可重复实验中。
语言模型中Grokking的预训练类比:追踪延迟的语法泛化
本文提出了一种基于暴露的框架,用于研究LLM预训练过程中类似Grokking的延迟泛化现象,使用了BLiMP最小对立对和关键短语。作者观察到五种语法现象均出现延迟泛化,并分析了内部变化,如概念向量的可预测性和注意力头的集中。
权重范数确定Grokking时间尺度:一个因果延迟定律
本文证明权重范数因果性地控制神经网络中grokking的时间尺度,调和了相互矛盾的论述。通过干预实验,它表明grokking遵循指数延迟定律,且范数大小在不同架构中比学习率更主导grokking时间。