深度网络会遗忘初始化吗？实际归纳偏置的遗忘时间视角

arXiv cs.LG 2026/05/29 04:00 论文

deep-learning initialization forgetting inductive-bias training-dynamics generalization

摘要

本文引入了“初始化记忆”的概念，研究深度网络中随机初始化偏差在训练后保留了多少，表明低学习率的SGD能保留初始化，而Adam系列优化器则消除它，并将其与遗忘动力学联系起来。

arXiv:2605.29152v1 公告类型: 新摘要: 随机初始化的神经网络在函数上施加了一个先验，但实际使用的预测器是在训练之后才产生的。我们提出问题：这种初始偏差有多少在训练流程中存活下来。为了使其可测量，我们引入了初始化记忆：验证选定的预测器对随机初始化尺度的依赖性。我们在ResNet上进行了受控的CIFAR-10实验，其中初始化记忆已经显著区分了训练机制。低学习率的SGD可以在记住其初始化的同时进行插值：在批量大小$b=128$的ResNet-9上，尽管训练精度$\ge99.5\%$，测试精度在不同初始化尺度上变化了$26.5$个百分点。这不是欠训练：将相同的低学习率机制延长到$5{,}000$个epoch，其散布基本不变。相反，Adam系列方法在很大程度上消除了这种依赖性。当更大的学习率与显式的$L_2$范数控制配对时，SGD也可以被诱导遗忘。我们根据遗忘的时间尺度来解释这些发现：类似梯度流的动力学可以保留初始化记忆，而随机有限步效应、显式范数衰减和自适应预处理则在由显式或隐式正则化大小决定的尺度上消除它。因此，训练后的网络的实际归纳偏置不仅仅是架构先验，而是经过训练流程的遗忘动力学过滤后的架构先验；并且那些提高泛化能力的正则化器正是那些消除初始化记忆的正则化器。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:17

# 深度网络会遗忘初始化吗？实用归纳偏置的遗忘时间视角

**来源：** https://arxiv.org/html/2605.29152

**Mohua Das** 麻省理工学院 & **Pierfrancesco Beneventano*** 麻省理工学院 & **Shibshankar Dey** 西北大学 & **Gareth H. McKinley** 麻省理工学院 & **Tomaso Poggio** 麻省理工学院

###### 摘要

随机初始化的神经网络会在函数上诱导一个先验，但实际使用的预测器只有在训练之后才产生。我们提出一个问题：这种初始偏置有多少能在训练流程中幸存下来？为了使问题可量化，我们引入了*初始化记忆*：验证集选择的预测器对随机初始化尺度的依赖程度。我们在 ResNet 上进行受控的 CIFAR-10 实验，发现初始化记忆已经能将训练机制明显区分开。低学习率的 SGD 可以在记忆其初始化的同时进行插值：在批大小 $b=128$ 的 ResNet-9 上，尽管训练准确率 $\geq 99.5\%$，不同初始化尺度下的测试准确率变化幅度高达 $26.5$ 个百分点。这不是欠训练造成的：将相同的低学习率机制扩展到 $5{,}000$ 个 epoch，其差异基本保持不变。相比之下，Adam 家族的方法在很大程度上消除了这种依赖关系。当较大的学习率与显式的 $L_2$ 范数控制相结合时，SGD 也可以被强制遗忘。我们根据遗忘的时间尺度来解释这些发现：类似梯度流的动力学可以保留初始化记忆，而随机有限步效应、显式范数衰减和自适应预处理则会在由显式或隐式正则化大小决定的时间尺度上将其消除。因此，经过训练的网络的实际归纳偏置不仅仅是架构先验本身，而是架构先验经过训练流程的遗忘动态过滤后的结果；而且，那些恰好能提高泛化能力的正则化器，也恰恰是那些能消除初始化记忆的。

## 1 引言

#### 关于初始化的文献。

现代神经网络先验上表达能力过强，仅凭容量无法解释其性能。因此，相关的对象不仅仅是假设类别，而是从其中选择出一个函数的训练流程[1 (https://arxiv.org/html/2605.29152#bib.bib1)]。在实践中，这个流程包括数据预处理、架构、初始化、优化器、批处理、显式正则化和训练时间。因此，理解性能不仅需要理解架构所诱导的先验，还需要理解训练如何转换那个先验。本文研究一个精确的子问题：初始化在解释性能中扮演什么角色？初始化是寻找这种偏置的一个自然位置。从动力系统的角度来看，在没有正则化的情况下，初始条件决定了轨迹探索参数空间的哪个区域（吸引域），以及最终选择哪个解[2 (https://arxiv.org/html/2605.29152#bib.bib2),3 (https://arxiv.org/html/2605.29152#bib.bib3)]。在简化的线性和同质网络中，初始化也被认为控制着基于梯度的训练的隐式偏置[4 (https://arxiv.org/html/2605.29152#bib.bib4),5 (https://arxiv.org/html/2605.29152#bib.bib5)]。一系列工作研究了随机网络的函数先验：在看到标签之前，架构和初始化方案赋予某些函数的概率远高于其他函数，通常倾向于简单的函数[6 (https://arxiv.org/html/2605.29152#bib.bib6),7 (https://arxiv.org/html/2605.29152#bib.bib7),8 (https://arxiv.org/html/2605.29152#bib.bib8)]。Mingard 等人[7 (https://arxiv.org/html/2605.29152#bib.bib7)]区分了一阶问题（为什么过参数化的 DNN 能够泛化）和二阶问题（如何进一步提高已经泛化的模型的性能）。我们的关注点是这座桥梁的一个具体部分：初始化时存在的简单性偏置是否足够强烈地幸存于训练过程，以至于在最终的预测器和实际性能中仍然可见。回答这个问题需要研究 (i) 优化开始后会发生什么，以及 (ii) 这些几何偏置是否会影响实际性能。初始化时存在的简单性偏置可能被后续的训练动态保留、扭曲或消除。因此，实际的问题不仅仅是随机网络是否具有简单性偏置，而是这种偏置在由现代训练流程选择的预测器中是否仍然可见。

鉴于这些工作，问题变成：训练何时会记住初始化的偏置，何时会遗忘它，以及遗忘的时间尺度是怎样的？这种几何简单性偏置如何在实际性能中体现？与上述文献明显相反的是，大规模模型训练中普遍存在另一种直觉。在那里，初始化通常更多地被视为一种稳定优化的机制，而不是最终归纳偏置的来源：防止信号爆炸或消失，实现深度，并使训练在大规模下可预测。这种观点支撑了方差保持的初始化方案、信号传播的随机矩阵和动力均场分析[9 (https://arxiv.org/html/2605.29152#bib.bib9),10 (https://arxiv.org/html/2605.29152#bib.bib10),11 (https://arxiv.org/html/2605.29152#bib.bib11),12 (https://arxiv.org/html/2605.29152#bib.bib12),13 (https://arxiv.org/html/2605.29152#bib.bib13),14 (https://arxiv.org/html/2605.29152#bib.bib14),15 (https://arxiv.org/html/2605.29152#bib.bib15),16 (https://arxiv.org/html/2605.29152#bib.bib16),17 (https://arxiv.org/html/2605.29152#bib.bib17)]，以及现代参数化理论如 $\mu$P[18 (https://arxiv.org/html/2605.29152#bib.bib18),19 (https://arxiv.org/html/2605.29152#bib.bib19),20 (https://arxiv.org/html/2605.29152#bib.bib20),21 (https://arxiv.org/html/2605.29152#bib.bib21),22 (https://arxiv.org/html/2605.29152#bib.bib22),23 (https://arxiv.org/html/2605.29152#bib.bib23)]。从这个角度来看，归因于初始化的改进可能主要来自于使训练成为可能或稳定，而不是来自函数间持久的偏好。最近的证据表明，随机种子和初始化可以影响语言模型训练——无论是在微调[24 (https://arxiv.org/html/2605.29152#bib.bib24)]还是预训练[25 (https://arxiv.org/html/2605.29152#bib.bib25),26 (https://arxiv.org/html/2605.29152#bib.bib26),27 (https://arxiv.org/html/2605.29152#bib.bib27),28 (https://arxiv.org/html/2605.29152#bib.bib28)]过程中——进一步明确了这个问题的时间线。相关对语言模型训练流程和架构选择的受控研究强化了大规模行为不仅仅由架构决定[29 (https://arxiv.org/html/2605.29152#bib.bib29),30 (https://arxiv.org/html/2605.29152#bib.bib30)]。

参见图注

图 1：SGD 记住初始化；Adam 家族方法遗忘。ResNet-9 在共享的低学习率训练程序下。每条曲线显示 $n=10$ 个种子的均值；阴影带表示第 $10^{\mathrm{th}}-90^{\mathrm{th}}$ 百分位范围。SGD 进行插值，但其泛化差距随 $\sigma_w$ 增长。Adam、AdamW 和 Muon 对 $\sigma_w$ 的依赖性显着减弱。范数面板显示径向记忆：SGD 保留对初始范数（虚线）的敏感性，而自适应方法则收敛到一个共同的最终范数尺度。顶行：$b=16$；底行：$b=128$。

#### 我们的贡献。

如上所述，已有大量工作表明随机网络和 SGD 训练的网络偏向简单函数，另有单独的工作表明归一化、SGD 噪声、正则化和有限步离散化会显著改变优化轨迹[31 (https://arxiv.org/html/2605.29152#bib.bib31),32 (https://arxiv.org/html/2605.29152#bib.bib32),33 (https://arxiv.org/html/2605.29152#bib.bib33),34 (https://arxiv.org/html/2605.29152#bib.bib34),35 (https://arxiv.org/html/2605.29152#bib.bib35)]（进一步的相关工作见附录 H (https://arxiv.org/html/2605.29152#A8)）。然而，关于初始化诱导的简单性何时幸存于训练、何时被遗忘，这一点的阐述仍然相对不足。这正是我们论文所填补的精确空白。

本文是在精心控制的设定下进行的实证研究：在 CIFAR-10 上使用 ResNet。我们在初始化尺度、优化器、批大小、深度、训练时长和显式正则化方面进行了广泛的消融实验。我们引入初始化记忆作为我们的诊断工具：即训练流程返回的预测器对初始化尺度 $\sigma_w$ 的依赖程度。

1. 1. **初始化尺度记忆的受控相图。** 我们展示了不同的训练程序在返回的预测器是否仍然依赖初始化尺度方面存在显著差异。
    - • 低学习率 SGD 可以在插值的同时保留较大的初始化尺度记忆：对于 $b=128$ 的 ResNet-9，尽管训练准确率 $\geq 99.5\%$，不同 $\sigma_w$ 下的测试准确率变化幅度高达 $26.5$ 个百分点。
    - • 在相同的诊断网格中，Adam、AdamW 和 Muon 反而在很大程度上消除了这种依赖性。超参数消融和深度压力测试表明，失败模式在不同机制间发生变化：糟糕的遗忘在较浅的网络中可能表现为插值伴随泛化不佳，或在较深网络中表现为可训练性下降。
2. 2. **插值、训练时长和初始化尺度遗忘之间的分离。** 我们展示了消除初始化尺度依赖性并不意味着拟合标签或扩展相同的低学习率动力学。一个 $5{,}000$ 个 epoch 的低学习率 SGD 对照实验使初始化尺度差异基本保持不变。然而，当训练配方提供更大的有效移动量（更大的隐式正则化）或显式正则化（如权重衰减）时，SGD 可以被制造成遗忘记，这表明遗忘是整个训练配方的属性，而非优化器名称的属性。特别地，我们展示了训练程序在学习率和正则化更大或批大小更小时会遗忘更多。
3. 3. **遗忘时间尺度机制。** 我们通过累积优化器时钟来组织结果：$T_{\mathrm{SGD}} = \frac{1}{b} \sum_{k} 0$ $\Delta_{\mathrm{repair}} > 0$。在小批 $b \leq 64$ 时，它们在*插值之前*就达到了 $\tau_{\mathrm{best}}$，因此正式的修复差距可以是负的，即使验证准确率继续提高（见附录 B (https://arxiv.org/html/2605.29152#A2)）。普通 SGD 的修复差距接近于零：在 $\tau_{\mathrm{best}}$ 和 $\tau_{\mathrm{interp}}$ 之间验证准确率持平，即使两者都随 $\sigma_w$ 增长。

#### 指标。

我们报告在最佳验证损失检查点 $\tau_{\mathrm{best}}$ 处的测试准确率。我们还跟踪插值 epoch $\tau_{\mathrm{interp}} = \min\{t: \mathrm{TrainAcc}_t \geq 99.5\%\}$，可训练核的 Frobenius 范数 $\|W\|_F = \left( \sum_{\ell} \|W^{(\ell)}\|_F^2 \right)^{1/2}$，以及检查点修复差距 $\Delta_{\mathrm{repair}} = \mathrm{ValAcc}_{\tau_{\mathrm{best}}} - \mathrm{ValAcc}_{\tau_{\mathrm{interp}}}$。插值 epoch 度量标签何时被拟合。范数度量初始尺度的径向记忆。修复差距度量验证准确率在插值和选定检查点之间的变化。

## 3 初始化记忆：优化器和超参数

我们现在比较不同的程序保留了多少初始化尺度记忆。核心对比是，在共享的低学习率诊断程序下，普通 SGD 让 $\sigma_w$ 在选定的检查点处可见，而 Adam、AdamW 和 Muon 在很大程度上消除了它。两个诊断方法细化了这种比较：核范数测试径向尺度是否已被覆盖，检查点分析将拟合标签与遗忘初始尺度区分开。

### 3.1 SGD 与 Adam 和 Muon

图 1 (https://arxiv.org/html/2605.29152#S1.F1) 举例说明了基本的优化器对比；图 2 (https://arxiv.org/html/2605.29152#S1.F2) 将其扩展到完整的 $\sigma_w \times b$ 网格。

#### 泛化。

普通 SGD 会记住它的起点：在 $b=128$ 时，它在整个 $\sigma_w$ 扫描范围内实现了超过 $99.5\%$ 的训练准确率，但其测试准确率从 $\sigma_w=0.1$ 时的 $85.0\%$ 下降到 $\sigma_w=2.5$ 时的 $58.6\%$，在仅仅通过训练准确率看起来已经学习到相同数据的两次运行之间，存在 $26.5$ 个百分点的差距。动量只是部分解决方案：在小批大小时，它显著减少了差距（在 $b=16$ 时从 $22.8$ 个百分点降至 $10.9$ 个百分点），但在 $b=128$ 且使用相同的低学习率程序时，它几乎没什么帮助。Adam 家族方法在很大程度上消除了初始化尺度的影响：使用相同的数据、学习率和 epoch 预算时，在 $b=128$ 下，Adam、AdamW 和 Muon 的差距分别仅为 $4.3$、$4.7$ 和 $4.0$ 个百分点，而 Adam 在 $b=16$ 下的差距为 $1.6$ 个百分点，相比之下 SGD 为 $22.8$ 个百分点。事实上，*Adam 本身*（无权重衰减）与 AdamW 和 Muon（解耦的 $\lambda=10^{-4}$）表现相当，表明这种效应并非由优化器默认的权重衰减驱动（附录 A (https://arxiv.org/html/2605.29152#A1)）。

#### 权重范数。

图 1 (https://arxiv.org/html/2605.29152#S1.F1) (c, f) 中的范数面板显示了参数空间中的相同区别。在低学习率 SGD 下，$\|W_{\tau_{\mathrm{best}}}\|_F$ 与 $\|W_{\mathrm{init}}\|_F$ 保持耦合：初始核越大，选择的核范数也越大。Adam、AdamW 和 Muon 则将不同的初始尺度移向一个共同的范数范围。因此，我们将 $\|W_{\tau_{\mathrm{best}}}\|_F$ 解读为径向记忆诊断，而不是总移动距离的度量。

#### 信息。

因此，遗忘初始化并不是拟合标签这一事件。在低学习率 SGD 下，在径向记忆被消除之前就已经达到了插值，并且后续的修复很少。Adam 家族的行为依赖于批大小：在大批 $b \geq 128$ 时，最佳验证损失检查点在*插值之后*达到，并且插值后的持续移动缩小了 $\sigma_w$ 差距；在小批 $b \leq 64$ 时，最佳验证损失检查点在*插值之前*达到，即差距在插值前阶段就已经缩小（图 3 (https://arxiv.org/html/2605.29152#S2.F3)，附录 B (https://arxiv.org/html/2605.29152#A2)）。

**信息 1.** Adam(W) 和 Muon 在很大程度上减少了初始化记忆。SGD 通常保留初始化记忆。

### 3.2 对超参数的依赖

在图 1 (https://arxiv.org/html/2605.29152#S1.F1) 中，我们刻意使用了诊断性的低学习率 SGD 基线，而非经过调优的 SGD 程序。因此自然的反驳很简单：也许 SGD 只需要更多时间或更好的超参数。在本节中，我们分析遗忘初始化如何依赖于超参数。图 4 (https://arxiv.org/html/2605.29152#S3.F4) 通过一个针对 ResNet-9 的定向扫描直接测试了这一点，扫描范围包括训练长度、学习率和显式 $L_2$ 正则化。更多细节参见附录 4 (https://arxiv.org/html/2605.29152#A3.T4)。具体来说，我们看到：

参见图注

图 4：什么帮助 SGD 遗忘初始化？测试准确率 vs. $\sigma_w$ 对于 (a) $b$

深度网络会遗忘初始化吗？实际归纳偏置的遗忘时间视角

相似文章

遗忘并非擦除：通过传输键恢复潜在知识

在顺序训练的早退出神经网络中平衡稳定性与可塑性

丢失还是隐藏？监督持续学习中的概念级遗忘

灾难性遗忘的机制起源：为什么RL比SFT更好地保留电路？

持久遗忘：通过电路归因实现量化不变的机器遗忘

提交意见反馈