平坦最小值是幻觉吗？

arXiv cs.LG 2026/05/08 04:00 论文

neural-networks generalization flat-minima sharpness-aware-minimization reparameterization pac-bayes mnist

摘要

本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点，认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明，弱性能够预测泛化，而尖锐性则与之负相关，且随着训练数据增加，大批次泛化优势消失。

arXiv:2605.05209v1 公告类型：新摘要：落在损失景观平坦区域的神经网络往往比落在尖锐区域的网络泛化得更好。锐度感知最小化利用这一点来提高泛化。但函数保持的重参数化可以在不改变任何预测的情况下，将任何最小值的海森矩阵放大两个数量级。如果权重空间的几何结构可以从无中制造出来，那么它就不能成为任何东西的原因。换句话说，平坦就是简单，而简单取决于编码。在这里，我表明真正的驱动力是弱性，即在学习者具体化语言中与所学函数兼容的完成体积。弱性是重参数化不变的，因为它定义在网络*做什么*，而不是如何参数化。我证明了在可交换需求下弱性是最小最大最优的，并且PAC-Bayes界之所以有效是因为它们与弱性相关。在MNIST上，大批次泛化优势随着训练数据的增加而*消失*，从$n=2{,}000$时的$+1.6\%$降至$n=60{,}000$时的$+0.02\%$。其预测能力取决于你拥有多少数据量的量不是一个原因，而是一个混杂因素。我对具有相同架构和训练的100个网络进行了直接比较。对于MNIST，弱性预测泛化（$\rho = +0.374$，$p = 0.00012$），锐度呈负相关（$\rho = -0.226$），而简单性没有预测性（$p = 0.848$）。对于Fashion-MNIST（$\rho = +0.384$，$p = 8.15 \times 10^{-5}$），尽管简单性至少有一些预测性。简单性依赖于数据集，而弱性是不变的。平坦最小值从来就不是答案。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 06:25

# 平坦最小值是幻觉吗？
来源：https://arxiv.org/html/2605.05209
Michael Timothy Bennett 计算学院 澳大利亚国立大学 michael\.bennett@anu\.edu\.au

###### 摘要

落入损失景观平坦区域的神经网络往往比落入尖锐区域的网络泛化性能更好。锐度感知最小化（Sharpness-Aware Minimisation）正是利用这一点来提升泛化性能。但是，保持函数不变的重参数化可以将任意最小值处的Hessian矩阵膨胀两个数量级，而不改变任何一个预测。如果权重空间的几何形状可以凭空制造出来，那它就不可能是任何现象的成因。换言之，平坦意味着简单，而简单性取决于编码。本文表明，真正的驱动力是**弱性**（weakness），即在学习者具身语言（embodied language）中，与所学函数兼容的补全（completions）的体积。弱性具有重参数化不变性，因为它定义在网络**做什么**上，而不是如何参数化上。我证明了在可交换需求（exchangeable demands）下，弱性是最小最大最优的，并且PAC-Bayes界之所以有效是因为它们与弱性相关。在MNIST上，随着训练数据增长，大批次训练相对于小批次训练的泛化优势**消失**，从 \(n=2,000\) 时的 \(+1.6\%\) 到 \(n=60,000\) 时的 \(+0.02\%\)。一个预测能力依赖于数据量的量不是原因，而是混杂因子。我在100个具有相同架构和训练的网络上进行直接比较。对于MNIST，弱性预测泛化（\(\rho=+0.374\)，\(p=0.00012\)），锐度呈负相关（\(\rho=-0.226\)），简单性无预测能力（\(p=0.848\)）。对于Fashion-MNIST（\(\rho=+0.384\)，\(p=8.15\times 10^{-5}\)），尽管简单性在那里至少有一定的预测能力。简单性依赖于数据集，而弱性是不变的。平坦最小值从来不是答案。

## 1 引言

平坦最小值比尖锐最小值泛化更好。至少，这是正统观点。Hochreiter和Schmidhuber (1997) (https://arxiv.org/html/2605.05209#bib.bib5)在1997年提出了这一观点，Keskar等人 (2017) (https://arxiv.org/html/2605.05209#bib.bib309)在2017年通过实验证明了它。锐度感知最小化 (Foret等人, 2021) (https://arxiv.org/html/2605.05209#bib.bib10)明确地寻找平坦最小值并改善了泛化。

这里，相关性没有争议，但因果关系有争议。Dinh等人 (2017) (https://arxiv.org/html/2605.05209#bib.bib6)给出了怀疑的理由。他们构建了一种重参数化，可以在不改变网络函数的情况下将尖锐最小值转换为平坦最小值。Hessian特征值和损失景观几何发生变化，而函数和预测保持不变。

几位作者提出了参数化不变的锐度度量。Tsuzuku等人 (2020) (https://arxiv.org/html/2605.05209#bib.bib16)按参数尺度进行了归一化。Petzka等人 (2021) (https://arxiv.org/html/2605.05209#bib.bib15)使用了Fisher信息度量。Kwon等人 (2021) (https://arxiv.org/html/2605.05209#bib.bib17)引入了自适应锐度。他们仍然没有回答这个问题：“所学**函数**的什么属性使其泛化？”

本文提供三个贡献。

1.  **消失的优势**。大批次训练相对于小批次训练的泛化优势随训练集大小变化而消失。在使用3层ReLU MLP的MNIST上，大批次网络在500、2,000、6,000和12,000个训练点上泛化更好。在24,000时差距很小（+0.08个百分点，\(p=0.002\)）。在60,000时微不足道（+0.02个百分点）。一个在某些尺度上相关而在其他尺度上不相关的量不是原因，而是混杂。
2.  **重参数化不变性**。我证明了**弱性** (Bennett, 2023 (https://arxiv.org/html/2605.05209#bib.bib65), 2025a) (https://arxiv.org/html/2605.05209#bib.bib75) 在构造上就是重参数化不变的。我确认了训练网络上Hessian迹的非不变性，变化可达99倍，而泛化性能完全恒定。
3.  **弱性胜过锐度**。我为冻结分区ReLU网络构造了两个形式化词汇表（vocabulary）。区域-类别词汇表（附录H (https://arxiv.org/html/2605.05209#A8)）是一种近似，它将每个激活区域独立处理。特征-分类器词汇表（附录I (https://arxiv.org/html/2605.05209#A9)）精确地遵守共享权重约束，并将每个扩展检查简化为线性规划。弥补形式化弱性在神经网络中直接类比的缺失，在Bennett (2026) (https://arxiv.org/html/2605.05209#bib.bib83)中被确定为一个开放问题；本文通过线性可行性和对-代理度量提供了一个具体的部分操作性方案。我通过线性可行性在100个具有相同架构、数据和训练的网络中测量弱性。弱性在模型选择上优于锐度（\(\rho=+0.374\)，\(p=0.00012\) vs \(\rho=-0.226\)，\(p=0.024\)）。简单性完全不具有预测能力（\(p=0.848\)）。结果在Fashion-MNIST上以几乎相同的强度复现（\(\rho \approx +0.38\)，\(p \approx 10^{-4}\)）。

缓冲区大小（\(k_{\mathrm{free}}\)）是一个显著但适度的预测因子（\(\rho=+0.117\)，\(p=0.043\)）。区域-类别词汇表是一种近似。特征-分类器词汇表（附录I (https://arxiv.org/html/2605.05209#A9)）解决了共享权重问题，并精确计算单点扩展，但对-代理是边际之和，而非完整扩展计数。

结构如下。第2节 (https://arxiv.org/html/2605.05209#S2) 回顾了堆栈理论（Stack Theory）的定义。第3节 (https://arxiv.org/html/2605.05209#S3) 将弱性扩展到连续域。第4节 (https://arxiv.org/html/2605.05209#S4) 呈现了重参数化不变性证明、PAC-Bayes联系以及混杂诊断。第5节 (https://arxiv.org/html/2605.05209#S5) 呈现实验。第6节 (https://arxiv.org/html/2605.05209#S6) 将连续弱性定位在泛化理论的图景中。第7节 (https://arxiv.org/html/2605.05209#S7) 讨论意义、局限和未来工作。附录H (https://arxiv.org/html/2605.05209#A8) 构造区域-类别词汇表。附录I (https://arxiv.org/html/2605.05209#A9) 构造特征-分类器词汇表，该词汇表遵守共享权重约束并将每个扩展检查简化为线性规划。

证明是自包含的，但这里使用的定义来源于更广泛的堆栈理论文献 (Bennett, 2025b) (https://arxiv.org/html/2605.05209#bib.bib87)。这些连续结果在有限情况下的前身已在Bennett (2025a) (https://arxiv.org/html/2605.05209#bib.bib75) 中得到证明。

## 2 背景

###### 定义1 (环境和程序)。

一个**环境**是一个非空集合 \(\Phi\)，包含互斥的状态。一个**程序**是任何子集 \(p \subseteq \Phi\)。记 \(\mathcal{P} = 2^\Phi\) 为所有程序的集合。一个**词汇表**是任何程序集合 \(\mathfrak{v} \subseteq \mathcal{P}\)。

将 \(\Phi\) 视为世界所有可能配置的集合。每个状态是一个完整的配置。程序是一个约束，在某些配置中成立，在另一些中不成立。词汇表是一个系统可以表达的所有约束的集合。对于神经网络，词汇表是该架构可以实现的所有输入-输出行为的集合。

###### 定义2 (具身语言和陈述)。

一个词汇表 \(\mathfrak{v}\) 诱导出一个**具身语言**

\[
L_{\mathfrak{v}} = \left\{ l \subseteq \mathfrak{v} \; \middle| \; \bigcap_{p \in l} p \neq \emptyset \right\}.
\]

元素 \(l \in L_{\mathfrak{v}}\) 被称为**陈述**。\(l\) 的**真值集**是 \(T(l) = \bigcap_{p \in l} p\)。

一个陈述是程序的相容合取，对应于可能物理状态的子集。例如，举起手臂是一个陈述。它是对空间位置、肌肉组织等的约束。具身语言 \(L_{\mathfrak{v}}\) **不**是完整的幂集 \(2^{\mathfrak{v}}\)。大多数程序组合是互斥的。你不能同时举起和放下手臂。可满足性约束 \(\bigcap_{p \in l} p \neq \emptyset\) 是这个结构有趣的原因。

###### 定义3 (扩展和弱性)。

\(x \in L_{\mathfrak{v}}\) 的一个**补全**是任何 \(y \in L_{\mathfrak{v}}\)，且 \(x \subseteq y\)。\(x\) 的**扩展**是

\[
\mathrm{Ext}\!\left(x\right) = \{ y \in L_{\mathfrak{v}} \mid x \subseteq y \}.
\]

对于陈述集合 \(X \subseteq L_{\mathfrak{v}}\)，记 \(\mathrm{Ext}\!\left(X\right) = \bigcup_{x \in X} \mathrm{Ext}\!\left(x\right)\)。\(x\) 的**弱性**是 \(w(x) = |\mathrm{Ext}\!\left(x\right)|\)。

弱性衡量一个陈述有多么不具承诺性。你还能做出的承诺越多，该陈述就越弱。

###### 定义4 (任务、正确性和学习)。

一个 \(\mathfrak{v}\)-**任务**是一个对 \(\alpha = \langle I_\alpha, O_\alpha \rangle\)，其中 \(I_\alpha \subseteq L_{\mathfrak{v}}\) 且 \(O_\alpha \subseteq \mathrm{Ext}\!\left(I_\alpha\right)\)。一个**策略** \(\pi \in L_{\mathfrak{v}}\) 对于 \(\alpha\) **正确**，如果 \(\mathrm{Ext}\!\left(I_\alpha\right) \cap \mathrm{Ext}\!\left(\pi\right) = O_\alpha\)。正确策略的集合是 \(\Pi_\alpha\)。任务 \(\alpha\) 是 \(\omega\) 的一个**子任务**，写作 \(\alpha \sqsubset \omega\)，如果 \(I_\alpha \subsetneq I_\omega\) 且 \(O_\alpha \subseteq O_\omega\)。

一个任务指定输入和正确的输出。一个策略约束系统如何补全输入。正确性意味着策略在给定输入上恰好产生正确的输出。子任务是具有更少示例的任务。学习意味着从子任务泛化到其父任务。

基本结果是，在父任务的可交换先验下，弱性最大化对于最优泛化既是必要的也是充分的 (Bennett, 2023 (https://arxiv.org/html/2605.05209#bib.bib65), 2025a) (https://arxiv.org/html/2605.05209#bib.bib75)。在子任务的所有正确策略中，最有可能也对未知父任务正确的策略是最弱的。最小化描述长度既不是必要的也不是充分的 (Bennett, 2024) (https://arxiv.org/html/2605.05209#bib.bib69)。

## 3 将弱性扩展到连续域

当词汇表有限时，弱性是一个计数。你枚举补全并取基数。当词汇表无限时，每一个不可数扩展都有相同的基数，因此计数失效。本节用测度替换计数。

###### 定义5 (可测词汇表)。

一个**可测词汇表**是一个三元组 \((\mathfrak{v}, \mathcal{A}_L, \mu)\)，其中 \(\mathfrak{v} \subseteq \mathcal{P}\) 是一个词汇表（可能无限），\(\mathcal{A}_L\) 是 \(L_{\mathfrak{v}}\) 上的一个 \(\sigma\)-代数，而 \(\mu\) 是 \((L_{\mathfrak{v}}, \mathcal{A}_L)\) 上的一个 \(\sigma\)-有限测度。我要求对于每个 \(l \in L_{\mathfrak{v}}\)，\(\mathrm{Ext}\!\left(l\right)\) 是 \(\mathcal{A}_L\)-可测的。由于对于任何 \(X \subseteq L_{\mathfrak{v}}\)，\(\mathrm{Ext}\!\left(X\right) = \bigcup_{x \in X} \mathrm{Ext}\!\left(x\right)\)，且可数并集是可测的，因此只要 \(I_\alpha\) 是可数的，\(\mathrm{Ext}\!\left(I_\alpha\right)\) 就是可测的。本文中所有任务都有有限的输入集。

测度 \(\mu\) 对于无限词汇表所做的，相当于计数测度对于有限词汇表所做的。它为陈述集合赋予一个大小，以便可以比较扩展。当 \(\mathfrak{v}\) 有限时，将 \(\mu\) 设为计数测度可以恢复所有现有结果。

###### 定义6 (连续弱性)。

\(l \in L_{\mathfrak{v}}\) 的 \(\mu\)-**弱性**是 \(w_\mu(l) = \mu(\mathrm{Ext}\!\left(l\right))\)。

###### 定义7 (连续扩展模型)。

固定一个可测词汇表 \((\mathfrak{v}, \mathcal{A}_L, \mu)\) 和一个输出区域为 \(O_\alpha\) 的任务 \(\alpha\)。定义**未看区域** \(U = L_{\mathfrak{v}} \setminus \mathrm{Ext}\!\left(I_\alpha\right)\)，其中 \(0 < \mu(U) < \infty\) 且 \(\mu(O_\alpha) < \infty\)。假设 \((U, \mathcal{A}_L|_U, \mu|_U)\) 是一个无原子标准测度空间（附录A (https://arxiv.org/html/2605.05209#A1)）。一个**连续扩展模型**是一个概率空间 \((\Omega, \mathcal{F}, P)\)，带有一个随机集 \(S: \Omega \to 2^U\)，使得对于每个 \(A, B \in \mathcal{A}_L|_U\)，\(\{S \subseteq B\}\) 和 \(\{S \subseteq B, S \cap A \neq \emptyset\}\) 是 \(\mathcal{F}\)-可测的。一个正确策略 \(\pi\) 的**缓冲区**是 \(B_\pi = \mathrm{Ext}\!\left(\pi\right) \cap U\)。\(P\)-**弱性**是 \(w_P(\pi) = P(S \subseteq B_\pi)\)。

父任务将额外要求一些输出集合 \(S\)。当且仅当每个需求都落在其缓冲区内部时，该策略才能存活。

###### 定义8 (\(\mu\)-可交换性和非退化性)。

一个连续扩展模型是 \(\mu\)-**可交换的**，如果对于每个保持测度的双射 \(\sigma: (U, \mu) \to (U, \mu)\) 和每个可测集 \(B \subseteq U\)，有 \(P(S \subseteq B) = P(S \subseteq \sigma(B))\)。它是**非退化的**，如果对于每个具有 \(\mu(A) > 0\) 的可测集 \(A \subseteq U\)，有 \(P(\emptyset \neq S \subseteq A) > 0\)。（该事件是可测的，因为 \(\{\emptyset \neq S \subseteq A\} = \{S \subseteq A\} \setminus \{S \subseteq \emptyset\}\)。）

记策略 \(\pi\) 在扩展模型 \(P\) 下的**泛化概率**为 \(G(\pi, P) = w_P(\pi) = P(S \subseteq B_\pi)\)。

###### 引理1 (缓冲区测度决定了正确策略的 \(\mu\)-弱性)。

对于任何正确的 \(\pi \in \Pi_\alpha\)，\(w_\mu(\pi) = \mu(O_\alpha) + \mu(B_\pi)\)，其中 \(O_\alpha = \mathrm{Ext}\!\left(I_\alpha\right) \cap \mathrm{Ext}\!\left(\pi\right)\) 是输出区域（由正确性条件固定，对于所有 \(\pi \in \Pi_\alpha\) 相同），且 \(B_\pi = \mathrm{Ext}\!\left(\pi\right) \cap U\)。在正确策略中，\(\mu\)-弱性排序和缓冲区测度排序是一致的。

###### 证明。

根据正确性条件，\(\mathrm{Ext}\!\left(\pi\right) = O_\alpha \sqcup B_\pi\)，其中 \(O_\alpha \subseteq \mathrm{Ext}\!\left(I_\alpha\right)\) 且 \(B_\pi \subseteq U = L_{\mathfrak{v}} \setminus \mathrm{Ext}\!\left(I_\alpha\right)\)。这些集合不相交，并且都是 \(\mathcal{A}_L\)-可测的（由定义5 (https://arxiv.org/html/2605.05209#Thmdefinition5) 中对扩展的可测性要求）。因此 \(w_\mu(\pi) = \mu(\mathrm{Ext}\!\left(\pi\right)) = \mu(O_\alpha) + \mu(B_\pi)\)。由于 \(\mu(O_\alpha)\) 对所有 \(\pi \in \Pi_\alpha\) 相同，因此按 \(w_\mu(\pi)\) 排序等价于按 \(\mu(B_\pi)\) 排序。∎

平坦最小值是幻觉吗？

相似文章

无需数据或优化的最大脑损伤：通过符号位翻转干扰神经网络

权重归一化：加速深度神经网络训练的简单重参数化方法

广义神经元

通道级语义扰动：面向多样训练范式的不可学习示例

通过 L₀ 正则化学习稀疏神经网络

提交意见反馈