表示差距:从几何角度解释神经网络异常有效性
摘要
本文引入表示差距(Representation Gap),一个具有更好渐近动态的神经网络泛化误差度量。通过几何视角和最优量化理论,作者证明该度量由任务的内在维度主导,并在合成和真实数据集上进行了实证验证。
arXiv:2605.21692v1 公告类型:新
摘要:精确刻画神经网络渐近泛化误差,同时使用可高效估计的参数,是机器学习中的一个关键问题,而机器学习目前在设计决策上高度依赖启发式方法和从业者直觉。为缓解这一问题,我们引入了表示差距(Representation Gap),这是一个与泛化误差密切相关的度量,但具有更好的渐近动态。我们聚焦于等变扩散模型,并利用最优量化和点过程理论的结果,推导出表示差距的精确渐近等价形式,并证明它由单一参数——任务的\textit{内在维度}(intrinsic dimension)所主导。该参数易于解释、估计高效,且可与常见神经网络架构的等变性相关联。我们证明这一渐近动态也适用于更广泛的任务和训练算法。最后,我们通过实验表明,在已知这些量的合成数据集以及结果与相关文献一致的真实数据集上,我们的渐近定律和内在维度估计都是准确的。
查看缓存全文
缓存时间: 2026/05/22 08:51
# 表示间隙:从几何角度解释神经网络的反常有效性
来源:https://arxiv.org/html/2605.21692
David Perera Universidade Federal de Minas Gerais Belo Horizonte, Brazil &Victor Moura Universidade Federal de Minas Gerais Belo Horizonte, Brazil &Lais Isabelle Alves dos Santos Universidade Federal de Minas Gerais Belo Horizonte, Brazil &Michel F\. C\. Haddad Queen Mary University of London London, United Kingdom &Flavio Figueiredo Universidade Federal de Minas Gerais Belo Horizonte, Brazil
###### 摘要
利用可高效估计的参数精确表征神经网络的渐近泛化误差是机器学习中的一个关键问题,该领域严重依赖启发式和实践者的直觉来做出关键设计选择。为了缓解这一问题,我们引入了表示间隙(Representation Gap)这一度量,它与泛化误差密切相关,但具有更良好的渐近动态。聚焦于等变扩散模型,并利用最优量化和点过程理论的结果,我们推导了表示间隙的精确渐近等价形式,并表明它由一个单一参数控制——任务的内在维度,该参数易于解释、可高效估计,并且可以与常见神经网络架构的等变性联系起来。我们证明这种渐近动态也适用于更广泛的任务和训练算法。最后,我们通过实验表明,在已知这些量的各种合成数据集上,以及在与相关文献结果一致更真实的数据集上,我们的渐近律和内在维度估计是准确的。111复现实验的代码可在 https://github.com/daperera/representation_gap 获取。
## 1 引言
神经网络将强大的记忆能力与架构和优化偏差相结合,这些偏差塑造了它们在训练数据集之外的行为 (Hornik,1991 (https://arxiv.org/html/2605.21692#bib.bib110); Kaplan et al.,2020b (https://arxiv.org/html/2605.21692#bib.bib109); Kubo et al.,2019 (https://arxiv.org/html/2605.21692#bib.bib117); Zhang et al.,2021 (https://arxiv.org/html/2605.21692#bib.bib85))。在实践中,这些归纳偏差通常与现实世界任务的几何结构和对称性相一致 (Fefferman et al.,2016 (https://arxiv.org/html/2605.21692#bib.bib134); Chiang et al.,2022 (https://arxiv.org/html/2605.21692#bib.bib189); Teney et al.,2024 (https://arxiv.org/html/2605.21692#bib.bib190))。因此,神经网络有效地扩充了训练数据,并且能够泛化到简单的记忆之外 (Zhang et al.,2021 (https://arxiv.org/html/2605.21692#bib.bib85); Allen-Zhu et al.,2019 (https://arxiv.org/html/2605.21692#bib.bib126); Belkin,2021 (https://arxiv.org/html/2605.21692#bib.bib149); Simon et al.,2026 (https://arxiv.org/html/2605.21692#bib.bib13))。最近关于扩散模型的工作甚至表明,仅凭训练数据和模型的对称性,就可以准确预测训练好的等变架构的输出 (Kamb and Ganguli,2025 (https://arxiv.org/html/2605.21692#bib.bib88); Finn et al.,2025 (https://arxiv.org/html/2605.21692#bib.bib191))。这些观察表明,神经网络的泛化能力在很大程度上由数据流形的几何结构和模型的对称性决定。本文的目标是从这种几何角度刻画神经网络的泛化,使用数据和模型的可测量属性。
等变架构通常通过使用 PAC 和泛化界来控制泛化误差进行分析 (Chen et al.,2020 (https://arxiv.org/html/2605.21692#bib.bib203); Elesedy and Zaidi,2021 (https://arxiv.org/html/2605.21692#bib.bib194); Tahmasebi and Jegelka,2023 (https://arxiv.org/html/2605.21692#bib.bib196))。然而,这些界限并不总是紧的,并且通常依赖于实践中难以估计的量(例如内在维度 (Ansuini et al.,2019 (https://arxiv.org/html/2605.21692#bib.bib200); Gong et al.,2019 (https://arxiv.org/html/2605.21692#bib.bib198)))。此外,泛化误差对于预测任务定义良好,但难以扩展到生成建模等其他任务 (Theis et al.,2015 (https://arxiv.org/html/2605.21692#bib.bib207))。受这些局限性的启发,我们引入了表示间隙 \(\mathcal{R}(\Omega,\Omega_{f})\),它衡量数据流形 \(\Omega\) 与训练好的模型 \(f\) 的预测空间 \(\Omega_{f}\) 之间的差异。表示间隙将泛化误差扩展到预测任务和生成建模的统一框架中。我们证明它具有一个惊人的简单渐近标度 \(n^{-2/d}\),其中 \(n\) 是训练数据集 \(\mathbb{D}\) 的大小,\(d\) 是一个内在维度参数,仅取决于 \(\Omega\) 的几何结构和 \(f\) 的对称性。作为一个推论,我们展示了模型等变性如何降低这个内在维度 \(d\),从而可证明地提高泛化能力。
泛化分析通常假设训练和测试数据是 i.i.d. 的 (Shalev-Shwartz and Ben-David,2014 (https://arxiv.org/html/2605.21692#bib.bib204)),我们遵循这个标准框架。然而,由于现实世界的数据集通常是为了覆盖任务的多样性而收集的 (Deng et al.,2009 (https://arxiv.org/html/2605.21692#bib.bib144); Lin et al.,2014a (https://arxiv.org/html/2605.21692#bib.bib209); Torralba and Efros,2011 (https://arxiv.org/html/2605.21692#bib.bib208)),我们也为最优多样性的数据集制定了结果 (Zador,1982 (https://arxiv.org/html/2605.21692#bib.bib179))。有趣的是,我们证明 i.i.d. 数据集表现出与最优多样性数据集相同的渐近行为,只是有效样本大小 \(n_{\mathrm{eff}}\) 经过重新缩放。
总之,我们做出以下贡献:
* 我们引入了表示间隙,这是一个几何量,将泛化误差扩展到预测任务和生成建模的统一框架中。
* 我们推导了等变扩散模型的表示间隙的精确渐近等价形式。
* 我们将该结果扩展到监督预测的设置,并建立了联系表示间隙和泛化误差的界。我们的结果对 i.i.d. 数据集和最优多样性数据集都成立。
* 我们证明渐近表示间隙由任务的内在维度控制,这是一个由数据流形的几何结构和模型的对称性决定的单一参数。
* 我们进一步证明这个内在维度可以被有效估计。
* 我们在已知内在维度的受控合成环境以及更真实的数据集上验证了我们的理论预测。
## 2 相关工作
泛化的几何视角。基于流形假设 (Bengio et al.,2013 (https://arxiv.org/html/2605.21692#bib.bib135)),一些工作将神经网络视为流形学习器 (Loaiza-Ganem et al.,2024 (https://arxiv.org/html/2605.21692#bib.bib152); Schuster and Krogh,2021 (https://arxiv.org/html/2605.21692#bib.bib151))。聚焦于 ReLU 网络,Yao et al. (2024 (https://arxiv.org/html/2605.21692#bib.bib150)) 的作者基于数据流形的几何属性(如其维度或 Betti 数)推导了泛化界。相比之下,我们推导了精确的渐近等价形式并将其与模型等变性联系起来。我们进一步将我们的内在维度估计器与之前的流形维度估计器 (Pope et al.,2021 (https://arxiv.org/html/2605.21692#bib.bib195); Gong et al.,2019 (https://arxiv.org/html/2605.21692#bib.bib198); Ansuini et al.,2019 (https://arxiv.org/html/2605.21692#bib.bib200)) 进行比较,并在多个数据集上获得了一致的估计(见第 5.2 节 (https://arxiv.org/html/2605.21692#S5.SS2))。
等变神经网络的泛化。实证研究表明,等变性提高了泛化能力和样本效率 (Cohen and Welling,2016 (https://arxiv.org/html/2605.21692#bib.bib145); Bulusu et al.,2022 (https://arxiv.org/html/2605.21692#bib.bib153))。大量工作研究了 PAC 和泛化界 (Sannai et al.,2021 (https://arxiv.org/html/2605.21692#bib.bib154); Chen et al.,2020 (https://arxiv.org/html/2605.21692#bib.bib203); Elesedy and Zaidi,2021 (https://arxiv.org/html/2605.21692#bib.bib194))。与我们的工作最接近的是,Tahmasebi and Jegelka (2023 (https://arxiv.org/html/2605.21692#bib.bib196)) 表明核岭回归的泛化误差受限于 \(n^{-s/(s+d/2)}\),其中 \(d\) 是由模型对称性诱导的商流形的维度。相比之下,我们推导了表示间隙的渐近等价形式,并作为推论恢复了泛化误差的相关界(见第 4.5 节 (https://arxiv.org/html/2605.21692#S4.SS5))。最后,Kamb and Ganguli (2025 (https://arxiv.org/html/2605.21692#bib.bib88)) 推导了训练好的扩散模型预测的解析表达式,这构成了我们部分分析的基础。
标度律。我们的工作与神经标度律 (Kaplan et al.,2020a (https://arxiv.org/html/2605.21692#bib.bib184)) 和最近关于扩散模型标度的研究 (Mei et al.,2024 (https://arxiv.org/html/2605.21692#bib.bib187); Li et al.,2024a (https://arxiv.org/html/2605.21692#bib.bib186); Liang et al.,2024 (https://arxiv.org/html/2605.21692#bib.bib185)) 相关。虽然先前的工作主要研究相对于计算资源的经验标度,但我们关注数据集大小和模型等变性所诱导的几何标度。
最优量化和点过程。我们的分析依赖于 i.i.d. 设置下的点过程理论 (Biau and Devroye,2015 (https://arxiv.org/html/2605.21692#bib.bib7); Penrose and Yukich,2013 (https://arxiv.org/html/2605.21692#bib.bib8)) 以及最优多样性设置下的最优量化理论 (Gruber,2001 (https://arxiv.org/html/2605.21692#bib.bib92))。然而,表示间隙结合了几何和统计方面,需要对现有结果进行大量改编。
## 3 一个说明性示例
参照图注
参照图注
(a) 非等变模型
(b) 等变模型
图 1:等变扩散模型对数据集的虚拟扩充示意图。图 (a) 显示了训练好的扩散模型的样本,图 (b) 显示了训练好的等变扩散模型(沿 x 轴旋转不变)的样本。两图中,形状 \(\Omega\) 由密集的红点云指示,稀疏数据集 \(\mathbb{D}\) 由叉号表示,近似形状 \(\Omega_{f}\) 由从训练好的扩散模型 \(f\) 采样的密集蓝点云表示。
参照图注
图 2:旋转等变模型和非等变模型对于二维球面的表示间隙渐近演化的对数图。x 轴对应数据集大小 \(n\),y 轴对应表示间隙。我们观察到线性演化,非等变模型斜率为 \(-1\),等变模型斜率为 \(-2\)。理论曲线使用方程 (2) 中乘法常数 J 的经验估计显示。
让我们首先通过一个具体例子介绍本文的主要概念。考虑 3D 形状的生成建模任务 (Yang et al.,2019 (https://arxiv.org/html/2605.21692#bib.bib132))。目标是从由稀疏 \(n\) 点云 \(\mathbb{D}\in\Omega^{n}\) 描述的曲面 \(\Omega\subset\mathbb{R}^{3}\) 学习采样点 \(y\)。扩散模型最近在该任务上取得了强大的实证表现 (Li et al.,2024b (https://arxiv.org/html/2605.21692#bib.bib131))。我们记 \(\Omega_{f}\) 为训练好的扩散模型 \(f\) 能够生成的点集——即去噪过程的极限点。该设置如图 1 (https://arxiv.org/html/2605.21692#S3.F1) 所示。曲面 \(\Omega\) 由密集的红点云表示,稀疏数据集 \(\mathbb{D}\) 由叉号表示,预测空间 \(\Omega_{f}\) 由从训练好的扩散模型 \(f\) 采样的密集蓝点云表示。在这个例子中,曲面 \(\Omega\) 表现出旋转对称性,这减少了任务的自由度。利用这种对称性的一种自然方式是使用旋转等变扩散模型 \(f\) (Hoogeboom et al.,2022 (https://arxiv.org/html/2605.21692#bib.bib133))。图 1 (https://arxiv.org/html/2605.21692#S3.F1) (a) 显示了非等变模型的输出,而图 1 (https://arxiv.org/html/2605.21692#S3.F1) (b) 显示了等变模型的输出。我们做出以下两个观察。首先,非等变神经网络学到的分布收敛于经验分布 \(\frac{1}{|\mathbb{D}|}\sum_{y\in\mathbb{D}}\delta_{y}\),因此预测空间 \(\Omega_{f}\) 与数据集 \(\mathbb{D}\) 重合。换句话说,\(\Omega_{f}=\mathbb{D}\)。相比之下,等变模型通过其等变的旋转群 \(G\) 虚拟地扩充数据集 \(\mathbb{D}\),使得 \(\Omega_{f}=G(\mathbb{D})=\{g(z)|z\in\mathbb{D},g\in G\}\)。从图 1 (https://arxiv.org/html/2605.21692#S3.F1) 可以清楚看出,等变性极大地提高了预测空间 \(\Omega_{f}\) 的分辨率。为了量化这种改进,我们引入表示间隙,它衡量在环境空间上定义的度量 \(\ell\) 下,预测空间 \(\Omega_{f}\) 近似数据流形 \(\Omega\) 的程度。在本文中,除非另有说明,\(\ell\) 表示平方黎曼距离。
###### 定义 1(表示间隙)。令 \(\Omega\) 表示数据流形,\(\Omega_{f}\) 表示模型的预测空间。我们将表示间隙定义如下:
\[
\mathcal{R}(\Omega,\Omega_{f}) = \int_{\Omega} \inf_{z\in\Omega_{f}} \ell(y,z) p(y) \, dy .
\]
(1)
具体来说,方程 (1) 将每个样本 \(y\in\Omega\) 投影到模型生成的最接近预测点 \(z\in\Omega_{f}\),并在数据流形上平均这个误差。值得注意的是,表示间隙是 Wasserstein 距离 (Peyré et al.,2019 (https://arxiv.org/html/2605.21692#bib.bib211)) 的一个特例(见附录 E.2 节 (https://arxiv.org/html/2605.21692#A5.SS2)),后者常用于比较集合,也是量化误差的自然推广,当集合 \(\Omega_{f}\) 是离散时我们恢复量化误差 (Graf and Luschgy,2007 (https://arxiv.org/html/2605.21692#bib.bib182))。
直观地说,非等变模型 \(f\) 需要关于形状 \(\Omega\) 的所有 \(d_{\Omega}=2\) 维的信息才能从数据集 \(\mathbb{D}\) 近似它(如图 1 (https://arxiv.org/html/2605.21692#S3.F1) 左侧所示)。另一方面,等变模型只需要沿旋转轴的信息,维度为 \(d_{\Omega}-1=1\)。更一般地,对于任意流形 \(\Omega\) 和对称群 \(G\),等变模型只需要关于商空间 \(\Omega/G\) 的信息,其维度为 \(d_{\Omega/G}\)。剩下的维度通过数据集的虚拟扩充隐式恢复,因为 \(\Omega_{f}=G(\mathbb{D})\)。相似文章
稀疏自编码器中概念学习与神经元解释的几何视角
本文提出了一个统一的几何框架,用于理解稀疏自编码器中的概念学习和神经元解释,将概念形式化为集合,并定义了检测、分离和近似。它提供了误差界、容量约束,并与形式概念分析建立了联系,同时在合成数据上进行了实验。
平坦最小值是幻觉吗?
本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点,认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明,弱性能够预测泛化,而尖锐性则与之负相关,且随着训练数据增加,大批次泛化优势消失。
深度隐含偏差:从神经坍缩到Softmax编码
本文研究深度本身如何在没有正则化训练的情况下,在深度无约束特征模型中引致隐式低秩偏差,将最优解从神经坍缩转向Softmax编码,并首次给出了在交叉熵损失下梯度下降中这一偏差的渐近和动态表征。
刻画神经过程的表征能力
本文从理论上刻画了神经过程(NP)架构的表征能力,证明了条件NP、注意力NP、卷积NP和Transformer NP之间存在严格的层级关系,并表明有限维潜变量不会将表征能力扩展到编码器之外。
MoE专业化中的几何不对称性:功能去相关与表示重叠
本文提出一个Jacobian-PCA-Grassmann框架,用于分析混合专家(MoE)Transformer中专家专业化的几何结构。研究发现,专家表现出强烈的功能去相关,而其表示存在重叠,并且路由稀疏性显著影响这一几何结构。