Dropout的普适性:混沌边缘的缩放定律与最优调度
摘要
本文提出了一种平均场理论,将dropout视为神经网络混沌边缘的微扰,推导出相关性衰减的缩放定律,并为平滑激活函数和类ReLU激活函数建立了不同的普适类。此外,该理论还得到了最优的dropout调度,可在不增加计算成本的情况下降低测试损失。
arXiv:2605.21648v1 Announce Type: new
Abstract: 我们提出了一种平均场理论,将dropout视为混沌边缘临界信号传播的微扰。Dropout使完美对齐的固定点发生偏移,即使在临界初始化下,信息传播的深度尺度也变得有限。我们推导了相关性衰减的临界和交叉缩放定律,并确定平滑激活函数和带有拐点的类ReLU激活函数属于不同的普适类,具有不同的临界指数,并在失谐和dropout强度上具有通用的两参数缩放坍缩。这种差异源于相关性映射的解析结构:平滑激活函数在完美对齐附近允许泰勒展开,而拐点激活函数则产生具有通用非解析性的分支点。作为推论,该框架在固定预算下得到了饱和的dropout配置文件;然后通过秩流平局决策器选择前置加载的调度,在不增加计算成本的情况下显著降低测试损失,并且准确率提升作为一致的次要效果。我们在多层感知器和视觉Transformer上测试了这些预测,并讨论了CNN/ResNet的扩展。
查看缓存全文
缓存时间: 2026/05/22 08:50
# 失活普适性:混沌边缘的标度律与最优调度
来源:https://arxiv.org/html/2605.21648
###### 摘要
我们发展了一种平均场理论,将失活视为混沌边缘临界信号传播的一种扰动。失活使完美对齐不动点发生偏移,即使在临界初始化下,信息传播的深度标度也变得有限。我们推导了相关性衰减的临界和交叉标度律,并证实光滑激活函数与有拐点的ReLU类激活函数属于不同的普适类,具有不同的临界指数,并在失谐和失活强度下呈现通用双参数标度坍缩。这一差异源于相关图的解析结构:光滑激活函数在完美对齐附近允许泰勒展开,而有拐点激活函数则产生具有通用非解析性的分支点。作为推论,该框架在固定预算下产生饱和失活分布;一种秩流打破简并的机制则选择前加载式调度,在无额外计算开销的情况下显著降低留出测试损失,准确率提升为一致的次要效应。我们在MLP和视觉Transformer中验证了这些预测,并讨论了CNN/ResNet的扩展。关键词:失活,平均场理论,混沌边缘,临界标度,神经网络初始化
## 1 引言
随机初始化深度网络的平均场分析揭示了控制信号传播和梯度深度渗透的有序-混沌相图(Poole等人,2016;Schoenholz等人,2017;Bahri等人,2020,2024b)。在本工作中,我们研究失活如何改变这一图景。使用Roberts等人(2022)和Bahri等人(2024b)的表征群(粗粒化)语言,我们证明失活表现为一种相关扰动:它使临界不动点发生偏移,并在深度粗粒化下增长,推动动力学偏离临界性,从而决定宏观相。具体而言,失活通过向完美对齐处添加相关性无关的偏移来变形相关图(Schoenholz等人,2017),使得输入之间的完美相关性在任意非零失活下都不再是不动点。因此,即使在混沌边缘(Sompolinsky等人,1988;Packard,1988;Bertschinger和Natschläger,2004),深度相关长度也是有限的。我们将这一偏移解释为去相关序参数 \(m \equiv 1 - c^*\)(其中 \(c^*\) 为渐近互信号相关性)的状态方程,推导出相应的标度律,并证明光滑激活函数和有拐点的ReLU类激活函数在失活存在下表现出相同的定性相图但不同的临界标度。此外,我们证明两个控制参数(失活强度和距临界距离)可以标度坍缩为单一通用形式,¹⁰ 并说明这些预测如何与平均场递推相比较。
这一分析带来了三个主要概念性贡献。第一,虽然先前研究表明失活会破坏有序-混沌临界点(Schoenholz等人,2017),但我们证明变形后的平均场图仍然保留了一个非平凡的不动点 \(c^* < 1\)。这保持了相关长度递推,并给出了 \(m = 1 - c^*\) 的朗道状态方程以及双参数标度坍缩。第二,我们证明普适类和标度律由激活函数的光滑性决定:光滑和有拐点激活函数具有不同的临界指数(表2),这一差异反映在其埃尔米特谱结构(附录C)中。由于相同的高斯激活核不仅出现在MLP中,也出现在CNN和残差分支中(附录A.4),我们预期光滑/有拐点这一定性分裂是一个动机良好的启发式准则。第三,我们将失活视为一个深度依赖的动态场:平均场变分问题在固定预算下确定一个饱和的阶梯状分配,而排列不变闭包之外的秩流打破简并机制则选择前加载。将经典超参数视为可以随网络深度变化的场,为深度上的超参数优化(以及潜在的训练时间上的优化)开辟了新维度。如果读者从本文中只带走一件事,我们希望是上述三个想法。
本工作补充了先前关于深度依赖正则化的研究:随机深度以递增概率丢弃整个残差块(Huang等人,2016),课程失活随训练时间退火失活率(Morerio等人,2017),而LayerDrop为效率丢弃Transformer层(Fan等人,2020)。我们的调度是空间深度分布,因此与时间课程和层丢弃机制是互补的。光滑和ReLU类激活函数在混沌边缘的定性不同行为先前已在Hayou等人(2019)中被观察到;本文提取了标度指数并识别了相应的普适类。
## 2 平均场理论背景
我们首先陈述MLP的平均场假设,这为失活分析提供了基线(Poole等人,2016;Schoenholz等人,2017;Bahri等人,2020,2024b)。我们考虑随机初始化的全连接MLP,其预激活可以很好地近似为高斯随机变量,其统计量(均值、方差、协方差)自洽确定。在严格无限宽度极限下,这种高斯描述变得精确(Lee等人,2018),而在大但有限宽度下,对高斯性的偏离可以按深度-宽度比(示意性记为 \(L/N\))进行微扰组织,这在Roberts等人(2022)和Bahri等人(2024b)中有全面处理。这一处理背后的直觉是,随着我们添加更多激活值,通过中心极限定理,统计量将越来越接近高斯分布,在N大极限下渐近地接近该分布。
我们考虑深度为 \(L\) 的MLP,第 \(l\) 层有 \(N_l\) 个神经元,激活函数为 \(\phi: \mathbb{R} \to \mathbb{R}\)(例如 \(\tanh\)、\(\operatorname{ReLU}\) 等)。使用标准的独立同分布高斯初始化
\[
W^l_{ij} \sim \mathcal{N}\left(0, \frac{\sigma_w^2}{N_l}\right), \quad b^l_i \sim \mathcal{N}\left(0, \sigma_b^2\right),
\tag{1}
\]
输入为 \(y^0_{i;a} = x_{i;a}\),前向传播为
\[
z^l_{i;a} = W^l_{ij} y^l_{j;a} + b^l_i, \quad y^{l+1}_{i;a} = \phi\left(z^l_{i;a}\right),
\tag{2}
\]
其中 \(a\) 标记不同输入。全文期望 \(\mathbb{E}[\cdot]\) 是对随机权重和偏置(初始化时)取平均,输入固定。我们还使用标准高斯测度
\[
\int Dz(\cdots) \equiv \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} dz e^{-z^2/2} (\cdots),
\tag{3}
\]
类似地有 \(\int Dz_1 Dz_2\)。在无限宽度极限下,这逐层变得精确;而在有限宽度下,第一层(由于是固定输入的线性映射)是精确高斯的,后续层仅近似高斯,其非高斯修正由深度-宽度比参数化控制(Roberts等人,2022)。MFT背景的更完整处理见附录A.2。
我们跟踪单输入预激活方差 \(q^l_{aa}\)、双输入协方差 \(q^l_{ab}\) 以及导出的相关性 \(c^l_{ab}\):
\[
\begin{aligned}
q^l_{aa} &= \sigma_w^2 \int Dz \phi^2\left(\sqrt{q^{l-1}_{aa}} z\right) + \sigma_b^2 \tag{4} \\
q^l_{ab} &= \sigma_w^2 \int Dz_1 Dz_2 \phi(u_1) \phi(u_2) + \sigma_b^2 \tag{5} \\
u_1 &= \sqrt{q^{l-1}_{aa}} z_1, \quad c^{l-1}_{ab} = \frac{q^{l-1}_{ab}}{\sqrt{q^{l-1}_{aa} q^{l-1}_{bb}}}, \tag{6} \\
u_2 &= \sqrt{q^{l-1}_{bb}} \left( c^{l-1}_{ab} z_1 + \sqrt{1 - \left(c^{l-1}_{ab}\right)^2} z_2 \right). \tag{7}
\end{aligned}
\]
在没有失活的情况下,对于广泛的一类激活函数,\(q^l_{ab}, c^l_{ab}\) 会稳定到不动点 \(q^*, c^*\);特别地,存在一个 \(c^*=1\) 的不动点,这是一个简单计算可得的结论。方差不动点设定了典型的激活尺度,而相关不动点描述了不同输入在经过深度迭代后是否变得不可区分。我们将 \(c^l_{ab}\) 的递推关系记为 \(c^l_{ab} = F(c^{l-1}_{ab})\)。为探究其稳定性,我们在 \(c=1\) 处线性化该映射,定义(角向)磁化率
\[
\chi_\perp \equiv \left. \frac{\partial c^l_{ab}}{\partial c^{l-1}_{ab}} \right|_{c_{ab}=1} = \sigma_w^2 \int Dz \left[ \phi'\left(\sqrt{q^*} z\right) \right]^2.
\tag{8}
\]
这产生了具有三个区域的相图:\(\chi_\perp < 1\) 为有序区域,\(\chi_\perp > 1\) 为混沌区域,\(\chi_\perp = 1\) 定义临界区域(所谓的“混沌边缘”)。在后一种情况下,控制跨输入相关性的深度标度可以变得任意大,从而允许信息深入网络。对于ReLU,临界条件给出 \(\sigma_w^2 = 2\),这恰好与He初始化中使用的方差一致(He等人,2015)²² —— 这不是一般激活函数的性质,而是ReLU的特殊之处(见附录A.2),是一种比方差保持更根本的视角。这引出了一个特征深度标度 \(\xi_c\),它同时参数化信号传播和梯度流。迭代随机仿射映射会导致深度方向的有效粗粒化,类似于重正化群流,在机器学习语境中称为表征群流(Roberts等人,2022);关于范数和角度的信息会指数快速弛豫:
\[
| c^* - c^l_{ab} | \propto e^{-l/\xi_c}, \quad \xi_c^{-1} \equiv -\log |r_c|.
\tag{9}
\]
一个类似的相关长度 \(\xi_q\) 控制单输入范数趋于 \(q^*\) 的速度。启发式地,\(\xi_c\) 控制不同输入之间的区分能够随深度存续多远;在有序相中 \(c^*=1\),所以 \(u_1^* = u_2^*\) 且 \(\xi_c^{-1} = -\log \chi_\perp\),因此 \(\chi_\perp \to 1\) 意味着 \(\xi_c \to \infty\)。因此,混沌边缘主要关乎 \(\xi_c\) 而非 \(\xi_q\),除非在特殊情况下。对于ReLU,除了原点之外处处曲率为零,导致 \(\xi_c\) 与 \(\xi_q\) 一致,两者在 \(\chi_\perp \to 1\) 时都发散(前提是存在有限的 \(q^*\))。这是ReLU类近临界初始化在实践中相对宽容的一个具体原因。
如前所述,平均场理论是对非高斯修正的一种展开,这些修正被 \(L/N\) 的幂次压制。因此,在我们的实验中,我们工作在 \(L/N \ll 1\)(即 \(N \gg L\))的可控区域,此时大宽度展开是可控的(Roberts等人,2022)。相关长度在接近临界时发散,放大了有限宽度及其他非高斯修正。因此,在用失活探测临界幂律时,我们保持失活率较小但不可忽略:无穷小失活将需要深度过大的网络来估计相关长度及相关量。
虽然我们为MLP推导了这些结果,但类似的大宽度极限在其他地方也存在。CNN是典型的卷积设置(LeCun等人,1998),在无限通道数下,其协方差递推再次通过高斯激活核闭合(Xiao等人,2018)。ResNet尤其具有启发性:Yang和Schoenholz(2017)发现了 tanh/ReLU 在深度行为上的定性差异。跳跃连接改变了全局深度动力学,通过每层后注入原始信号使信息传播更容易,将指数收敛变为亚指数或多项式律,并允许范数漂移,但每个残差分支仍然继承了局部的非线性高斯核。因此,我们的光滑/有拐点普适性分裂为其观察到的二分法提供了一种可能的理论解释;失活变形的ResNet理论留待未来工作。对于Transformer(Vaswani等人,2017),相关的无限宽度注意力分析使用大隐藏维度和/或多个头(Hron等人,2020)。由于指数由核的局部解析结构控制,我们预期该机制在核控制宽度极限递推时仍然成立。在3.3节中,我们在Transformer中测试了这一外推。在附录D中,我们探测了跨架构、数据集和调度的实际场景。我们专注于过参数化区域,其中失活确实能改善泛化和准确率,因此也是实践中使用失活的场景,并且我们明确研究了失活驱动的正则化与稳定信号传播之间的权衡。平均场目标 pr相似文章
稳定边缘选择性塑造数据分布上的学习
MIT研究人员表明,神经网络训练中的稳定边缘(EoS)不仅仅是一个全局优化现象,而是选择性地在训练分布的子集上重新分配学习,放大某些数据组的进展同时抑制其他组。他们识别出控制这种分配的两个关键条件:梯度与Hessian矩阵最大特征向量的对齐,以及持续非消失的梯度幅度。
通过平滑激活缓解深度神经网络一致收敛中的维数灾难
本文建立了一个理论框架,表明深度神经网络中的平滑激活可以缓解一致收敛中的维数灾难,提供非渐近保证,并在最坏情况可靠性上优于ReLU网络。
神经算子的共形预测:物理模拟中的无分布不确定性量化
提出了将分裂共形预测首次应用于基于神经算子的物理模拟,提供了具有有限样本覆盖保证的无分布预测区间,并利用MC Dropout不确定性生成自适应宽度的区间。
跨层学习率平衡:线性神经网络中的精确两步动力学与最优缩放
本文推导了两层和三层线性神经网络在一步和两步梯度下降后梯度和测试损失的精确闭式表达式,刻画了最优学习率选择,并揭示了一个独特的早期训练阶段:在该阶段中,初始时不等层学习率是最优的。
广义神经元
本文探讨了深度学习中的通用近似定理,分析了使用 ReLU 激活函数时单个神经元和神经网络层的表示能力。