DREG：一种作为通用惩罚的逐层雅可比正则化

arXiv cs.LG 2026/06/24 04:00 论文

regularization jacobian layer-wise deep-learning empirical-study gelu-activation

摘要

本文对导数正则化（DREG）惩罚进行了大规模实证研究，表明其在高精度和噪声鲁棒性方面表现优异，特别是使用GELU激活函数和数据稀缺场景，将其定位为神经网络的一种通用即插即用正则化器。

arXiv:2606.23942v1 公告类型：新摘要：我们进行了一项大规模实证研究，孤立地探讨了导数正则化惩罚（DREG）的贡献。通过一个完全交叉的因子设计，涵盖960个实验，包括4种激活函数、6种正则化器、8个数据集和5个随机种子，我们提出以下问题：DREG在何时、何地以及为何有效？我们的结果确立了三个主要发现。首先，在所有评估的正则化器中，DREG在整体精度和干净场景精度上表现最佳（与未正则化的基线、权重衰减和IGPen相比，具有显著性；Wilcoxon $p \leq 0.031$）。在噪声鲁棒性方面，它仅次于谱归一化（SN）——研究中仅有的两种逐层正则化器之一。其次，在GELU（现代Transformer架构中的默认激活函数）下，DREG是全球表现最佳的正则化器，特别是在混乱视觉和混乱NLP基准上，这表明它可以直接应用于前沿深度学习场景。第三，DREG相对于竞争正则化器的优势在数据稀缺时最为明显，这与它的几何归纳偏置作用一致，即替代数据量的正则化效果。在整个实验中，DREG使用单一固定超参数 $\lambda = 10^{-2.5}$，无需针对数据集调整，这支持了它作为具有非平凡雅可比结构的神经网络即插即用正则化器的特性。这些发现与DREG的设计一致：将正则化压力集中在激活导数最大的层上，而不是均匀地约束网络。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:49

# DREG：一种层式雅可比正则化作为通用惩罚项
来源：https://arxiv.org/html/2606.23942

###### 摘要

我们进行了一项大规模实证研究，旨在分离导数正则化惩罚项（DREG）的贡献。在跨越4种激活函数、6种正则化方法、8个数据集和5个随机种子的960个实验中，我们采用全交叉因子设计，提出以下问题：DREG在何时、何处以及为何有效？我们的结果确立了三个主要发现。首先，在所有被评估的正则化方法中，DREG在总体准确率与清洁场景准确率上均达到最高（显著优于无正则化基线、权重衰减和IGPen；Wilcoxon检验p≤0.031）。其噪声鲁棒性仅次于谱归一化（SN）——本研究仅有的两种层式正则化方法。其次，在GELU（现代Transformer架构中的默认激活函数）下，DREG全局表现最佳，尤其在混乱视觉和混乱NLP基准测试中表现突出，这表明其可直接应用于前沿深度学习场景。第三，DREG相比其他正则化方法的优势在数据稀缺时最为显著，这与其作为几何归纳偏置、替代数据量正则化作用的角色一致。整个过程中，DREG使用单一固定超参数λ=10^{-2.5}，无需针对每个数据集进行调整，这支持了其作为适用于具有非平凡雅可比结构的神经网络的即插即用正则化方法的特性。这些发现与DREG的设计理念一致：将正则化压力集中在激活函数导数最大的层上，而非对网络施以统一约束。

## I 引言

现代深度学习依赖正则化来控制中间表示几何，但主流工具——Dropout、权重衰减、谱归一化——各自以全局、随机或激活无关的方式约束网络。DREG在设计空间中占据不同位置：一种按平方激活导数加权的逐层雅可比惩罚，将正则化压力集中到最需要的层上。本文通过大规模因子实验评估DREG作为独立正则化方法的表现，围绕两个研究问题展开。RQ1：DREG在哪些激活函数、数据集和噪声条件下表现最佳？其优势是否跨领域泛化？RQ2：DREG能否在不修改架构或不针对任务调整超参数的情况下使用——即，它是否真正即插即用？我们将DREG与五种竞争正则化方法——Dropout、谱归一化、权重衰减、IGPen和无正则化——进行对比，采用全交叉因子设计，覆盖视觉、NLP、表格数据和信号领域共八个数据集，每个数据集均在清洁和污染条件下测试。实验规模（总计960次运行）使我们能够系统性地阐明DREG成功或失败的条件，而非仅提供单个基准上的点估计。

我们的发现支持一个连贯的叙事：DREG是一种层式正则化方法，其归纳偏置与多层网络的几何结构高度匹配，在训练数据有限时最具价值，在现代深度学习中最普遍的激活函数下具有竞争力或占据主导地位。我们进一步证明，本研究中两种层式正则化方法（DREG和SN）是唯一在清洁和混乱条件下均持续优于有正则化和无正则化基线的方法，而所有全局或随机正则化方法（Dropout、WD、IGPen）均聚集在基线附近。这些结果将DREG定位为一种通用正则化策略，在雅可比结构非平凡的设置中值得考虑。本文中DREG作为一种实用工具呈现：一种轻量级、即插即用的惩罚项，仅需额外三行代码，无需架构变更。

## II 背景与动机

### II-A 问题：在不牺牲表现力的前提下实现稳定性

现代神经网络面临一个基本矛盾：更深、更具表现力的架构往往会产生不稳定的中间表示，输入中的微小扰动会在各层间传播和放大。全局正则化策略如权重衰减对参数幅度施加统一惩罚，而谱归一化则约束整个网络的Lipschitz常数。这两种方法都盲目地削弱了模型的灵敏度——它们无法区分有害于泛化的不稳定性和有助于准确性的表示变化。Dropout解决的是完全不同的问题，通过随机掩码而非几何约束进行正则化。结果是，从业者必须在稳定性和表现力之间做出选择，或同时调整多种正则化方法。

### II-B 开放问题：层式雅可比正则化是否具有泛化性？

基于雅可比的正则化历史悠久，但文献主要由输入-输出公式[1 (https://arxiv.org/html/2606.23942#bib.bib1),2 (https://arxiv.org/html/2606.23942#bib.bib2),3 (https://arxiv.org/html/2606.23942#bib.bib3),4 (https://arxiv.org/html/2606.23942#bib.bib4)]主导，这些公式约束的是网络整体而非中间层。在层式替代方法中，谱归一化[5 (https://arxiv.org/html/2606.23942#bib.bib5)]无疑是最广泛采用的，但它孤立地约束权重矩阵，且对每层应用的激活函数不敏感。DREG占据了一个未被充分探索的交集：逐层、按每个预激活值处激活函数导数的平方加权，使得惩罚集中在信号实际被放大的层上。这种局部性与激活感知的结合是否能带来超出单独任一成分的实际益处，是一个先前的文献未直接解决的实证问题。

本文通过系统性的因子消融实验来解答这个问题。通过将DREG与五种竞争正则化方法在四种标准激活函数、八个数据集和两种噪声条件下进行交叉比较，我们刻画了DREG提供最大边际收益的条件，并确定了其归纳偏置最匹配问题的架构和数据场景。

## III 相关工作

### III-A 雅可比与基于导数的正则化

惩罚神经网络输入-输出映射的雅可比矩阵在正则化文献中有着悠久历史。收缩自编码器[1 (https://arxiv.org/html/2606.23942#bib.bib1)]首次引入惩罚编码器雅可比矩阵的Frobenius范数以学习稳定表示。双重反向传播[2 (https://arxiv.org/html/2606.23942#bib.bib2)]将类似惩罚应用于整个网络，但计算成本高昂。最近，Hoffman等人[3 (https://arxiv.org/html/2606.23942#bib.bib3)]表明输入-雅可比正则化能提升对抗扰动的鲁棒性，而Varga等人[4 (https://arxiv.org/html/2606.23942#bib.bib4)]则展示了其在分布外泛化上的优势。DREG与这些方法在两个方面有显著区别：它按层操作，而非针对整体输入-输出雅可比；并且它根据每个预激活值处的激活导数加权惩罚，使其对局部几何而非全局灵敏度敏感。

这些区别也构成了DREG形式本身的动机。该惩罚针对中间导数结构而非全局参数范数，惩罚激活导数 φ′ 与每层权重矩阵行范数的交互：

R_DREG = (1/L) ∑_{ℓ=1}^{L} ∑_i φ′(z_i^{(ℓ)})^2 · ‖W_i^{(ℓ)}‖_2^2   (1)

这个公式是局部的——它逐层操作——且是激活感知的，根据激活函数在每个预激活值处的敏感度来缩放惩罚。与全局Lipschitz约束不同，DREG在实际发生病态敏感性的地方进行抑制，而保留网络中的良态区域不受约束。

### III-B 谱归一化

谱归一化（SN）[5 (https://arxiv.org/html/2606.23942#bib.bib5)]约束每层权重矩阵的谱范数，从而限定网络的Lipschitz常数。最初用于稳定GAN训练，SN后来被广泛采用为判别式设置中的正则化方法[6 (https://arxiv.org/html/2606.23942#bib.bib6)]。与DREG类似，SN是层式的，我们认为这是一个关键的结构属性。但与DREG不同的是，SN全局地约束权重矩阵，不根据激活函数的局部导数结构进行调整。这意味着SN施加统一约束，而不考虑网络中的不稳定性实际源自何处，也无法区分雅可比行为良好与不良的层。相比之下，DREG根据每层实际的导数幅度进行惩罚，从而将惩罚集中在真正行为异常的层上，而非在网络中施加均匀压力。

### III-C Dropout与权重衰减

Dropout[7 (https://arxiv.org/html/2606.23942#bib.bib7)]通过在训练过程中随机掩码隐藏单元来进行正则化，提供隐式的集成效应。权重衰减[8 (https://arxiv.org/html/2606.23942#bib.bib8)]对所有参数全局施加 ℓ_2 惩罚。这两种方法都是激活无关的，且独立于网络的几何结构运行。这种无关性正是它们的限制所在：两种方法都缺乏检测或纠正有害雅可比增长的任何机制，而这是具有表现力激活函数的深度网络中的主要失败模式。如果对激活如何跨层组合施加约束，一个网络即使权重得到良好正则化，仍可能表现出爆炸性的中间导数。

### III-D 输入梯度惩罚

IGPen（本研究作为基线进行评估）惩罚损失相对于输入的梯度 ℓ_2 范数的平方[9 (https://arxiv.org/html/2606.23942#bib.bib9)]。这与DREG相关但有所不同：IGPen在输入空间上操作，需要通过整个网络的反向传播；而DREG在逐层前向计算的中间层导数上操作。关键在于，一个网络可能表现出良好的输入-输出梯度，但个别层却在内部放大或扭曲表示——这是IGPen无法检测到的不稳定性。在我们的实验中，IGPen始终不如DREG，这证实了中间雅可比结构是比输入敏感度更精确的正则化目标。

### III-E 多项式与非常规激活函数

多项式激活函数已在多种场景中被探索作为分段线性函数的替代，包括基函数网络[10 (https://arxiv.org/html/2606.23942#bib.bib10)]以及最近的神经架构搜索[11 (https://arxiv.org/html/2606.23942#bib.bib11)]。本研究中使用的Swish激活函数是SiLU函数 φ(z) = z·σ(z)，一个光滑、单调且处处可微的函数，兼容DREG的导数惩罚，无需 ε 偏移[11 (https://arxiv.org/html/2606.23942#bib.bib11),12 (https://arxiv.org/html/2606.23942#bib.bib12)]。GELU[12 (https://arxiv.org/html/2606.23942#bib.bib12)]是Transformer架构[13 (https://arxiv.org/html/2606.23942#bib.bib13),14 (https://arxiv.org/html/2606.23942#bib.bib14)]中的主导激活函数，同样光滑且处处可微，非常适合导数感知的正则化。我们在GELU下的结果因其在现代大规模模型中的普遍性而尤为重要。

### III-F 数据稀缺下的正则化

正则化强度与数据集大小之间的交互在理论[15 (https://arxiv.org/html/2606.23942#bib.bib15)]和实证[16 (https://arxiv.org/html/2606.23942#bib.bib16)]上均已得到充分建立：训练信号有限时，更强的归纳偏置最为有价值。我们观察到，其相对于竞争正则化方法的优势恰恰在训练数据稀缺时最为明显，在MNIST Messy（3,500样本）和Wine Quality（4,547样本）上达到峰值。这一模式与表明几何正则化器在低数据场景中提供不成比例收益的文献[17 (https://arxiv.org/html/2606.23942#bib.bib17)]一致。

## IV 实验设置

所有实验遵循全交叉因子设计，涵盖4种激活函数 × 6种正则化方法 × 8个数据集 × 5个随机种子，共计960次运行。评估的激活函数包括ReLU、GELU、Tanh和Swish；正则化方法包括DREG、Dropout、谱归一化（SN）、权重衰减（WD）、IGPen和无正则化（None）。数据集涵盖四个领域：视觉（MNIST, MNIST-N）、NLP（SST-5, Yelp5）、表格数据（Wine Quality, Adult Income）和信号（MIT-BIH, MIT-BIH-N）。对于噪声变体，MNIST-N通过在清洁MNIST训练集上应用40%标签损坏构建，MIT-BIH-N则通过直接向原始560维心电图特征添加信噪比为-10 dB的加性高斯噪声获得。这些作为真实世界图像失真和运动伪影的代理——选择合成噪声场景是刻意的，因为视觉和信号数据是受控噪声注入最自然、最具可解释性的领域。将标签损坏扩展到NLP会从根本上改变语义，而表格数据特征损坏则可能产生不代表实际部署条件的输入。由于卷积骨干网络在因子规模下的计算开销，排除了专用的噪声视觉基准如CIFAR-10-C，且未找到足够大的公开可用损坏心电图数据集。架构在每个数据集内保持固定：一个平坦的MLP，包含2-3个隐藏层，隐藏维度根据任务在128-512之间，对所有激活-正则化组合一致应用。DREG在所有数据集上使用固定 λ = 10^{-2.5}，无需对每个数据集进行调整。所有结果在5个种子上平均，报告测试准确率（%）。表I和表III中相邻正则化方法之间的差距相对于跨数据集方差较小（见第VII.A节）；实质性的发现是层式方法与其他方法的分离，而非每个层级内的精确排序。

## V RQ1：DREG在何时何处有效？

表I：正则化方法按平均测试准确率（%）排名（清洁与混乱场景）表II：每种激活函数和数据集下的最佳正则化方法（排除多项式激活函数）表III：按正则化方法划分的平均测试准确率（%）：清洁vs.混乱条件

表II (https://arxiv.org/html/2606.23942#S5.T2) 显示了每个激活-数据集组合下表现最佳的正则化方法。DREG在GELU和Swish下均领先所有正则化方法，分别赢得8个数据集中的4个和5个——而Dropout作为最接近的竞争者，在每个激活下仅赢得2个数据集——Tanh下没有一致的赢家，四种不同方法各自最多占据两个数据集。表III (https://arxiv.org/html/2606.23942#S5.T3) 总结了平均准确率以及在分布偏移下的性能下降。DREG实现了最高清洁准确率（77.61%），且下降幅度第二小

DREG：一种作为通用惩罚的逐层雅可比正则化

相似文章

重新思考LLM强化学习中的散度正则化

利用梯度惩罚潜在动力学实现平滑梦想与高效采样

超越惩罚机制：基于扩散模型的离线强化学习分布外检测与选择性正则化

Bug or Feature^2：权重漂移、激活稀疏性与尖峰

逐层导数控制网络

提交意见反馈