面向平坦极小值的闭式最速下降方向:降低神经网络损失Hessian特征谱的上界

arXiv cs.LG 论文

摘要

推导了损失Hessian特征谱的Wolkowicz-Styan上界的闭式梯度,以引导神经网络训练朝向平坦极小值,并提出了Hessian谱范围(HSR)正则化。数值实验表明,HSR收窄了Hessian特征值范围,避免了尖锐极小值和鞍点,并实现了与Sharpness-Aware Minimization(SAM)相当的解。

arXiv:2606.28662v1 公告类型:新 摘要:平坦性假说认为,损失景观的平坦性(通过损失Hessian的特征值衡量)与更好的神经网络泛化能力相关。虽然各种算法旨在降低这些特征值,但大多数侧重于过程设计,尚不清楚数据分布和神经网络参数如何从结构上决定朝向平坦极小值的方向。解析地刻画这些方向通常是难以处理的。为了克服这一数学困难,近期研究推导了三层神经网络中交叉熵损失Hessian最大特征值的Wolkowicz-Styan(WS)上界。尽管该上界是可微的,但其梯度尚未被推导。因此,我们解析地推导了WS上界的梯度,以刻画通往平坦极小值的方向。基于此,我们提出了Hessian谱范围(HSR)正则化,该正则化沿着WS上界的最速下降方向更新参数。实验表明,HSR正则化收窄了Hessian特征值谱,避免了尖锐极小值和鞍点,并促进了向平坦极小值的收敛。尽管该方法目前仅适用于交叉熵损失和三层神经网络架构,但据作者所知,这是首次报告无需数值近似即可促进向平坦极小值收敛的闭式梯度的研究。因此,对该梯度的理论分析有望促进神经网络的进一步发展。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:28

# 面向平坦极小值的闭合形式最速下降方向:降低神经网络损失Hessian特征值谱的上界  
**来源**: https://arxiv.org/html/2606.28662  
**作者**: Kazuki Sakai¹, Yohei Kakimoto¹, Makoto Sasaki¹, Yusuke Sakai³, Hirotaka Takahashi³  
¹: 日本大学(日本)  
²: 国立高等专门学校长冈工业高等专门学校(日本)  
³: 东京都市大学(日本)  

###### 摘要  
解释神经网络(NNs)泛化能力的一个有影响力的理论是平坦性假设,该假设认为损失景观的平坦度与泛化性能相关。通常,损失景观的平坦度由泰勒展开损失函数的Hessian矩阵的特征值量化。已有几种训练算法被提出用于降低损失Hessian的特征值。然而,大多数现有研究专注于训练算法的设计,并未阐明训练数据分布和NN的内部参数如何有助于导向更平坦极小值的方向。实现这一目标的一个直接方法是解析地刻画特征值减少的方向;然而,推导这样的方向通常很困难。另一方面,最近的研究报道了Wolkowicz-Styan(WS)上界,这是一个定理,解析地描述了三层分层NN中交叉熵(CE)损失Hessian的最大特征值的上界。然而,该研究仅限于推导上界,并未推导其梯度。因此,在本研究中,我们解析地推导了WS上界的梯度,并利用其闭合形式表达式来刻画导向更平坦极小值的方向。为了检验该方向是否有助于收敛到更平坦的极小值,我们提出了一种正则化方法,该方法沿WS上界的最速下降方向更新网络参数。多项数值实验的结果表明,这种正则化缩小了Hessian特征值谱的范围,避免了尖锐极小值和鞍点,促进了收敛到更平坦的极小值。因此,我们将此方法命名为Hessian谱范围(HSR)正则化。与现有正则化方法的比较表明,HSR正则化优于Hessian正则化,并达到了与Sharpness-Aware Minimization(SAM)一样平坦的解。该方法的适用性有限,因为它仅适用于CE损失与三层分层NN的组合。然而,据作者所知,此前没有研究报道过无需依赖数值近似即可促进收敛到更平坦极小值的闭合形式梯度。因此,本研究对NN的理论发展做出了贡献。  

## I. 引言  

神经网络(NNs)广泛应用于各类任务,并在众多领域中取得了最先进的性能\[5 (https://arxiv.org/html/2606.28662#bib.bib18)\]\[23 (https://arxiv.org/html/2606.28662#bib.bib16)\]\[2 (https://arxiv.org/html/2606.28662#bib.bib17)\]。另一方面,对其泛化能力的理论理解仍在发展中。作为关于NN泛化能力的一个突出理论,平坦性假设被广泛认可\[11 (https://arxiv.org/html/2606.28662#bib.bib14)\]。根据平坦性假设,如果在训练所得解附近的损失函数呈现尖锐景观,则泛化误差往往较大;相反,如果损失函数具有平坦形状,则泛化误差预期较小\[20 (https://arxiv.org/html/2606.28662#bib.bib40)\]\[3 (https://arxiv.org/html/2606.28662#bib.bib39)\]。为了量化损失的尖锐程度,Hessian矩阵的特征值谱被广泛用作代表性度量。这是因为当损失函数在临界点附近泰勒展开时,其局部曲率由二次项中的Hessian矩阵表征\[20 (https://arxiv.org/html/2606.28662#bib.bib40)\]\[22 (https://arxiv.org/html/2606.28662#bib.bib36)\]。以往的研究提出了几种旨在通过缓解尖锐度来达到平坦极小值的优化算法。这些方法的典型代表包括Hessian正则化\[20 (https://arxiv.org/html/2606.28662#bib.bib40)\]和锐度感知最小化(SAM)\[9 (https://arxiv.org/html/2606.28662#bib.bib49)\],两者在各种任务中均展示了测试性能的提升。然而,这些方法主要侧重于算法设计,而决定平坦极小值方向的因素尚未被完全理解。为了从理论上理解形成平坦极小值的结构机制,必须解析地描述导向它们的方向。因此,本研究的目标是推导平坦极小值方向的闭合形式解。在本文中,我们将这一方向定义为锐度的最速下降方向。换言之,研究目标是推导最大特征值的参数梯度。然而,由于最大特征值通常难以解析表达,因此解析地获得其梯度本身具有挑战性。尽管如此,最近一项研究\[24 (https://arxiv.org/html/2606.28662#bib.bib6)\]在交叉熵(CE)损失用于三层分层NN的条件下,推导了最大特征值上界的闭合形式解。该定理基于Hessian和Hessian平方的迹描述了最大特征值的上界,称为“Wolkowicz-Styan(WS)上界”。尽管该函数预期具有解析导数,但上述研究并未延伸至其推导。因此,本研究尝试通过推导WS上界的参数梯度,将锐度的最速下降方向描述为闭合形式的函数。这使我们能够研究训练数据分布和网络内部参数如何影响导向平坦极小值的方向。据作者所知,之前没有研究报道过平坦极小值方向的闭合形式推导。这项工作为平坦极小值的分析理解提供了新的基础。在本文中,我们将沿WS上界最速下降方向移动的优化方法命名为“Hessian谱范围(HSR)正则化”。HSR正则化具有降低Hessian矩阵最大特征值并提高最小特征值的双重效果。也就是说,该方法具有缩小特征值谱范围的效果,这有望防止模型陷入尖锐极小值和鞍点。在本工作中,我们验证了HSR正则化是否能达到与现有方法(如Hessian正则化和SAM)相当的平坦度。目前,HSR正则化只能应用于三层分层NN,这在实际应用中构成重大限制。然而,由于它能在不依赖数值近似的情况下达到与现有方法相当的平坦度,本研究中推导的平坦极小值方向可被视为一个具有相当价值的闭合形式函数。以上构成了本研究对NN领域的学术贡献。  

## II. 相关工作  

### II-A. 平坦极小值  

1997年,Hochreiter等人\[11 (https://arxiv.org/html/2606.28662#bib.bib14)\]论证了作为具有高泛化性能的NN的一个要求,不仅误差要低,而且其附近的误差也要低,这意味着损失景观是平坦的。关于这一假设,一些研究因其在重参数化下不变性等问题对其有效性提出了质疑\[7 (https://arxiv.org/html/2606.28662#bib.bib13)\]。另一方面,众多实际应用报告称,达到平坦极小值可改善泛化性能\[6 (https://arxiv.org/html/2606.28662#bib.bib45)\]\[12 (https://arxiv.org/html/2606.28662#bib.bib44)\]\[19 (https://arxiv.org/html/2606.28662#bib.bib24)\]。此外,有报道称,几种被认为能有效提升NN泛化性能的经验性技术可能与锐度降低有关。例如,验证批量归一化\[15 (https://arxiv.org/html/2606.28662#bib.bib1)\]\[10 (https://arxiv.org/html/2606.28662#bib.bib34)\]\[22 (https://arxiv.org/html/2606.28662#bib.bib36)\]、随机梯度下降\[34 (https://arxiv.org/html/2606.28662#bib.bib31)\]\[32 (https://arxiv.org/html/2606.28662#bib.bib35)\]和跳跃连接\[19 (https://arxiv.org/html/2606.28662#bib.bib24)\]所实现的锐度降低效果是一个有趣的研究领域。从这些例子可以看出,追求平坦极小值被认为是构建具有高泛化能力深度学习模型的重要视角。  

### II-B. 特征值谱分析的数值方法  

这种锐度通过损失函数在临界点附近泰勒展开时的二次项来评估\[20 (https://arxiv.org/html/2606.28662#bib.bib40)\]。原因在于Hessian矩阵的特征值代表曲率\[3 (https://arxiv.org/html/2606.28662#bib.bib39)\]。虽然特征值谱包含多个特征值,但最大特征值尤其被用作表示损失景观曲率的关键指标\[22 (https://arxiv.org/html/2606.28662#bib.bib36)\]。特征值谱可通过求解Hessian的特征方程获得。设\(D\)为NN的参数规模,则Hessian成为大小为\(D \times D\)的矩阵。当\(D \geq 5\)时,五次或更高次特征方程没有闭合形式解,因此无法解析获得Hessian的特征值。然而,在当前的现代深度学习中,网络的参数规模\(D\)极其庞大。例如,在使用PyTorch\[31 (https://arxiv.org/html/2606.28662#bib.bib4)\]的实现中,VGG16\[28 (https://arxiv.org/html/2606.28662#bib.bib3)\]为\(D \sim 1.38 \times 10^8\),ResNet18\[14 (https://arxiv.org/html/2606.28662#bib.bib2)\]为\(D \sim 1.17 \times 10^7\)。为了确定如此庞大Hessian矩阵的特征值谱,采用数值近似方法。作为实现此目的的主要方法,Hutchinson方法\[13 (https://arxiv.org/html/2606.28662#bib.bib15)\]和Lanczos方法\[18 (https://arxiv.org/html/2606.28662#bib.bib11)\]是众所周知的。Hutchinson方法是一种估计Hessian迹的技术,而Lanczos方法用于估计特征值谱;通过利用这些方法,可以数值评估锐度。事实上,已有若干研究提出了使用Lanczos方法计算深度学习模型特征值谱的方法\[10 (https://arxiv.org/html/2606.28662#bib.bib34)\]\[37 (https://arxiv.org/html/2606.28662#bib.bib26)\],以及通过Hutchinson方法计算Hessian迹的技术\[20 (https://arxiv.org/html/2606.28662#bib.bib40)\]\[8 (https://arxiv.org/html/2606.28662#bib.bib38)\]。  

### II-C. 特征值谱分析的解析方法  

另一方面,数值近似方法存在一个固有限制,即无法阐明导致损失景观变得尖锐的原因。为了实现这一点,需要解析地表达特征值。作为Hessian解析计算的先驱研究,Bishop\[4 (https://arxiv.org/html/2606.28662#bib.bib19)\]提出了一种扩展的反向传播算法,该算法可精确计算任意拓扑前馈网络Hessian矩阵的所有分量。然而,该研究提供了计算Hessian的基础方法,并未深入探讨特征值本身的解析表示。要解析地表达特征值,必须对网络施加一定的结构约束,这使得对于具有任意层结构的一般网络难以实现。因此,解析研究使用简化的网络架构进行。例如,Singh等人\[29 (https://arxiv.org/html/2606.28662#bib.bib30)\]推导了使用线性激活函数的网络中Hessian秩的闭合形式表达式。此外,Wu等人\[35 (https://arxiv.org/html/2606.28662#bib.bib29)\]提出了一种分离猜想,该猜想使用Kronecker积近似逐层Hessian,解析地解释了常见结构,如Hessian的低秩属性和不同模型间特征空间的重叠。此外,Singh等人\[30 (https://arxiv.org/html/2606.28662#bib.bib23)\]在具有恒等或ReLU激活函数的线性网络中获得了损失Hessian特征值的闭合形式表示。对于非线性激活函数,获得特征值的闭合形式表示本质上很困难,但可以推导它们的上界。例如,Omae等人\[24 (https://arxiv.org/html/2606.28662#bib.bib6)\]在三层分层NN中CE损失下推导了最大特征值的上界。这种方法的一个关键优势是它允许隐藏层的激活函数任意选择。  

### II-D. 用于锐度降低的优化算法  

基于多种报告指出损失函数更尖锐的临界点导致更大的泛化误差,人们设计了若干旨在缓解锐度的方法。例如,Yue等人\[38 (https://arxiv.org/html/2606.28662#bib.bib12)\]提出了锐度感知学习率调度器,该调度器根据损失景观的锐度动态调整学习率,以促进收敛到平坦极小值。Liu等人\[20 (https://arxiv.org/html/2606.28662#bib.bib40)\]提出了Hessian正则化,通过正则化Hessian矩阵的迹来抑制曲率。Sankar等人\[27 (https://arxiv.org/html/2606.28662#bib.bib42)\]提出了逐层Hessian迹正则化,以减少每一层的Hessian迹。Luo等人\[21 (https://arxiv.org/html/2606.28662#bib.bib21)\]提出了一种特征值正则化方法,明确抑制Hessian的最大特征值。此外,Sharpness-Aware Minimization (SAM) 被广泛认为是抑制Hessian大特征值的代表性方法\[9 (https://arxiv.org/html/2606.28662#bib.bib49)\]。SAM是一种优化方法,它通过找到参数邻域内使损失最大化的扰动,然后最小化这个最坏情况损失,从而避免尖锐的局部极小值。作为SAM的理论进展,已经提出了改进版本,例如一种克服权值参数缩放脆弱性的变体\[17 (https://arxiv.org/html/2606.28662#bib.bib46)\]和另一种即使在不平衡数据下也能有效工作的变体\[40 (https://arxiv.org/html/2606.28662#bib.bib48)\]。致力于从理论上阐明SAM有效性的研究也在进行中\[1 (https://arxiv.org/html/2606.28662#bib.bib43)\]。除了理论研究之外,已有报道称SAM和Hessian正则化在实际应用任务中均具有提升测试性能的效果\[6 (https://arxiv.org/...

相似文章

神经网络损失景观的谱渐近:曲率指数的精确分解

arXiv cs.LG

本文提出了神经网络损失景观中曲率指数α的精确分解,解释了为何该指数在不同层类型间存在差异。引入了谱对齐分解,并导出了一个谱传递恒等式,连接曲率、梯度秩衰减和Hessian指数,该恒等式已在多种架构和数据集上得到验证。

稳定边缘选择性塑造数据分布上的学习

arXiv cs.LG

MIT研究人员表明,神经网络训练中的稳定边缘(EoS)不仅仅是一个全局优化现象,而是选择性地在训练分布的子集上重新分配学习,放大某些数据组的进展同时抑制其他组。他们识别出控制这种分配的两个关键条件:梯度与Hessian矩阵最大特征向量的对齐,以及持续非消失的梯度幅度。

非均匀光滑性下最速下降与Adam的收敛性

arXiv cs.LG

本文将非均匀光滑性假设推广到曲率与目标值呈仿射关系的目标函数,证明了最速下降法以及RMSProp和Adam的对角变体的收敛速率,并应用于逻辑回归和神经网络。

耦合梯度下降中瞬态放大的伪谱界

arXiv cs.LG

本文针对耦合梯度下降中的块三角Jacobian矩阵建立了精确的伪谱理论,证明了Kreiss常数界并给出了迭代复杂度结果。研究揭示了与双层优化、双时间尺度随机逼近以及GAN训练相关的非渐近、实例相关的瞬态放大现象。