标签
推导了损失Hessian特征谱的Wolkowicz-Styan上界的闭式梯度,以引导神经网络训练朝向平坦极小值,并提出了Hessian谱范围(HSR)正则化。数值实验表明,HSR收窄了Hessian特征值范围,避免了尖锐极小值和鞍点,并实现了与Sharpness-Aware Minimization(SAM)相当的解。
本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点,认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明,弱性能够预测泛化,而尖锐性则与之负相关,且随着训练数据增加,大批次泛化优势消失。