flat-minima

#flat-minima

面向平坦极小值的闭式最速下降方向：降低神经网络损失Hessian特征谱的上界

arXiv cs.LG ↗ · 昨天缓存

推导了损失Hessian特征谱的Wolkowicz-Styan上界的闭式梯度，以引导神经网络训练朝向平坦极小值，并提出了Hessian谱范围（HSR）正则化。数值实验表明，HSR收窄了Hessian特征值范围，避免了尖锐极小值和鞍点，并实现了与Sharpness-Aware Minimization（SAM）相当的解。

0 人收藏 0 人点赞

#flat-minima

平坦最小值是幻觉吗？

arXiv cs.LG ↗ · 2026-05-08 缓存

本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点，认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明，弱性能够预测泛化，而尖锐性则与之负相关，且随着训练数据增加，大批次泛化优势消失。

0 人收藏 0 人点赞

flat-minima

面向平坦极小值的闭式最速下降方向：降低神经网络损失Hessian特征谱的上界

平坦最小值是幻觉吗？

提交意见反馈