标签
本文探讨了在非L-光滑目标上梯度下降收敛的最大步长这一开放问题,引入了在稳定性边缘运行且能够全局最小化尖锐度的自适应方法。
本文证明,使用大步长的离散梯度下降能够恢复多路径深度线性网络中的对称性,这与梯度流所预测的对称性破缺相反,并导致跨路径的信号重新平衡。作者从理论上证明,平衡解比稀疏解更平坦(锐度更低),且大的学习率驱动网络朝着稳定、平衡的配置发展。
MIT研究人员表明,神经网络训练中的稳定边缘(EoS)不仅仅是一个全局优化现象,而是选择性地在训练分布的子集上重新分配学习,放大某些数据组的进展同时抑制其他组。他们识别出控制这种分配的两个关键条件:梯度与Hessian矩阵最大特征向量的对齐,以及持续非消失的梯度幅度。
本文提出了一种适用于 Adam 及其他自适应优化器的“杆流”模型,以更好地分析其在边缘稳定性(Edge of Stability)下的行为。该研究将连续时间建模扩展至动量方法,结果表明,与稳定的流模型相比,该模型在追踪离散迭代点方面具有更高的准确性。