标签
MIT研究人员表明,神经网络训练中的稳定边缘(EoS)不仅仅是一个全局优化现象,而是选择性地在训练分布的子集上重新分配学习,放大某些数据组的进展同时抑制其他组。他们识别出控制这种分配的两个关键条件:梯度与Hessian矩阵最大特征向量的对齐,以及持续非消失的梯度幅度。
本文研究深度本身如何在没有正则化训练的情况下,在深度无约束特征模型中引致隐式低秩偏差,将最优解从神经坍缩转向Softmax编码,并首次给出了在交叉熵损失下梯度下降中这一偏差的渐近和动态表征。
OpenAI研究揭示了“双下降”现象,即测试误差随着模型规模和训练步数的增加呈现出非单调的模式,挑战了传统上对深度学习偏差-方差权衡的理解。