标签
本文对导数正则化(DREG)惩罚进行了大规模实证研究,表明其在高精度和噪声鲁棒性方面表现优异,特别是使用GELU激活函数和数据稀缺场景,将其定位为神经网络的一种通用即插即用正则化器。
解释了梯度、雅可比矩阵和海森矩阵作为AI模型训练基础工具的数学概念,描述了它们衡量变化的方式以及各自在优化中的作用。
本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。