权重归一化:加速深度神经网络训练的简单重参数化方法
摘要
OpenAI 提出了权重归一化,一种重参数化技术,通过将权重向量的长度与方向解耦,改进神经网络训练的收敛性和计算效率,且不引入小批次依赖关系,适用于循环神经网络和对噪声敏感的应用场景。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:45
# 权重归一化:一种加速深度神经网络训练的简单重参数化方法
来源:https://openai.com/index/weight-normalization/
OpenAI
## 摘要
我们提出权重归一化:一种神经网络权重向量的重参数化方法,将权重向量的长度与其方向解耦。通过以这种方式重参数化权重,我们改进了优化问题的条件数,并加速了随机梯度下降的收敛。我们的重参数化方法受到批量归一化的启发,但不会在一个小批量中的样本之间引入任何依赖关系。这意味着我们的方法也可以成功应用于循环模型(如 LSTM)以及对噪声敏感的应用(如深度强化学习或生成模型),而批量归一化在这些应用中表现不太理想。虽然我们的方法简单得多,但仍然提供了完整批量归一化的大部分加速效果。此外,我们方法的计算开销较低,允许在相同的时间内执行更多的优化步骤。我们在监督图像识别、生成模型和深度强化学习等应用中展示了我们方法的有效性。
相似文章
通过解耦权重向量的幅度和方向改进神经网络训练 | Alexander Hägele
这篇博客文章介绍了幅度-方向(MD)解耦方法,该方法将神经网络权重矩阵分解为方向分量和幅度分量,并使用独立的学习率进行优化。实验表明,该方法在Adam和Muon优化器上均提升了性能,实现了跨模型宽度的自动学习率迁移,并在大规模混合专家模型中展现了缩放优势。
通过平滑激活缓解深度神经网络一致收敛中的维数灾难
本文建立了一个理论框架,表明深度神经网络中的平滑激活可以缓解一致收敛中的维数灾难,提供非渐近保证,并在最坏情况可靠性上优于ReLU网络。
统一神经缩放定律
提出了一种统一神经缩放定律,能够精确建模深度神经网络在多个维度(包括参数量、数据集大小、训练步数和计算量)上的缩放行为,并在多种架构和任务上得到验证。
体积微小,效果显著:大语言模型中的缩放向量研究
本文系统地研究了LLM归一化层中的缩放向量,揭示了它们通过自放大预条件效应优化训练,并提出了三种轻量级改进方案,在几乎不增加开销的情况下提升性能和扩展行为。
通过 L₀ 正则化学习稀疏神经网络
OpenAI 提出了一种实用的神经网络 L₀ 正则化方法,在训练过程中促使权重精确变为零,实现网络剪枝以提高速度和泛化性能。该方法使用随机门控机制,引入硬具体分布(hard concrete distribution)使得不可微的 L₀ 范数优化能够通过梯度下降法求解。