权重归一化:加速深度神经网络训练的简单重参数化方法

OpenAI Blog 论文

摘要

OpenAI 提出了权重归一化,一种重参数化技术,通过将权重向量的长度与方向解耦,改进神经网络训练的收敛性和计算效率,且不引入小批次依赖关系,适用于循环神经网络和对噪声敏感的应用场景。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:45

# 权重归一化:一种加速深度神经网络训练的简单重参数化方法 来源:https://openai.com/index/weight-normalization/ OpenAI ## 摘要 我们提出权重归一化:一种神经网络权重向量的重参数化方法,将权重向量的长度与其方向解耦。通过以这种方式重参数化权重,我们改进了优化问题的条件数,并加速了随机梯度下降的收敛。我们的重参数化方法受到批量归一化的启发,但不会在一个小批量中的样本之间引入任何依赖关系。这意味着我们的方法也可以成功应用于循环模型(如 LSTM)以及对噪声敏感的应用(如深度强化学习或生成模型),而批量归一化在这些应用中表现不太理想。虽然我们的方法简单得多,但仍然提供了完整批量归一化的大部分加速效果。此外,我们方法的计算开销较低,允许在相同的时间内执行更多的优化步骤。我们在监督图像识别、生成模型和深度强化学习等应用中展示了我们方法的有效性。

相似文章

通过解耦权重向量的幅度和方向改进神经网络训练 | Alexander Hägele

Reddit r/LocalLLaMA

这篇博客文章介绍了幅度-方向(MD)解耦方法,该方法将神经网络权重矩阵分解为方向分量和幅度分量,并使用独立的学习率进行优化。实验表明,该方法在Adam和Muon优化器上均提升了性能,实现了跨模型宽度的自动学习率迁移,并在大规模混合专家模型中展现了缩放优势。

统一神经缩放定律

Hugging Face Daily Papers

提出了一种统一神经缩放定律,能够精确建模深度神经网络在多个维度(包括参数量、数据集大小、训练步数和计算量)上的缩放行为,并在多种架构和任务上得到验证。

通过 L₀ 正则化学习稀疏神经网络

OpenAI Blog

OpenAI 提出了一种实用的神经网络 L₀ 正则化方法,在训练过程中促使权重精确变为零,实现网络剪枝以提高速度和泛化性能。该方法使用随机门控机制,引入硬具体分布(hard concrete distribution)使得不可微的 L₀ 范数优化能够通过梯度下降法求解。