权重归一化:加速深度神经网络训练的简单重参数化方法

OpenAI Blog 论文

摘要

OpenAI 提出了权重归一化,一种重参数化技术,通过将权重向量的长度与方向解耦,改进神经网络训练的收敛性和计算效率,且不引入小批次依赖关系,适用于循环神经网络和对噪声敏感的应用场景。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:45

# 权重归一化:一种加速深度神经网络训练的简单重参数化方法 来源:https://openai.com/index/weight-normalization/ OpenAI ## 摘要 我们提出权重归一化:一种神经网络权重向量的重参数化方法,将权重向量的长度与其方向解耦。通过以这种方式重参数化权重,我们改进了优化问题的条件数,并加速了随机梯度下降的收敛。我们的重参数化方法受到批量归一化的启发,但不会在一个小批量中的样本之间引入任何依赖关系。这意味着我们的方法也可以成功应用于循环模型(如 LSTM)以及对噪声敏感的应用(如深度强化学习或生成模型),而批量归一化在这些应用中表现不太理想。虽然我们的方法简单得多,但仍然提供了完整批量归一化的大部分加速效果。此外,我们方法的计算开销较低,允许在相同的时间内执行更多的优化步骤。我们在监督图像识别、生成模型和深度强化学习等应用中展示了我们方法的有效性。

相似文章

通过 L₀ 正则化学习稀疏神经网络

OpenAI Blog

OpenAI 提出了一种实用的神经网络 L₀ 正则化方法,在训练过程中促使权重精确变为零,实现网络剪枝以提高速度和泛化性能。该方法使用随机门控机制,引入硬具体分布(hard concrete distribution)使得不可微的 L₀ 范数优化能够通过梯度下降法求解。

通过稀疏电路理解神经网络

OpenAI Blog

OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。

平坦最小值是幻觉吗?

arXiv cs.LG

本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点,认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明,弱性能够预测泛化,而尖锐性则与之负相关,且随着训练数据增加,大批次泛化优势消失。

AI 训练如何实现扩展

OpenAI Blog

# AI 训练如何实现扩展 来源:[https://openai.com/index/how-ai-training-scales/](https://openai.com/index/how-ai-training-scales/) 我们发现梯度噪声尺度(一个简单的统计指标)可以预测神经网络在广泛任务上的训练可并行性。由于复杂任务往往具有更高的梯度噪声,越来越大的批大小在未来可能会变得有用,从而消除了 AI 系统进一步增长的一个潜在瓶颈。更广泛地说,这些结果表明神经网络训练无需被视为神秘的艺术,而可以被严格化和系统化。