通过 L₀ 正则化学习稀疏神经网络
摘要
OpenAI 提出了一种实用的神经网络 L₀ 正则化方法,在训练过程中促使权重精确变为零,实现网络剪枝以提高速度和泛化性能。该方法使用随机门控机制,引入硬具体分布(hard concrete distribution)使得不可微的 L₀ 范数优化能够通过梯度下降法求解。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:56
# 通过L0正则化学习稀疏神经网络
来源:https://openai.com/index/learning-sparse-neural-networks-through-l0-regularization/
## 摘要
我们提出了一种针对神经网络L0范数正则化的实用方法:通过鼓励权重变为零来在训练过程中剪枝网络。这种正则化方法很有趣,因为(1)它可以大大加快训练和推理速度,(2)它可以改进泛化性能。AIC和BIC是众所周知的模型选择标准,它们是L0正则化的特殊情况。然而,由于权重的L0范数是不可微的,我们不能将其直接作为目标函数中的正则化项。我们通过引入一组非负随机门来解决这个问题,这些门共同决定将哪些权重设为零。我们证明,出人意料的是,对于某些门的分布,所得门控权重的期望L0范数关于分布参数是可微的。我们进一步提出了门的*硬具体*分布,它通过"拉伸"二元具体分布然后用硬sigmoid变换其样本而得到。门上分布的参数可以与原始网络参数联合优化。因此,我们的方法允许使用随机梯度下降进行直接高效的模型结构学习,并以原则性的方式实现条件计算。我们进行了各种实验来证明所提出方法和正则化器的有效性。
相似文章
通过稀疏电路理解神经网络
OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。
JumpLoRA:大语言模型持续学习的稀疏适配器
JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。
权重归一化:加速深度神经网络训练的简单重参数化方法
OpenAI 提出了权重归一化,一种重参数化技术,通过将权重向量的长度与方向解耦,改进神经网络训练的收敛性和计算效率,且不引入小批次依赖关系,适用于循环神经网络和对噪声敏感的应用场景。
估计开放权重大型语言模型的最坏情况前沿风险
OpenAI 研究人员通过在生物学和网络安全领域进行恶意微调(MFT)来研究发布开放权重大型语言模型的最坏情况前沿风险,发现开放权重模型的表现不如前沿闭源模型,且不会显著提升有害能力。
通过隐式梯度传输加速基于 LMO 的优化
本文提出了 LMO-IGT,这是一类新的随机优化方法,它利用隐式梯度传输来加速收敛,同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架,并展示了相较于 Muon 等现有基于 LMO 的优化器,该方法具有更优的性能。