通过 L₀ 正则化学习稀疏神经网络

OpenAI Blog 2017/12/04 08:00 论文

摘要

OpenAI 提出了一种实用的神经网络 L₀ 正则化方法，在训练过程中促使权重精确变为零，实现网络剪枝以提高速度和泛化性能。该方法使用随机门控机制，引入硬具体分布（hard concrete distribution）使得不可微的 L₀ 范数优化能够通过梯度下降法求解。

暂无内容

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:56

# 通过L0正则化学习稀疏神经网络来源：https://openai.com/index/learning-sparse-neural-networks-through-l0-regularization/ ## 摘要我们提出了一种针对神经网络L0范数正则化的实用方法：通过鼓励权重变为零来在训练过程中剪枝网络。这种正则化方法很有趣，因为（1）它可以大大加快训练和推理速度，（2）它可以改进泛化性能。AIC和BIC是众所周知的模型选择标准，它们是L0正则化的特殊情况。然而，由于权重的L0范数是不可微的，我们不能将其直接作为目标函数中的正则化项。我们通过引入一组非负随机门来解决这个问题，这些门共同决定将哪些权重设为零。我们证明，出人意料的是，对于某些门的分布，所得门控权重的期望L0范数关于分布参数是可微的。我们进一步提出了门的*硬具体*分布，它通过"拉伸"二元具体分布然后用硬sigmoid变换其样本而得到。门上分布的参数可以与原始网络参数联合优化。因此，我们的方法允许使用随机梯度下降进行直接高效的模型结构学习，并以原则性的方式实现条件计算。我们进行了各种实验来证明所提出方法和正则化器的有效性。

通过 L₀ 正则化学习稀疏神经网络

相似文章

通过稀疏电路理解神经网络

JumpLoRA：大语言模型持续学习的稀疏适配器

权重归一化：加速深度神经网络训练的简单重参数化方法

估计开放权重大型语言模型的最坏情况前沿风险

通过隐式梯度传输加速基于 LMO 的优化

提交意见反馈