通过 L₀ 正则化学习稀疏神经网络

OpenAI Blog 论文

摘要

OpenAI 提出了一种实用的神经网络 L₀ 正则化方法,在训练过程中促使权重精确变为零,实现网络剪枝以提高速度和泛化性能。该方法使用随机门控机制,引入硬具体分布(hard concrete distribution)使得不可微的 L₀ 范数优化能够通过梯度下降法求解。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:56

# 通过L0正则化学习稀疏神经网络 来源:https://openai.com/index/learning-sparse-neural-networks-through-l0-regularization/ ## 摘要 我们提出了一种针对神经网络L0范数正则化的实用方法:通过鼓励权重变为零来在训练过程中剪枝网络。这种正则化方法很有趣,因为(1)它可以大大加快训练和推理速度,(2)它可以改进泛化性能。AIC和BIC是众所周知的模型选择标准,它们是L0正则化的特殊情况。然而,由于权重的L0范数是不可微的,我们不能将其直接作为目标函数中的正则化项。我们通过引入一组非负随机门来解决这个问题,这些门共同决定将哪些权重设为零。我们证明,出人意料的是,对于某些门的分布,所得门控权重的期望L0范数关于分布参数是可微的。我们进一步提出了门的*硬具体*分布,它通过"拉伸"二元具体分布然后用硬sigmoid变换其样本而得到。门上分布的参数可以与原始网络参数联合优化。因此,我们的方法允许使用随机梯度下降进行直接高效的模型结构学习,并以原则性的方式实现条件计算。我们进行了各种实验来证明所提出方法和正则化器的有效性。

相似文章

通过稀疏电路理解神经网络

OpenAI Blog

OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。

LoRA 与权重衰减 (2023)

Hacker News Top

这篇博客文章探讨了LoRA与权重衰减的相互作用如何导致与全参微调不同的优化目标,其中权重被正则化到初始模型而不是零。它解释了对实践者的影响。

JumpLoRA:大语言模型持续学习的稀疏适配器

arXiv cs.CL

JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。

Bug or Feature^2:权重漂移、激活稀疏性与尖峰

Hugging Face Daily Papers

本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。