Bug or Feature^2:权重漂移、激活稀疏性与尖峰
摘要
本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。
查看缓存全文
缓存时间: 2026/05/20 22:40
论文页面 - Bug or Feature^2:权重漂移、激活稀疏性与尖峰
来源:https://huggingface.co/papers/2605.17659
每次你用 ReLU、GELU 或 SiLU 训练网络时,权重都会悄悄地向负值漂移。这不是数据的问题,即便是随机输入也会发生。这是梯度下降与非对称激活函数的数学特性所固有的。
我们从数学上证明了这一点(MSE 和交叉熵),并在 MLP、ResNet、ViT、GPT 以及一个语音模型上展示了这种现象。
这种漂移会导致什么? 负权重将预激活值推入负区域,而使用 ReLU 时,多达 90% 的激活最终变为零——正是被最初导致漂移的同一个函数清零了!这到底是 bug 还是 feature?取决于如何使用。
最有趣的发现: ReLU2 提升了 GPT-nano 的性能,但病态地将激活尖峰放大了 25 倍。解决方法很简单:进行裁剪。裁剪后的 ReLU2 和 GELU2 都优于其非平方版本,其中 GELU2 在 GPT-nano 上取得了整体最佳的验证损失。
💻 代码:github.com/On-Point-RND/BugOrFeature
相似文章
深度隐含偏差:从神经坍缩到Softmax编码
本文研究深度本身如何在没有正则化训练的情况下,在深度无约束特征模型中引致隐式低秩偏差,将最优解从神经坍缩转向Softmax编码,并首次给出了在交叉熵损失下梯度下降中这一偏差的渐近和动态表征。
RT-Lynx:以正确方式将GEMM稀疏性应用于扩散模型
RT-Lynx提出利用激活稀疏性而非权重稀疏性来加速扩散模型,在线性层上实现了高达1.55倍的加速,同时保持生成质量,并被ICML 2026接收。
平坦最小值是幻觉吗?
本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点,认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明,弱性能够预测泛化,而尖锐性则与之负相关,且随着训练数据增加,大批次泛化优势消失。
即插即用脉冲算子:突破脉冲Transformer中的非线性瓶颈
本文提出一种即插即用框架,通过LIF神经元的种群计算和轻量级位移缩放,实现Transformer非线性(如Softmax、SiLU、归一化)的脉冲友好近似,在无需微调的LLMs上准确率下降不到1%。
权重剪枝放大偏见:压缩大语言模型在边缘人工智能中多方法研究
本研究揭示了一个“智能剪枝悖论”:诸如 Wanda 等激活感知剪枝方法虽然保持了困惑度,但在边缘设备上部署的大语言模型中显著放大了偏见。