我弄清楚了‘超级权重’的成因

Reddit r/ArtificialInteligence 2026/06/23 20:31 论文

super-weights quantization softmax attention model-optimization llm research

摘要

本文解释了大语言模型中的超级权重源于SoftMax与注意力机制的相互作用，该作用创建了一个充当稳定参考点的‘Nothing Dump’标记；移除这些权重会严重损害模型性能。

‘超级权重’是苹果公司在2024年首次强调的一种现象。模型中极少数参数对性能贡献极大。有趣的是，这些标记一旦被检查，往往充斥着‘垃圾信息’。然而你不能移除它们，否则哪怕只移除一个，模型性能就会下降15-20%甚至更多。在模型量化时，这一点会被特别考虑。这就是为何新的AI量化方法不断涌现的原因。新方法越来越擅长在保留超级权重完整结构的同时，对除超级权重之外的所有部分进行量化。但超级权重一开始为什么会存在呢？如果你能找出原因，就不需要后续发明复杂的数学方法来处理它了。它们是否仅仅是SGD的产物？这一直是我最基本的假设。研究表明，这些权重并不汇集在注意力层，因此注意力似乎不是直接原因，SoftMax才是。SoftMax与注意力之间存在一种关键交互，但在这一特定问题中尚未被深入探究。在优化过程中，每一轮注意力都必须产生总计为1.0的注意力分数。即使模型在该轮次中不想分配任何注意力，其架构中也没有代表‘无注意力’的机制。因此，它创建了一个‘Nothing Dump’。一个随机的无用标记成为了‘Nothing Dump’。可能是每次的第一个标记，也可能是<BOS>标记。具体是哪个标记并不重要。重要的是它总是成为这个标记。这就为‘无’创建了一个稳定的参考点。一个稳定的‘无’的参考点非常有用，因为它可以用来进行度量。你可以将某物与‘无’对比等。实际上，你可以开始利用这一点进行训练。它成为潜在空间中的一个地标（Landmark），始终存在。有用之处在于它始终存在，而不在于它里面有什么——里面什么都没有，哈！然而，如果你消融（ablate）它，你就摧毁了这个地标。模型再也无法对照该地标进行度量，因此消除这一个参数基本上就毁掉了所有相关训练。更深入的视觉解析：https://youtu.be/hkom1BDuZHU

查看原文

我弄清楚了‘超级权重’的成因

相似文章

"它们是由权重构成的"

贡献权重：自注意力Transformer的几何分析

一层解释所有：理解大型语言模型中的大规模激活现象

大型视觉-语言模型在注意力机制中迷失

Bug or Feature^2：权重漂移、激活稀疏性与尖峰

提交意见反馈