我弄清楚了‘超级权重’的成因

Reddit r/ArtificialInteligence 论文

摘要

本文解释了大语言模型中的超级权重源于SoftMax与注意力机制的相互作用,该作用创建了一个充当稳定参考点的‘Nothing Dump’标记;移除这些权重会严重损害模型性能。

‘超级权重’是苹果公司在2024年首次强调的一种现象。模型中极少数参数对性能贡献极大。有趣的是,这些标记一旦被检查,往往充斥着‘垃圾信息’。然而你不能移除它们,否则哪怕只移除一个,模型性能就会下降15-20%甚至更多。在模型量化时,这一点会被特别考虑。这就是为何新的AI量化方法不断涌现的原因。新方法越来越擅长在保留超级权重完整结构的同时,对除超级权重之外的所有部分进行量化。但超级权重一开始为什么会存在呢?如果你能找出原因,就不需要后续发明复杂的数学方法来处理它了。它们是否仅仅是SGD的产物?这一直是我最基本的假设。研究表明,这些权重并不汇集在注意力层,因此注意力似乎不是直接原因,SoftMax才是。SoftMax与注意力之间存在一种关键交互,但在这一特定问题中尚未被深入探究。在优化过程中,每一轮注意力都必须产生总计为1.0的注意力分数。即使模型在该轮次中不想分配任何注意力,其架构中也没有代表‘无注意力’的机制。因此,它创建了一个‘Nothing Dump’。一个随机的无用标记成为了‘Nothing Dump’。可能是每次的第一个标记,也可能是<BOS>标记。具体是哪个标记并不重要。重要的是它总是成为这个标记。这就为‘无’创建了一个稳定的参考点。一个稳定的‘无’的参考点非常有用,因为它可以用来进行度量。你可以将某物与‘无’对比等。实际上,你可以开始利用这一点进行训练。它成为潜在空间中的一个地标(Landmark),始终存在。有用之处在于它始终存在,而不在于它里面有什么——里面什么都没有,哈!然而,如果你消融(ablate)它,你就摧毁了这个地标。模型再也无法对照该地标进行度量,因此消除这一个参数基本上就毁掉了所有相关训练。更深入的视觉解析:https://youtu.be/hkom1BDuZHU
查看原文

相似文章

"它们是由权重构成的"

Hacker News Top

一段创意对话探讨了大语言模型本质上只是权重矩阵的观点,挑战了关于理解和意识的概念。

贡献权重:自注意力Transformer的几何分析

arXiv cs.LG

介绍贡献权重(Contribution Weights),这是一种基于投影的度量,它考虑了注意力权重、值向量的幅度和方向对齐,从而更准确地衡量Transformer大语言模型中的token重要性,揭示了注意力阱(attention sinks)的主动功能角色。

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI

这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。

Bug or Feature^2:权重漂移、激活稀疏性与尖峰

Hugging Face Daily Papers

本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。