一层解释所有:理解大型语言模型中的大规模激活现象
摘要
本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。
arXiv:2605.08504v1 公告类型:新文章
摘要:我们研究了大型语言模型(LLM)中大规模激活现象的起源,并识别出一个特定的层,命名为**大规模涌现层(ME Layer)**。该层在不同模型家族中一致存在,大规模激活现象首次在此层出现,随后通过残差连接传播到更深的层。我们发现,在 ME Layer 中,RMSNorm 和 FFN 参数共同促成了大规模激活现象的产生。一旦形成,具有大规模激活的 token 表示在后续层中基本保持不变,这降低了传递给注意力模块的隐藏表示的多样性。针对这一局限性,我们提出了一种简单而有效的方法来减轻大规模激活 token 的僵化性。我们的方法在无需训练和微调设置下,一致地提升了 LLM 在多项任务(包括指令遵循和数学推理)上的性能。此外,我们还表明,该方法通过选择性削弱注意力汇聚点(attention sinks)的影响来缓解其问题,从隐藏状态层面阐明了其起源,并为原则性的缓解策略提供了新的见解。
查看缓存全文
缓存时间: 2026/05/12 06:51
# 单层解释一切:理解大语言模型中的巨大激活值
来源:https://arxiv.org/html/2605.08504
###### 摘要
我们研究了大语言模型(LLMs)中巨大激活值的起源,并识别出一个特定的层,称为**巨大涌现层(Massive Emergence Layer, ME Layer)**。该层在不同模型族中均被一致观察到,巨大激活值首次在此层出现,随后通过残差连接传播到更深层。我们表明,在 ME Layer 中,RMSNorm 和 FFN 参数共同导致了巨大激活值的产生。一旦形成,巨大激活值的 Token 表示在各层间保持高度不变,从而降低了传递给注意力模块的隐藏表示的多样性。针对这一局限性,我们提出了一种简单有效的方法来减少巨大激活 Token 的刚性。我们的方法在无需训练和微调设置下,一致地提升了 LLM 在指令跟随和数学推理等多个任务上的性能。此外,我们证明该方法通过选择性削弱其影响来缓解注意力汇聚(attention sinks),从隐藏状态层面阐明了其起源,并为原则性的缓解策略提供了新的见解。模型和代码已发布在 MELayer & WeMask (https://github.com/vanpe20/A-Single-Layer-to-Explain-Them-All-Understanding-Massive-Values-in-Large-Language-Models.git)。
机器学习,ICML
## 1 引言
参考标题 图1:本图说明了巨大激活值是如何产生和传播的。在上方面板中,我们追踪了巨大激活值的流向:它们仅在特定层的 FFN 中产生,然后通过残差连接传播到后续层。→ 箭头表示巨大激活值的生成和传播。下面板显示了输出 $l_2$ 范数在各层之间的变化。ME Layer 意为巨大涌现层。
大语言模型(LLMs)(Yang et al., 2025; Liu et al., 2024)在广泛的复杂任务中展现了强大的能力,促使人们越来越多地努力探索其内部机制(Zhao et al., 2024; Shi et al., 2025; Zhang et al., 2025c, b)。一些工作使用嵌入来处理后续任务(Shi et al., 2026)。一条新兴的研究路线关注**巨大激活值**:在中间表示中,少数 Token 的嵌入值可以达到比其他 Token 大几个数量级。这提出了一个根本性问题:为什么 LLM 中会出现如此极端的激活值,它们编码了什么,以及它们如何塑造模型行为?近期的研究表明,巨大激活值可以表现得像主导偏差项(Sun et al., 2024),影响上下文信息处理(Jin et al., 2025),并改变注意力行为和训练动态(Kaul et al.,; Gallego-Feliciano et al., 2025)。尽管取得了这些进展,现有工作仍然缺乏对巨大激活值端到端产生过程及其产生与下游功能效应之间联系清晰解释。
在本文中,我们对 LLM 中巨大激活值的产生进行了系统性分析。我们发现,巨大激活值在模型的**单层**中产生,一旦形成,便通过残差连接传播到后续层。如图1和附录H所示,在该特定层中,巨大激活 Token 的激活值与前一层相比增加了数百倍。我们将这一层称为**ME Layer**(巨大涌现层)。在图1中,我们说明了巨大激活值如何在 ME Layer 中产生并随后传播到后续层。令人惊讶的是,我们表明 ME Layer 在不同大小和家族的模型中均被一致观察到(见附录H),这表明存在一种共享的架构级机制,并将 ME Layer 定位为对巨大激活值产生进行系统分析的主要场所。
为了剖析 ME Layer 机制,我们对该层进行了细粒度分析,发现巨大激活值的产生是由 ME Layer 中的前 FFN RMSNorm 和 FFN 层共同驱动的。我们进一步发现,巨大激活值表现出高度的稳定性和一致性(子节 3.2 和附录D)。这种不变性降低了表示多样性。当它传播到自注意力机制时,共享的方向偏差了 Token 之间的交互方式,使得注意力模式在不同输入间更加相似,而在实践中对上下文的适应性降低。
为了缓解隐藏状态中由巨大激活值引起的方向不变性效应,我们提出了一种方法,从 ME Layer 开始,选择性屏蔽注意力输入中对应于较大 RMSNorm 权重的维度,这些权重倾向于放大隐藏状态中的主导方向。这一操作放松了巨大激活 Token 的方向刚性,同时保留了表示的整体结构,从而恢复了注意力输入中更大的方向多样性。结果,注意力机制可以更好地针对不同输入调整其相似度结构。实验结果表明,无论是作为推理时无需训练的干预措施,还是在微调期间应用,我们的方法都能一致地提升下游任务中的模型性能。
我们进一步分析了注意力汇聚现象(Xiao et al., 2024),即 LLM 将不成比例的大量注意力权重分配给一小部分 Token,通常是第一个 Token。我们发现注意力汇聚出现在 ME Layer 之后的紧邻层中,并且相应的注意力权重表现出与 ME Layer 中产生的巨大激活值类似的低秩特性。我们的方法导致注意力汇聚的部分减弱,并且这种受控的减少始终与模型性能的提升相关。这些结果从表示角度为注意力汇聚提供了一种新的视角:注意力汇聚本质上并非有害,而是似乎在模型计算中发挥着功能性作用。与其完全消除它们,不如适度降低其主导地位同时保留其存在,从而产生更有效和稳定的行为,这突显了在表示灵活性与结构正则化之间取得平衡的重要性。
总之,我们的贡献如下:
- • 我们将巨大激活现象追溯至其根本原因,发现了 ME Layer,隐藏状态的巨大激活从此层开始并通过残差连接传播。
- • 我们表明,巨大激活值源于 ME Layer 中 RMSNorm 和 FFN 权重的特性,并且巨大激活 Token 的属性在不同输入和层间保持高度一致。
- • 我们提出了一种方法,放松了巨大激活 Token 的方向刚性,使自注意力机制能够针对不同输入做出更具上下文响应的反应,并在多个模型族和任务上带来一致的性能提升。
- • 基于我们的发现,我们为注意力汇聚现象提供了一种新的视角,从隐藏状态层面解释了其起源,并为缓解注意力汇聚的不良影响提供了新的见解。
## 2 相关工作
### 2.1 巨大激活值
Timkey 和 Van Schijndel(2021)首先发现了 GPT-2 中某些特征维度表现出极大激活值的这一现象。遵循这一观察,几项研究开始调查隐藏状态中的此类异常特征(Dettmers et al., 2022; Zeng et al., 2022; Ahmadian et al., 2023)。后续工作从不同角度探讨了这些异常特征:Owen et al.(2025)通过量化分析研究了它们,而 Zhao et al.(2025)检查了它们的功能角色。其他研究试图抑制或移除异常维度以提高模型鲁棒性或量化效果(Bondarenko et al., 2023)。最近的工作报告了异常大振幅隐藏状态的存在,通常称为巨大激活值(Sun et al., 2024; Son et al., 2024)。Oh et al.(2025)进一步指出,这种巨大激活值可能由较大的 FFN 权重驱动。此外,Gallego-Feliciano et al.(2025)分析了巨大激活值在训练过程中的产生方式,而 He et al.(2024)调查了巨大激活值如何影响模型性能和行为。同时,其他研究认为注意力汇聚可能发挥功能性作用,而不仅仅是病理性的伪影;例如,Ruscio et al.(2025)和 Zhang et al. 将注意力汇聚解释为模型中的结构锚点。在 Cancedda(2024)和 Ferrando and Voita(2024)中,他们报告了 BOS Token 的残差流写入“暗子空间”,并且这种特性在各层间保持稳定。Queipo-de-Llano et al.(2025)开发了一种统一理论,表明巨大激活值解释了注意力汇聚和压缩低谷,并以此激励了一种深度计算的“混合-压缩-细化”观点。尽管取得了这些进展,现有工作仍然缺乏一种统一的分析,将巨大激活值的产生与其下游效应(特别是注意力汇聚)联系起来,并利用这种源级理解来开发有针对性的缓解方法。
### 2.2 注意力汇聚
在 LLM 自注意力机制中,一小部分 Token 始终获得不成比例的大量注意力权重,这种现象被称为注意力汇聚。先前的工作在 LLM 和 VLM 中都观察到了注意力汇聚(Xiao et al., 2024; Darce et al.,)。Gu et al.(2024)将汇聚特征化为由 softmax 诱导耦合产生的非信息性键偏差,这促使了一系列通过修改注意力机制来缓解汇聚的工作(Ramapuram et al., 2024; Zuhri et al., 2025; Bondarenko et al., 2023; Miller, 2023)。代表性方法包括注意力门控和裁剪(Bondarenko et al., 2023)、门控注意力模块(Qiu et al., 2025)以及将值状态与汇聚动力学解耦(Bu et al., 2025)。一些工作还讨论了安全机制(Shang et al., 2025; Zhang et al., 2025a; Zhang and Zhang, 2025)。然而,现有分析主要关注注意力,忽视了嵌入的作用。
## 3 单个 Transformer 层中巨大激活值的产生
如图1所示,巨大激活值在一个单个 Transformer 层(即 ME Layer)中突然产生,而不是在各层中逐渐积累。我们在子节 3.1 中分析了这一现象的起源,将其与 ME Layer 的归一化行为和权重结构联系起来。在子节 3.2 中,我们进一步表明,一旦形成,这些激活值就变得方向稳定,从而降低了表示多样性并限制了下游自注意力。
### 3.1 理解 ME Layer 中的产生
**关键结论**:巨大激活值仅在 ME Layer 中产生,由异常大且方向对齐的 RMSNorm 和 FFN 参数驱动,这些参数选择性放大了巨大激活 Token。
在本节中,我们以 Qwen3-4B 为案例研究,以确定触发巨大激活值的 ME Layer 中的计算。图1揭示了以 ME Layer 为中心的激活幅度的清晰转变。在此层之前,Token 激活值在各 Token 之间保持可比性,而在 ME Layer,第一个 Token 表现出幅度的突然且孤立的增加,随后通过残差连接得以保留。下面板进一步将这种转变定位在 ME Layer 内部:偏差首先出现在 RMSNorm 输出处,并被 FFN 急剧放大为巨大激活值。一旦形成,这种大振幅表示直接传播到后续层。这种阶段性行为将巨大激活值的起源定位在 ME Layer 的内部转换中。在解码器块的组件中,只有 RMSNorm 和 FFN 能够在单层内诱导如此快速的、特定 Token 的放大,这促使我们对这两个模块进行重点分析。我们发现,Qwen3-4B 在不同输入上始终在第一个 Token 上表现出巨大激活值,因此,在以下各节中,我们以第一个 Token 为主要分析对象。
参考标题 图2:Qwen3-4B 各层中 RMSNorm 对 Token0 和其他 Token 放大的比较。RMSNorm 的放大效应。我们逐层分析了 RMSNorm 中的缩放因子,发现 ME Layer 中对隐藏状态的放大效应远超其他层。在图2中,我们测量了 RMSNorm 加权激活范数,它代表了每个 Token 的 RMSNorm 输出的总体幅度:$\mathrm{WeightNorm}_l(t) = \|\hat{h}_{l,t}\|_2$,其中 $\hat{h}_{l,t} = \mathrm{RMSNorm}(h_{l,t})$ 表示第 $l$ 层和第 $t$ 个 Token 位置处的 RMSNorm 输出。我们观察到,在第 7 层之前,第一个 Token 和其他 Token 被放大到相似的程度。然而,在第 7 层,RMSNorm 对第一个 Token 产生的输出幅度远大于其他 Token。
参考标题 图3:该指标捕获了高权重维度的贡献,并反映了 Token 值在各层中与基于权重的放大之间的对齐程度。为了进一步分析这种放大...相似文章
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
论大语言模型的固有可解释性:设计原则和架构调查
一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。
负面先于正面:大型语言模型中的不对称效价处理
本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。
解构并引导大型语言模型中的功能性元认知
本研究探讨了大型语言模型中的功能性元认知,证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态,展示了对推理行为、冗长度及安全响应的因果控制。
通过决策表征转变理解层剪枝大型语言模型中的性能崩溃
本文通过引入决策表征指标,分析了层剪枝 LLM 中的性能崩溃现象,并确定了维持模型完整性所关键的“沉默期”。