大型语言模型中的深度诅咒

Lobsters Hottest 论文

摘要

本文介绍了LLM中的深度诅咒问题,即由于Pre-Layer Normalization导致输出方差爆炸,深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题,并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。

<p><a href="https://lobste.rs/s/ooggna/curse_depth_large_language_models">评论</a></p>
查看原文
查看缓存全文

缓存时间: 2026/06/13 20:55

# 大语言模型中的深度诅咒 来源:https://arxiv.org/html/2502.05795 Wenfang Sun∗1, Xinyuan Song∗2, Pengxiang Li∗3, Lu Yin4, Yefeng Zheng1, Shiwei Liu†5 1西湖大学,中国 2埃默里大学,美国 3大连理工大学,中国 4萨里大学,英国 5牛津大学,英国

###### 摘要

在本文中,我们引入了“深度诅咒”(Curse of Depth)这一概念,用于突出、解释并解决现代大语言模型(LLMs)中近期观察到的一个现象:将近一半的层效率低于预期。我们首先确认了这一现象在 Llama、Mistral、DeepSeek 和 Qwen 等最流行的 LLMs 系列中的广泛存在。通过理论和实证分析,我们发现深度层在 LLMs 中效率低下的根本原因是广泛使用的预层归一化(Pre-LN)。虽然 Pre-LN 稳定了Transformer LLMs 的训练,但其输出方差会随模型深度呈指数增长,这不幸地导致深层 Transformer 块的导数趋近于单位矩阵,因而几乎对训练没有贡献。为了解决这一训练陷阱,我们提出了`层归一化缩放(LayerNorm Scaling,LNS)`,该方法通过深度平方根的倒数来缩放层归一化输出的方差。¹¹我们发现将 LNS 与缩放初始化(Scaled Initialization)(Groeneveldet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib78); Radfordet al.,2019 (https://arxiv.org/html/2502.05795v5#bib.bib71); Shoeybiet al.,2020 (https://arxiv.org/html/2502.05795v5#bib.bib48)) 结合会削弱 LNS 的效果。因此,我们建议在应用 LNS 时移除后者。这一简单修改缓解了深层 Transformer 层的输出方差爆炸,提高了它们的贡献。在广泛的模型规模(130M 到 7B)上,我们的实验表明,LNS 在提升 LLM 预训练性能方面始终优于先前的归一化和缩放技术。此外,这种改进无缝地延续到了监督微调中。所有这些收益都可归因于层归一化缩放使得深层在训练中能够更有效地做出贡献。我们的代码可在 LayerNorm-Scaling (https://github.com/lmsdss/LayerNorm-Scaling) 获取。

**脚注:* 同等贡献。已被 NeurIPS 2025 接收。†† 通讯作者:Shiwei Liu, [email protected]。

参见标题 参见标题

图 1:左:(a) Pre-LN 和 (b) LayerNorm Scaling 的示意图。LayerNorm Scaling 应用一个与层索引 `l` 的平方根成反比的缩放因子,防止了过度的方差增长。右:参数规模扩展至 7B 的语言建模损失。所有模型使用 OLMo (Groeneveldet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib78)) 训练了 20B tokens。

###### 目录
1. 1 引言 (https://arxiv.org/html/2502.05795v5#S1)
2. 2 深度诅咒的经验证据 (https://arxiv.org/html/2502.05795v5#S2)
   1. 2.1 开放权重的大规模 LLMs (https://arxiv.org/html/2502.05795v5#S2.SS1)
   2. 2.2 内部小规模 LLaMa-130M (https://arxiv.org/html/2502.05795v5#S2.SS2)
3. 3 深度诅咒的分析 (https://arxiv.org/html/2502.05795v5#S3)
   1. 3.1 Pre-LN Transformers (https://arxiv.org/html/2502.05795v5#S3.SS1)
4. 4 LayerNorm Scaling (LNS) (https://arxiv.org/html/2502.05795v5#S4)
   1. 4.1 LayerNorm Scaling 的理论分析 (https://arxiv.org/html/2502.05795v5#S4.SS1)
5. 5 实验 (https://arxiv.org/html/2502.05795v5#S5)
   1. 5.1 LLM 预训练 (https://arxiv.org/html/2502.05795v5#S5.SS1)
   2. 5.2 监督微调 (https://arxiv.org/html/2502.05795v5#S5.SS2)
   3. 5.3 扩展训练 (https://arxiv.org/html/2502.05795v5#S5.SS3)
      1. 5.3.1 OLMo (https://arxiv.org/html/2502.05795v5#S5.SS3.SSS1)
      2. 5.3.2 Qwen2.5 (https://arxiv.org/html/2502.05795v5#S5.SS3.SSS2)
   4. 5.4 LNS 有效缩小输出方差 (https://arxiv.org/html/2502.05795v5#S5.SS4)
   5. 5.5 LNS 增强深层有效性 (https://arxiv.org/html/2502.05795v5#S5.SS5)
   6. 5.6 Vision Transformer 中的 LayerNorm Scaling (https://arxiv.org/html/2502.05795v5#S5.SS6)
6. 6 消融研究 (https://arxiv.org/html/2502.05795v5#S6)
7. 7 相关工作 (https://arxiv.org/html/2502.05795v5#S7)
8. 8 结论 (https://arxiv.org/html/2502.05795v5#S8)
9. A 深度诅咒定理的证明 (https://arxiv.org/html/2502.05795v5#A1)
   1. A.1 引理3.2 的证明 (https://arxiv.org/html/2502.05795v5#A1.SS1)
      1. A.1.1 注意力机制的方差 (https://arxiv.org/html/2502.05795v5#A1.SS1.SSS1)
      2. A.1.2 前馈网络的方差 (https://arxiv.org/html/2502.05795v5#A1.SS1.SSS2)
   2. A.2 定理3.3 的证明 (https://arxiv.org/html/2502.05795v5#A1.SS2)
      1. A.2.1 引理36 的证明 (https://arxiv.org/html/2502.05795v5#A1.SS2.SSS1)
      2. A.2.2 上界分析 (https://arxiv.org/html/2502.05795v5#A1.SS2.SSS2)
   3. A.3 引理4.1 的证明 (https://arxiv.org/html/2502.05795v5#A1.SS3)
   4. A.4 定理17 的证明 (https://arxiv.org/html/2502.05795v5#A1.SS4)
   5. A.5 定理4.3 的证明 (https://arxiv.org/html/2502.05795v5#A1.SS5)
10. B Pre-LN 训练中的方差增长 (https://arxiv.org/html/2502.05795v5#A2)
11. C 视觉-语言模型(Qwen 2.5-VL)中层剪枝的性能下降 (https://arxiv.org/html/2502.05795v5#A3)
12. D 局限性 (https://arxiv.org/html/2502.05795v5#A4)

## 1 引言

近期研究揭示,现代 LLMs 中的深层(Transformer 块)往往比浅层效率更低 (Yinet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib60); Gromovet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib52); Menet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib10); Liet al.,2024b (https://arxiv.org/html/2502.05795v5#bib.bib76))。一方面,这一有趣的观察为 LLM 压缩提供了一个有效的指标。例如,我们可以更大幅度地压缩深层 (Yinet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib60); Luet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib50); Dumitruet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib47)) 以实现高压缩比。甚至更激进地,可以完全剪除整个深层而不影响性能 (Muralidharanet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib49); Siddiquiet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib46))。另一方面,拥有许多低效层是不可取的,因为现代 LLMs 的训练极度消耗资源,通常需要数千个 GPU 训练数月,更不用说用于数据整理和管理的劳动 (Achiamet al.,2023 (https://arxiv.org/html/2502.05795v5#bib.bib75); Touvronet al.,2023 (https://arxiv.org/html/2502.05795v5#bib.bib62))。理想情况下,我们希望模型中的所有层都得到良好训练,各层之间的特征具有足够的多样性,以最大化资源利用率 (Liet al.,2024b (https://arxiv.org/html/2502.05795v5#bib.bib76))。训练不良的层的存在表明当前的 LLM 范式必然存在问题。解决这些局限性是社区的迫切需求,以避免宝贵资源的浪费,因为新版本的 LLMs 通常使用其先前的计算范式进行训练,导致低效层。

为了引起社区的紧急关注,我们重新引入了“深度诅咒(Curse of Depth,CoD)”这一概念,以便系统地呈现各种 LLM 系列中存在的深层低效现象,找出其根本原因,并通过提出 LayerNorm Scaling 来纠正它。我们首先陈述深度诅咒如下。

**深度诅咒。** 深度诅咒指的是观察到的现象:现代 LLMs 中的深层与浅层相比,对学习和表征的贡献显著更少(但并非没有)。这些深层通常表现出对剪枝和扰动的显著鲁棒性,意味着它们未能执行有意义的变换。这种行为阻止了这些层有效参与训练和表征学习,导致资源效率低下。

**CoD 的经验证据。** 为了证明 CoD 是主流 LLM 家族的常见现象,我们在 Qwen3、LLaMA2 和 DeepSeek 上进行了层剪枝实验。具体来说,我们一次剪除一层,不进行任何微调,直接在 MMLU 基准 (Hendryckset al.,2021 (https://arxiv.org/html/2502.05795v5#bib.bib27)) 上评估剪枝后的模型,如图 2 (https://arxiv.org/html/2502.05795v5#S1.F2) 所示。关键发现:(1) 大多数模型,包括最新的 Qwen3,对移除深层表现出惊人的弹性;(2) 可以在不造成显著性能下降的情况下移除的层数随模型大小而增加;(3) 深层的表征相互之间比浅层的要相似得多。

**识别 CoD 的根本原因。** 我们从理论和经验上确定了 CoD 的根本原因是使用预层归一化(Pre-LN)(Baevski and Auli,2019 (https://arxiv.org/html/2502.05795v5#bib.bib28); Daiet al.,2019 (https://arxiv.org/html/2502.05795v5#bib.bib33)),它在应用主要计算(如注意力或前馈操作)之前对层输入进行归一化,而非之后。具体来说,在稳定训练的同时,我们观察到 Pre-LN 的输出方差随层深度显著累积,如图 4 (https://arxiv.org/html/2502.05795v5#S2.F4) 所示,导致深层 Pre-LN 层的导数趋近于单位矩阵。这种行为阻止了这些层引入有意义的变换,导致了表征学习下降。

**通过 LayerNorm Scaling 缓解 CoD。** 我们提出了 LayerNorm Scaling(LNS),它通过深度的平方根 `1/sqrt(l)` 来缩放层归一化的输出。LayerNorm Scaling 有效地缩小了 Pre-LN 各层的输出方差。LNS 在各种模型尺寸(从 130M 到 7B)上始终优于现有的归一化和缩放技术,提供了更好的预训练性能。与先前的 LayerNorm 变体不同 (Liet al.,2024b (https://arxiv.org/html/2502.05795v5#bib.bib76); Liuet al.,2020 (https://arxiv.org/html/2502.05795v5#bib.bib54)),LayerNorm Scaling 实现简单,无需超参数调优,并且在训练过程中不引入额外参数。此外,我们展示了使用 LayerNorm Scaling 预训练的模型在下游任务的自我监督微调中表现更好,这完全得益于深层学到的更多样化的特征表征。

参见标题

图 2:开放权重大规模 LLMs 的结果。上:移除单个层(未微调)后的性能下降。下:从初始层 `l`(x 轴)到其后续第 `n` 层(y 轴)的角距离。结果表明,在 Pre-LN LLMs 中,深层与其相邻层产生的表征高度相似,移除它们导致的性能退化最小。相比之下,Post-LN 模型呈现相反趋势:深层对模型性能贡献更大。

参见标题

图 3:内部小规模 LLaMa-130M 的结果。角距离 (a, b):每一列表示从初始层 `l`(x 轴)到其后续第 `n` 层(y 轴)的角距离。距离缩放至 [0, 1] 范围,黄色表示距离较小,紫色表示距离较大。性能下降 (c, d):从 LLaMa-130M 中移除每个单层导致的 ARC-e 性能下降。

## 2 深度诅咒的经验证据

为了实证分析层归一化对 LLMs 中“深度诅咒”的影响,我们受 Liet al. (2024b (https://arxiv.org/html/2502.05795v5#bib.bib76)) 启发进行了一系列评估,比较 Pre-LN 和 Post-LN 模型。

**方法:** 我们通过评估在不同深度进行层剪枝的影响来评估 Pre-LN 和 Post-LN 模型。我们的假设是,Pre-LN 模型在深层的效能递减,而 Post-LN 模型则浅层效能较低。

### 2.1 开放权重的大规模 LLMs

**模型:** 为了验证这一点,我们通过经验量化了来自不同 LLMs 集合的单个层对整体模型性能的贡献,包括 Qwen3 (Team,2025 (https://arxiv.org/html/2502.05795v5#bib.bib72))、LLaMA2 (Touvronet al.,2023 (https://arxiv.org/html/2502.05795v5#bib.bib62))、DeepSeek (Biet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib56)) 和 BERT-Large (Devlin,2019 (https://arxiv.org/html/2502.05795v5#bib.bib30))。选择这些模型是为了确保架构和应用的多样性。BERT-Large 代表一个 Post-LN 模型,而其余的是基于 Pre-LN 的。这一选择能够全面评估不同架构和模型规模下层归一化的效果。

**评估指标:** 为了经验性地评估 LLMs 中深层的影响,我们采用了两个指标:**性能下降**和**角距离**,受 Gromovet al. (2024 (https://arxiv.org/html/2502.05795v5#bib.bib52)); Liet al. (2024b (https://arxiv.org/html/2502.05795v5#bib.bib76)) 启发。性能下降 `ΔP(l)` 通过测量移除某一层后性能的变化来量化该层的重要性。较小的 `ΔP(l)` 表示被剪枝的层对模型整体性能的贡献较小。对于 BERT-Large,我们使用 SQuAD v1.1 数据集 (Rajpurkar,2016 (https://arxiv.org/html/2502.05795v5#bib.bib26)) 进行评估,而其他模型则使用 MMLU (Hendryckset al.,2021 (https://arxiv.org/html/2502.05795v5#bib.bib27)),这是一个用于多任务语言理解的标准基准。角距离 `d(x^l, x^{l+n})` 量化了在一个中性预训练数据集上,层 `l` 和层 `l+n` 的输入表征之间的方向变化。形式化地,给定一个 token T,令 `x_T^l` 和 `x_T^{l+n}` 分别表示其在层 `l` 和 `l+n` 的输入。角距离定义为:

`d(x^l, x^{l+n}) = (1/π) arccos( (x_T^l · x_T^{l+n}) / (||x_T^l||_2 ||x_T^{l+n}||_2) )` , (1)

其中 `||·||_2` 表示 L2 范数。为降低方差,我们报告了从 C4 数据集中采样的 256K tokens 上的平均距离。较小的 `d(x^l, x^{l+n})` 值表示两个表征之间的相似度更高,暗示变换有限。这样的层可以被视为冗余,因为它们的移除对模型的内部表征影响最小。理想情况下,每一层都应引入有意义的表征偏移,以充分利用模型容量 (Yanget al.,2023 (https://arxiv.org/html/2502.05795v5#bib.bib18); Gromovet al.,2024 (https://arxiv.org/html/2502.05795v5#bib.bib52))。

**实验结果:** (1) 在 Pre-LN LLMs 中剪枝深层会导致可忽略不计、有时甚至积极的性能变化,如图 2 (https://arxiv.org/html/2502.05795v5#S1.F2) 顶部所示。具体来说,图 2 (https://arxiv.org/html/2502.05795v5#S1.F2) (b)–(d) 揭示了一个广泛的深层范围——特别是第 18 层之后——可以在对性能影响最小的情况下被剪除。这表明 Pre-LN 架构中的深层贡献很小。

相似文章

Transformer之药

Reddit r/ArtificialInteligence

对Transformer架构在大型语言模型之外广泛影响的反思,包括对语言学、遗传学和因果建模的潜在影响,并将其意义与哈伯-博世法相提并论。

@yihong0618: 我今天中午按照顺序读大哥的文章,4 年前大哥还在照着吴恩达的课程一点一点学,在一篇的最后大哥写下了这段话,没想到 4 年过去了,大哥真的已经是在顶刊发论文的科研大牛,有点感慨。https://zhouyifan.net/2022/05/3…

X AI KOLs Timeline

作者感慨一位大哥从四年前跟着吴恩达课程学习到如今在顶刊发表论文的成长历程,并引用了一篇风格迁移论文讲解与PyTorch实现的博客。