冻结深层,训练浅层:持续预训练中可解释的层分配方法

arXiv cs.CL 论文

摘要

本文提出了 LayerTracer,这是一个用于持续预训练中参数层分配的可解释框架。研究表明,在冻结深层网络的同时仅训练浅层,其效果优于全参数微调。这为资源受限团队优化大语言模型提供了一种低成本且可操作的策略。

arXiv:2605.11416v1 公告类型:新论文 摘要:选择性层更新对于大语言模型(LLM)的低成本持续预训练至关重要,但由于缺乏可解释的指导,确定哪些层应当冻结、哪些层应当训练仍然是一个经验性的黑盒问题。为了解决这一问题,我们提出了 LayerTracer,这是一种与架构无关的诊断框架,通过定位任务执行位置并量化层敏感度,揭示了各层表示及稳定性的演变模式。分析结果表明,深层网络作为任务执行的关键区域,对破坏性更新保持较高的稳定性。基于这一发现,我们进行了三项可控的持续预训练实验,以比较不同的冻结-训练策略,结果表明在 C-Eval 和 CMMLU 基准测试中,“训练浅层并冻结深层”的策略始终优于全参数微调以及相反的分配策略。我们还展示了一个混合模型的案例研究,验证了在深层网络中放置高质量的预训练模块能有效保留模型的固有知识。这项工作为资源受限团队提供了一种低成本且可解释的解决方案,为持续预训练和混合模型构建中的逐层参数分配提供了可操作的指导。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:13

# 冻结深层,训练浅层:持续预训练中可解释的层分配策略

来源:https://arxiv.org/html/2605.11416
吴宇航1,2,刘钦元1,赵秋阳1,姜波1,杨江峰1,丛庆伟1
1 中国电子科技集团南湖研究所
2 上海工程技术大学电子电气工程学院

###### 摘要

选择性逐层更新对于大语言模型(LLMs)的低成本持续预训练至关重要,然而,由于缺乏可解释的指导,确定哪些层应冻结或训练仍然是一个经验性的黑盒问题。为了解决这一问题,我们提出了 LayerTracer,这是一个与架构无关的诊断框架,通过定位任务执行位置和量化层敏感度,揭示逐层表征的演化模式和稳定性。分析结果表明,深层在任务执行中起关键作用,并且对破坏性更新保持高稳定性。基于这一发现,我们进行了三次受控的持续预训练试验,比较不同的冻结-训练策略,证明在 C-Eval 和 CMMLU 基准测试中,训练浅层同时冻结深层始终优于全参数微调以及相反的分配策略。我们还展示了一个混合模型的案例研究,验证了在深层放置高质量预训练模块能有效保留模型固有知识。这项工作为资源受限团队提供了一种低成本且可解释的解决方案,为持续预训练和混合模型构建中的逐层参数分配提供了可操作的指导。

**冻结深层,训练浅层:持续预训练中可解释的层分配策略**

吴宇航1,2,刘钦元1,赵秋阳1,姜波1,杨江峰1,丛庆伟1††thanks:对应作者。
1 中国电子科技集团南湖研究所
2 上海工程技术大学电子电气工程学院

参见图注
**图 1:** 在 CEval 数据集Huanget al.\(2023\)上,使用 Qwen3-710M 架构比较三种逐层预训练策略。(1)(冻结深层/训练浅层)取得了最佳性能,其次是(2)(全量训练),而(3)(冻结浅层/训练深层)结果最差。

## 1 引言

随着大语言模型(LLMs)的快速发展,以 GPTOpenAI \(2023\)、LLaMATouvronet al.\(2023b,a\);Dubeyet al.\(2024\) 和 QwenTeam \(2024b,a\);Yanget al.\(2025a\) 为代表的通用领先模型在语义理解、逻辑推理和生成方面取得了重大突破,从而加速了工业界的应用和工程部署Zhaoet al.\(2023\);Liuet al.\(2023\);Abo El\-Enenet al.\(2025\);Wuet al.\(2025\)。然而,这些模型的卓越性能严重依赖海量高质量预训练语料库和大规模计算集群,造成了巨大的技术壁垒Baiet al.\(2023\);Touvronet al.\(2023b\)。对于计算能力和数据储备有限的中小型团队来说,从头预训练通用模型在很大程度上是不可行的。因此,垂直领域建模的主流范式应运而生。这种方法利用开源预训练模型的堆叠解码器层,通过冻结部分解码器层,仅训练剩余的 native 层以及新添加的自定义层。结合高质量、低预算的领域适应持续预训练数据,该策略能够以最小的计算和数据成本快速部署具有商业可行性的垂直领域模型Baoet al.\(2023\);Chenet al.\(2023b\);Roziereet al.\(2023\);Chenet al.\(2023a\);Labraket al.\(2024\)。

尽管这种方法确立了标准化的流程,但它存在一个关键局限性:在持续预训练期间,缺乏针对逐层冻结-训练分配的可解释指导。因此,中小型团队在决定冻结或训练哪些层时,不得不依赖经验启发式方法,使得分配过程 largely 不透明。这种试错依赖往往导致预训练知识的不可取覆盖和性能波动,同时大幅增加计算成本。如图1所示,冻结层和可训练层的具体安排 critically 决定了收敛稳定性和最终性能。因此,揭示各层之间的功能分化模式并推导可操作的冻结-训练规则成为当务之急。具体而言,我们旨在解决以下两个研究问题:

- **RQ1:** 预训练模型中各层的功能分化模式是什么?
- **RQ2:** 这些模式如何为持续预训练提供实用的逐层冻结/训练分配策略?

参见图注
**图 2:** Qwen3 模型和 Qwen3.5 模型的架构。Qwen3 采用单一架构,而 Qwen3.5 是混合架构,全注意力与线性注意力的比例为 3:1。

然而,现有研究在持续预训练的逐层参数分配方面提供的指导有限。虽然先前的层探测研究Belinkov \(2022b\);Gurneeet al.\(2023\);Juet al.\(2024\);Xiaoet al.\(2025\);Eisenstadtet al.\(2025\);Zhanget al.\(2026\) 和参数高效微调方法Baoet al.\(2023\);Liuet al.\(2023\) 对内部模型动态和微调策略提供了有价值的见解,但它们主要关注解释模型行为或特定任务的微调,而非产生用于层冻结-训练决策的可操作规则。更重要的是,很少有现有工作开发定量范式来表征内在的逐层属性,导致缺乏可解释的原则来解决核心研究问题 RQ1 和 RQ2。

为了解决这些问题,我们提出了 LayerTracer,这是一个用于持续预训练中逐层冻结/训练分配的诊断框架。它量化了两个核心指标:**任务粒子(Task Particle, TP)** 识别任务概率发生有意义相对位移的层,标记任务证据主动整合的位置;**逐层敏感度(Layer-wise Sensitivity, LS)** 测量受控扰动下连续层之间 Jensen-Shannon 散度Lin \(1991\) 的相对变化,捕捉对破坏性更新敏感的区域。在 Qwen3 系列中,我们观察到一个一致的结果:浅层对扰动表现出更高的敏感度,而深层则整合任务证据并稳定执行。基于这一发现,我们推导出一条实用的分配规则:冻结深层预训练层,训练浅层。我们通过三次受控的持续预训练实验验证了这一规则,并辅以混合架构案例研究,以模拟其在资源受限工业场景中的实用价值。结果表明,我们的“训练浅层/冻结深层”策略相比反向分配取得了显著的相对提升,在 C-EvalHuanget al.\(2023\) 和 CMMLULiet al.\(2024\) 上平均提升了 15.72%。

## 2 相关工作

### 2.1 LLM 架构的演进

TransformerVaswaniet al.\(2017\) 仍然是现代基础模型OpenAI \(2023\);Touvronet al.\(2023a,b\);Dubeyet al.\(2024\);Yanget al.\(2025a\) 的主要骨干。为了克服自注意力机制的可扩展性瓶颈,人们提出了高效替代方案,如状态空间模型(State Space Models)Gu and Dao \(2024\);Dao and Gu \(2024\)、线性注意力(Linear Attention)Ahnet al.\(2024\) 和 GatedDeltaNetYanget al.\(2025b\),从而诞生了如 JambaLieberet al.\(2024\) 和 Qwen3.5Team \(2025\) 这样的混合系统,如图2所示,它们交错使用全注意力层和高效层。这种设计通过冻结预训练基础层同时调整轻量级模块,实现了低成本的领域适应Baoet al.\(2023\);Chenet al.\(2023b\);Roziereet al.\(2023\);Chenet al.\(2023a\);Labraket al.\(2024\)。然而,逐层冻结-训练决策仍然纯粹是启发式的。如果没有定量和可解释的指导,不当的分配很容易破坏知识连贯性并降低鲁棒性,特别是在脆弱的混合架构中。

### 2.2 逐层表征分析

逐层可解释性已从早期的语言探测Pimentelet al.\(2020\);Belinkov \(2022a\);Youssefet al.\(2023\) 发展到先进的机制分析,后者定位任务关键组件和知识边界Gurneeet al.\(2023\);Menget al.\(2022\);Gevaet al.\(2021\);Juet al.\(2024\);Xiaoet al.\(2025\)。密切相关的是 logits/tuned lens、激活修补和因果追踪技术Menget al.\(2023\);Hernandezet al.\(2024\);Liuet al.\(2024\),它们通过 LM head 投影中间状态或干预激活来揭示内部动态。然而,这些工作侧重于事后解释,而非可操作的指导。它们缺乏衡量层鲁棒性的定量指标,也无法直接推广到混合模型。尚无先前的框架统一用于持续预训练的任务定位和敏感度测量。

### 2.3 参数高效适配与分配

参数高效微调方法如 LoRAHuet al.\(2021\)、AdaLoRAZhanget al.\(2023\) 和 DCFTZhanget al.\(2025\) 优化微调的逐层分配,并扩展到通过 RLHFSchulmanet al.\(2017\);Rafailovet al.\(2023\);Guoet al.\(2025\) 进行指令微调和对齐。然而,这些方法依赖任务特定的梯度或标记数据,使其不适合原始文本上的无监督持续预训练。现有策略也忽略了内在的层稳定性,并且无法推广到混合架构。这产生了对无需梯度、可解释诊断工具以指导原则性层分配的迫切需求。

参见图注
**图 3:** LayerTracer 框架概览。(a)基线投影:每一层的隐藏状态通过共享的 LM head 投影以获得目标 token 概率 $P_t(l)$,其中 $t^*$ 选自最终分布 $P$。(b)任务粒子:我们计算连续层之间的相对概率位移 $\mathrm{Ratio}(l)$。满足 $\mathrm{Ratio}(l) > 0$ 的层形成执行区间,标记任务证据主动整合的深度。(c)逐层敏感度:我们在第 $l$ 层应用针对上下文的掩码扰动,并计算相邻层之间 JS 散度的相对波动 $\Delta\mathrm{JS}(l)$,识别对参数更新和信息流中断高度敏感的区域。

## 3 方法

为了回答本文提出的 RQ1 和 RQ2,本节提出了一个名为 LayerTracer 的分层分析框架。LayerTracer 框架的概览如图3所示。

### 3.1 预备知识

我们首先定义用于逐层分析的统一符号。输入遵循复合任务结构 $t = s_1 \oplus s_2$,其中 $s_1$ 表示上下文示例,$s_2$ 表示查询输入。给定此类结构化输入,模型输出一系列隐藏状态 $\{h_1, h_2, ..., h_N\}$,其中 $h_l$ 表示第 $l$ 层的隐藏状态。所有逐层隐藏状态都通过共享的最终层 LM head 投影到词表空间,确保跨层一致的分布校准和受控变量。

最终输出概率分布 $P$ 是通过将最后一层的隐藏状态 $h_N$ 通过共享 LM head 投影获得的。我们将目标 token $t^*$ 定义为 $P$ 中概率最大的 token。该 token 由模型自身的最终预测决定,而非外部标签,用于追踪模型首选答案在各层中的浮现过程。设 $P_t(l)$ 表示由共享 LM head 投影的隐藏状态 $h_l$ 导出的 $t^*$ 的概率。为简洁起见,我们在后续分析中将 $P_t(l)$ 称为任务概率,并将具有有意义 $P_t(l)$ 位移的层集合称为任务证据整合区。对于在第 $l$ 层应用的掩码扰动,我们仅掩码上下文 $s_1$,同时保持查询 $s_2$ 不变,并用 $Q(l)$ 表示扰动后的最终输出分布。两个分布 $P$ 之间的 Jensen-Shannon 散度...

相似文章

面向大型语言模型归因引导的持续学习

arXiv cs.LG

本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。