Dominant-Layer ZO:单一层主导LLMs的零阶微调
摘要
本文揭示了LLM的零阶微调主要由单个解码层主导,该层可通过激活异常值识别,并且仅微调该层即可达到或超越全模型微调的效果,同时带来高达4.52倍的加速。
arXiv:2606.05516v1 公告类型:新
摘要:零阶(ZO)优化仅通过前向传播即可实现对大型语言模型(LLM)的内存高效微调,但尚不清楚有用的适应性如何在层间分布。在这项工作中,我们揭示了一个令人惊讶的现象:ZO微调被单个解码层强烈主导。在多个LLM系列及下游任务中,仅微调该主导层始终匹配甚至超越全模型ZO微调的性能。我们进一步证明,主导层是任务无关但模型特定的,并且可以在训练前通过仅推理的激活异常值分析进行识别。具体来说,主导层始终与预训练模型中的第一个激活异常值层一致。为了解释这一现象,我们分析了扰动效应如何在ZO优化下传播。我们发现主导层结合了两个关键特性:高扰动敏感性和在残差流中的早期位置,使得扰动引发的影响能够通过后续剩余解码层传播和累积。因此,该层在仅前向更新下产生异常强大且稳定的优化信号。在LLaMA2-7B和Qwen3-8B上跨九个基准的大量实验表明,主导层ZO微调在平均性能上优于全模型MeZO和基于LoRA的ZO微调,同时实现高达4.52$\times$的训练加速。
查看缓存全文
缓存时间: 2026/06/05 08:11
# 主导层ZO:单层主导大语言模型的零阶微调
**来源:** https://arxiv.org/html/2606.05516
Wanhao Yu¹, Ziyan Wang¹, Zheng Wang², Abeer Matar Almalky³, Yihang Zuo⁴, Shuteng Niu⁵, Sen Lin², Adnan Siraj Rakin³, Deliang Fan⁴, Li Yang¹†
¹ 北卡罗来纳大学夏洛特分校
² 休斯顿大学
³ 纽约州立大学宾汉姆顿分校
⁴ 亚利桑那州立大学
⁵ 梅奥诊所人工智能与信息学系
###### 摘要
零阶(ZO)优化能够仅通过前向传播实现大语言模型(LLM)的内存高效微调,但关于不同层上的有效适配分布情况尚不明确。本工作中,我们揭示了一个令人惊讶的现象:ZO微调显著地由单个解码层主导。在多种LLM家族和下游任务中,仅微调这一主导层就能一致地匹配甚至超越全模型的ZO微调性能。我们进一步证明,该主导层与任务无关,但与模型相关,并且可以通过一个简单的、仅需推理的激活异常值分析在训练前识别。具体来说,该主导层始终与预训练模型中的第一个激活异常层一致。为解释这一现象,我们分析了在ZO优化下扰动效应如何传播。我们发现主导层结合了两个关键特性:高扰动敏感性和在残差流中的较早位置,这使得由扰动引起的效应能够通过后续的解码层传播并累积。因此,在前向更新过程中,该层产生了不成比例的强且稳定的优化信号。在LLaMA2-7B和Qwen3-8B上跨越九个基准的广泛实验表明,主导层ZO微调相比全模型MeZO和基于LoRA的ZO微调平均性能有所提升,同时实现了高达4.52倍的训练加速。††footnotetext:†通讯作者。
## 1 引言
零阶(ZO)优化最近已成为一种有前景的大语言模型(LLM)内存高效微调方法[39 (https://arxiv.org/html/2606.05516#bib.bib24)]。与通过反向传播计算一阶(FO)梯度不同,ZO方法仅利用前向评估来估计更新方向,通常通过测量随机参数扰动下的损失差异来实现[29 (https://arxiv.org/html/2606.05516#bib.bib17)]。基于这一思想,MeZO展示了预训练LLM能够在接近推理级内存的条件下进行微调[22 (https://arxiv.org/html/2606.05516#bib.bib1)]。后续研究通过稀疏参数扰动[21 (https://arxiv.org/html/2606.05516#bib.bib2),14 (https://arxiv.org/html/2606.05516#bib.bib25)]、低秩或结构化扰动空间[6 (https://arxiv.org/html/2606.05516#bib.bib27),20 (https://arxiv.org/html/2606.05516#bib.bib29)]以及更稳定或更快的优化器设计[5 (https://arxiv.org/html/2606.05516#bib.bib51),9 (https://arxiv.org/html/2606.05516#bib.bib5)]进一步改进了收敛性和准确性。尽管取得了这些进展,现有方法大多将ZO微调视为一个全模型过程,而未解释不同层之间有效适配的差异。这留下了一个基本问题:在仅进行前向更新的情况下,LLM结构中实际进行有效优化的位置在哪里?
在本工作中,我们揭示了一个意外现象:有效的ZO适配并非广泛分布于各层,而是由单个层主导。为研究此现象,我们首先在多种LLM和下游任务上进行了系统性的逐层分析。在此分析中,我们在相同ZO更新条件下每次微调一个层,同时冻结所有其他层。结果显示了一种高度不均匀的逐层模式:大多数层相比不进行微调的基线几乎没有改进,而单个层始终能达到与全模型ZO微调相当甚至超越的性能。我们将这个层称为**主导层**。此外,主导层是**与任务无关但与模型相关的**:对于给定的LLM,同个层在不同任务上始终占据主导,而不同模型家族的主导层索引可能不同。相比之下,匹配的一阶梯度微调中,改进在各层之间更均匀分布,没有单个层能持续主导。这种对比表明,主导层现象是ZO优化独有的,其遵循的逐层适配模式与一阶(FO)微调不同。
我们进一步研究了如何高效识别这一主导层,而无需进行昂贵的逐层ZO微调。受到LLM中已知的**激活异常值**现象[11 (https://arxiv.org/html/2606.05516#bib.bib34),34 (https://arxiv.org/html/2606.05516#bib.bib35)]的启发——即少量激活在特定维度索引上表现出极大的幅度,且与输入无关[30 (https://arxiv.org/html/2606.05516#bib.bib13),2 (https://arxiv.org/html/2606.05516#bib.bib16)]——我们发现主导层与激活异常值首次出现的层对齐。基于这一观察,我们设计了一个简单的、仅需推理的选择方法:给定一个小型校准集,我们对预训练LLM执行前向传播,测量逐层激活统计量,并选择第一个表现出明显异常值模式的层。这种方法避免了穷举式的逐层ZO微调,并在训练开始前就识别出主导层。
最后,我们解释了为什么在ZO微调下会出现这一主导层。与一阶优化不同,ZO仅根据随机扰动造成的最终损失差异来估计更新。因此,当某个层的扰动对前向计算产生更强影响时,它对ZO微调的贡献更大。我们发现主导层满足这一条件,因为它出现在模型的早期,并与第一个激活异常层对齐。该层的扰动进入残差流并影响所有后续层的激活。这种传播使得扰动效应在到达最终损失之前被反复变换和累积,从而导致更大的最终损失变化,并为ZO更新提供更稳定的前向信号。
ZO微调中主导层的发现具有实际和概念上的双重意义。从实践角度看,由于大多数有效的ZO适配来自于主导层,ZO微调可以在保持全模型性能的同时显著降低训练成本。更重要的是,我们希望这一发现能为未来的ZO方法设计提供见解,例如明确考虑各层中有效更新的来源,或者使非主导层的更新更加有效。
我们的贡献可总结如下:
- • 我们发现了ZO微调中的主导层现象:仅微调单个层即可恢复,有时甚至超越全模型ZO微调的性能。
- • 我们证明主导层是与任务无关但与模型相关的,并且可以在训练前通过第一个激活异常层高效识别。
- • 我们解释了为什么主导层在ZO微调下学习良好:残差连接传播放大了其扰动效应,导致更大的最终损失变化和更强的ZO更新信号。
- • 我们在两个LLM,LLaMA2-7B和Qwen3-8B上,跨越九个下游任务进行了大量实验,验证了主导层ZO微调。与MeZO相比,主导层ZO微调将平均分数提升了0.86%(相对于全模型)和0.61%(相对于基于LoRA的ZO微调[16 (https://arxiv.org/html/2606.05516#bib.bib31)])。此外,相对于全模型MeZO,它实现了1.12倍至4.52倍的ZO微调加速。
## 2 相关工作
#### 零阶LLM微调。
零阶(ZO)优化利用函数值而非显式反向传播的梯度来估计更新方向,使用SPSA等方法构成了其经典基础[29 (https://arxiv.org/html/2606.05516#bib.bib17),23 (https://arxiv.org/html/2606.05516#bib.bib19)]。最近,MeZO[22 (https://arxiv.org/html/2606.05516#bib.bib1)]首次展示了LLM可以以推理级内存进行下游任务微调,使ZO成为大型模型替代反向传播的内存高效方案。在实践中,MeZO通过对模型参数施加随机扰动并测量两次前向传播之间的损失差异来估计梯度,而无需存储用于反向传播的中间激活。为了降低梯度估计方差并加速收敛以实现更准确和高效的微调,后续工作主要沿三个方向改进了ZO微调。首先,一条工作路线通过稀疏参数选择[21 (https://arxiv.org/html/2606.05516#bib.bib2)]、可转移静态稀疏度[14 (https://arxiv.org/html/2606.05516#bib.bib25)]或随机逐层稀疏更新[33 (https://arxiv.org/html/2606.05516#bib.bib4)]来缩小可训练或受扰动参数范围。其次,另一条工作路线通过设计信息量更大的扰动方向来降低梯度估计方差,包括LOZO中的低秩方向[6 (https://arxiv.org/html/2606.05516#bib.bib27)]、SubZero中的随机子空间[37 (https://arxiv.org/html/2606.05516#bib.bib28)]、AGZO中的激活衍生方向[20 (https://arxiv.org/html/2606.05516#bib.bib29)]以及HiZOO中的曲率感知方向[41 (https://arxiv.org/html/2606.05516#bib.bib26)]。第三,优化器层面的方法修改了更新规则以改善优化速度和稳定性,包括DiZO中的逐层校准[31 (https://arxiv.org/html/2606.05516#bib.bib8)]、HELENE中的裁剪和退火[40 (https://arxiv.org/html/2606.05516#bib.bib6)]、FZOO中的更快估计器[9 (https://arxiv.org/html/2606.05516#bib.bib5)]以及ZO Fine-tuner中的学习更新规则[38 (https://arxiv.org/html/2606.05516#bib.bib7)]。与这些工作不同,我们的工作研究的是模型内部有效ZO适配发生的位置,并表明它由单个层主导。
#### 选择性逐层微调。
逐层微调和层重要性分析在一阶LLM适配中已被广泛研究。参数高效微调方法如adapters和LoRA[15 (https://arxiv.org/html/2606.05516#bib.bib30),16 (https://arxiv.org/html/2606.05516#bib.bib31)],以及内在维度分析[1 (https://arxiv.org/html/2606.05516#bib.bib32)]表明,有效的适配往往存在于比全模型微调所暗示的更小的更新空间中。最近的方法进一步利用了逐层重要性:LISA选择性地冻结中间层[24 (https://arxiv.org/html/2606.05516#bib.bib33)],ILA识别了对对齐至关重要的层[27 (https://arxiv.org/html/2606.05516#bib.bib10)],IST/OwLore根据层重要性或异常值加权采样更新选定层[36 (https://arxiv.org/html/2606.05516#bib.bib12),19 (https://arxiv.org/html/2606.05516#bib.bib11)]。相比之下,据我们所知,我们的工作是首次系统分析逐层微调在ZO优化下如何表现。
#### LLM中的异常激活。
异常激活是LLM中的一个常见现象,由LLM.int8()[11 (https://arxiv.org/html/2606.05516#bib.bib34)]首次强调为模型压缩的一个独特挑战:少量激活维度相对于激活分布的平均值表现出极大的幅度。一个重要的属性是,这些异常值在不同输入下始终出现在相同的激活维度上,这表明它们源自模型结构而非特定输入样本[30 (https://arxiv.org/html/2606.05516#bib.bib13),2 (https://arxiv.org/html/2606.05516#bib.bib16)]。基于这一观察,一系列工作研究如何解决激活异常值以实现高效的模型压缩,特别是针对量化和剪枝。例如,LLM.int8()隔离异常特征以实现混合精度推理[11 (https://arxiv.org/html/2606.05516#bib.bib34)],而SmoothQuant将激活异常难度迁移到权重中,以实现准确的低位量化[34 (https://arxiv.org/html/2606.05516#bib.bib35)]。
## 3 ZO微调中的主导层:发现与识别
### 3.1 预备知识:零阶优化
遵循MeZO[22 (https://arxiv.org/html/2606.05516#bib.bib1)]在ZO微调LLM中采用的经典两点SPSA估计器[29 (https://arxiv.org/html/2606.05516#bib.bib17)],我们从两次扰动损失评估中估计梯度。在迭代\(t\)时,参数为\(\theta_t\),小批量数据为\(\mathcal{B}_t\),我们采样随机扰动向量\(z_t\),并计算ZO梯度估计为:
\[
\widehat{g}_t = \frac{\mathcal{L}(\theta_t + \epsilon z_t; \mathcal{B}_t) - \mathcal{L}(\theta_t - \epsilon z_t; \mathcal{B}_t)}{2\epsilon}z_t,
\tag{1}
\]
参数更新为:
\[
\theta_{t+1} = \theta_t - \eta_t \widehat{g}_t,
\tag{2}
\]
其中\(\epsilon\)是扰动尺度,\(\eta_t\)是学习率。
### 3.2 实证发现:ZO微调中存在一个主导层
我们首先通过隔离每一层的贡献来分析ZO微调在各层上的行为。具体来说,基于MeZO,我们在冻结所有其他层的同时每次只微调一个层,并对每一层使用相同的ZO更新配置。我们使用LLaMA2-7B[32 (https://arxiv.org/html/2606.05516#bib.bib49)]在多个任务上进行此项研究,包括WSC[18 (https://arxiv.org/html/2606.05516#bib.bib44)]、COPA[26 (https://arxiv.org/html/2606.05516#bib.bib46)]和DROP[12 (https://arxiv.org/html/2606.05516#bib.bib48)],涵盖分类、多项选择和生成场景。如图1 (https://arxiv.org/html/2606.05516#S3.F1)所示,我们有两个关键发现:(1) ZO微调在各层之间高度不均匀。各层性能差异显著,大多数层相对于不微调的基线几乎没有改进。例如,在COPA数据集上,只有很小一部分层(LLaMA2-7B的32层中的4层)在微调后提高了准确率,而其余层保持接近基线。(2) 在ZO微调中**明显出现了一个主导层**。某个特定层的性能大幅高于所有其他层,并能匹配甚至超越全模型ZO微调。我们将该层称为**主导层**。此外,我们发现这一层具有两个重要性质。首先,它是**与任务无关的**:对于给定的LLM模型,同一层在不同任务上始终占据主导。例如,在LLaMA2-7B中,层1在所有三个任务上都取得了最佳性能。其次,它似乎是**与模型相关的**:不同模型家族可能具有不同的主导层索引。例如,LLaMA2-7B的主导层是层1,而Qwen3-8B的主导层是层6,其逐层分析见附录。
参见图注(a) MeZO逐层结果。
参见图注(b) FO逐层结果。
**图1:Llama2-7B在三个代表性数据集上的逐层微调结果。**
为了进一步检验这种行为是否为ZO所特有,我们在相同逐层设置下重复了匹配的一阶(FO)微调实验。相似文章
不要让LLM说话,直接探测它(8分钟阅读)
本文介绍了一种技术,该技术从LLM的最后一个提示标记处提取隐藏状态,无需文本生成即可进行分类,使用一个小型MLP读取模型的内部决策,从而实现快速且廉价的零样本分类器。
跳过一层还是循环它?学习LLM中的Program-of-Layers
本文介绍了一种名为Program-of-Layers(PoLar)的方法,它允许大语言模型根据每个输入动态地跳过或循环预训练层,从而在固定深度推理的基础上提高准确性和效率。
一层解释所有:理解大型语言模型中的大规模激活现象
本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。
基于强化学习的经验驱动式LLM动态退出策略
介绍了LEDE,一个利用离线强化学习动态选择退出层和推测长度的框架,用于LLM的自推测解码,相较于自回归解码实现了高达2.7倍的加速。
水平扩展LLM:无需权重修改的隐藏状态耦合 [R]
残差耦合(RC)使用轻量级学习线性桥接器并行连接冻结的语言模型,实现无需权重修改的水平扩展。与MoE相比,它最多可将困惑度降低80.7%,并在TruthfulQA上提升9.1个百分点的准确率。