通过决策表征转变理解层剪枝大型语言模型中的性能崩溃
摘要
本文通过引入决策表征指标,分析了层剪枝 LLM 中的性能崩溃现象,并确定了维持模型完整性所关键的“沉默期”。
arXiv:2605.07271v1 公告类型:新发布
摘要:层剪枝能有效降低大型语言模型(LLM)的计算成本,但往往会导致性能突然崩溃。现有的基于表征的分析方法难以解释这一机制。我们提议通过决策表征来研究剪枝问题。针对多项选择题任务,我们引入了两个指标——决策边界(Decision Margin)和选项频率(Option Frequency),以及一种迭代剪枝方法,以分析逐层的决策动态。我们的研究发现了一个剧烈的决策转变,将网络划分为两个阶段:沉默期(Silent Phase),此时模型尚无法预测正确答案;以及决定期(Decisive Phase),此时正确的预测逐渐显现。我们还发现,对决定期进行剪枝影响甚微,而对沉默期进行剪枝则会立即引发性能崩溃,这突显了沉默期对结构变化的极端敏感性。因此,我们得出结论,剪枝引发的崩溃源于对沉默期的破坏,导致关键的决策转变无法发生。
查看缓存全文
缓存时间: 2026/05/11 06:59
# 通过决策表征转变理解层剪枝大语言模型的性能崩溃
来源: https://arxiv.org/html/2605.07271
###### 摘要
层剪枝(Layer Pruning)能有效降低大语言模型(LLM)的计算成本,但往往引发突发的性能崩溃。现有的基于表征的分析难以解释这一机制。我们提出通过决策表征(decision representation)来研究剪枝问题。针对多项选择题,我们引入了两个指标:决策边界(Decision Margin)和选项频率(Option Frequency),以及一种迭代剪枝方法(Iterative Pruning)来分析逐层的决策动态。我们的研究发现存在一个尖锐的决策转变,将网络划分为两个阶段:沉默期(Silent Phase),模型此时尚无法预测正确答案;以及决定期(Decisive Phase),正确预测在此阶段出现。我们还发现,剪枝决定期影响甚微,而剪枝沉默期则会立即导致性能崩溃,凸显了其对结构变化的极端敏感性。因此,我们得出结论,剪枝引起的崩溃源于对沉默期的破坏,这阻止了关键决策转变的发生。
机器学习, ICML
## 1 引言
大语言模型(LLMs)展现出了卓越的能力,但由于其巨大的参数规模,带来了显著的部署挑战(Tian et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib21); Li et al., 2023 (https://arxiv.org/html/2605.07271#bib.bib12); Ashkboos et al., 2024 (https://arxiv.org/html/2605.07271#bib.bib2))。层剪枝(Men et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib15); Qiao et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib18); Wang et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib23))作为一种引人注目的无需训练的策略,已被用于缓解这些计算成本。然而,其实际效用往往受到“悬崖效应”的限制:在达到特定阈值之前,性能保持相对稳定,超过该阈值后则突然崩溃(见图 2 (https://arxiv.org/html/2605.07271#S1.F2)(上))。这种高度非线性的退化表明,模型的功能完整性依赖于某些尚未完全理解的具体结构属性。
参见图 1 标题:(上)随着剪枝率增加,沉默期与决定期的概念示意。(下)传统的一次性/全局层剪枝框架与我们提出的迭代剪枝(IP)方法的对比,后者作为一种分析探针,用于追踪决策水平的演化。参见标题 (a)
参见标题 (b)
参见标题 (c)
参见标题 (d)
参见标题 (e)
参见标题 (f)
图 2:(上)Llama3-8B、Llama2-7B 和 Qwen3-4B 在不同基准测试上的零样本准确率随剪枝率的变化函数。(下)在 Hellaswag 任务上,密集模型与 50% 剪枝模型的隐藏表征之间的基于 CKA 的相似度热力图。尽管性能急剧崩溃,深层的语义表征仍然 largely preserved(大部分保留),这表明崩溃并非由隐藏特征的丢失驱动。现有文献(Gromov et al., 2024 (https://arxiv.org/html/2605.07271#bib.bib8))主要将这种崩溃归因于逐层的功能局部化,认为剪枝破坏了关键的基础知识或高级推理模块。然而,这种以表征为中心的观点正日益受到实证证据的挑战。如图 2 (https://arxiv.org/html/2605.07271#S1.F2)(下)所示,我们的中心化核对齐(CKA)(Kornblith et al., 2019 (https://arxiv.org/html/2605.07271#bib.bib11))分析揭示了一种表征-性能的冲突:即使在性能完全崩溃的 50% 剪枝率下,剪枝模型的隐藏状态在几乎所有层上与原始密集模型保持了令人惊讶的高语义对齐。尽管功能失效,深层表征结构的这种持久性表明,内部特征相似度并不是任务级能力的良好代理。因此,一个根本性问题随之产生:如果高层隐藏表征大部分保持完好,是什么结构性的破坏导致了模型最终决策行为的突然崩溃?
为了回答这个问题,我们将焦点从隐藏表征转移到以决策为中心的视角。我们不再关注信息是如何编码的,而是研究随着数据穿过各层,决策是如何实际产生的。我们选择多项选择题进行研究,因为它们有明确的正确答案和固定的选项集。这使得追踪决策行为比在语义有效性难以量化的开放式生成中容易得多。我们引入决策边界(Decision Margin, DM),定义为真实选项与最可能的替代选项之间的概率差距。有趣的是,我们发现决策形成不是一个渐进的过程。相反,DM 在早期层中保持负值,并在特定深度(称为转变点)发生尖锐转变,在此之后,模型始终倾向于正确答案。
这种 abrupt(突然的)转变自然地将 LLM 划分为两个功能阶段:沉默期,模型尚未识别出正确响应;以及决定期,可靠的决策在此阶段出现,如图 1 (https://arxiv.org/html/2605.07271#S1.F1)(上)所示。为了进一步表征这些阶段,我们提出选项频率(Option Frequency, OF)来测量预测选项的*逐层分布*。在沉默期中,我们观察到严重的分布崩溃,无论输入如何,模型的预测都由单个选项主导。相反,决定期表现出平衡的分布,表明模型已摆脱内部偏差,形成了结构化的决策。
基于这一框架,我们研究层剪枝如何破坏这种微妙的决策结构。现有的剪枝方法通常同时移除层块(Men et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib15); Wang et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib23)),这混淆了不同阶段的效果,并掩盖了性能崩溃的精确机制。为了进行更细致的检查,我们采用迭代剪枝(Iterative Pruning, IP),这是一种贪婪的逐层移除策略。通过最小化每一步的结构扰动,IP 作为一种分析探针,允许我们逐步追踪不稳定性如何通过决策结构传播,并精确 pinpoint(定位)转变点丢失的时刻。
我们在多种 LLM(包括 LLaMA3-8B(Dubey et al., 2024 (https://arxiv.org/html/2605.07271#bib.bib7))、LLaMA2-7B(Touvron et al., 2023 (https://arxiv.org/html/2605.07271#bib.bib22))和 Qwen3-4B(Yang et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib30)))上的实验揭示了一条普遍的剪枝轨迹:贪婪的 IP 策略最初针对决定期内的层,因为它们具有显著的结构冗余。虽然模型在此阶段保持鲁棒,但一旦剪枝过程延伸到沉默期,就会发生突然的崩溃。我们发现,这些早中期层是决策过程的基础脚手架。移除它们,特别是在决定期层已经被剪枝之后,使模型没有足够的深度来实现必要的决策转变。直观地说,转变点被推至剪枝网络的终端层之外,导致决策边界永久为负。这种未能达到转变状态解释了为什么性能崩溃是一种结构阈值效应:模型不仅是在丢失信息,而且在架构上无法形成最终决策。
## 2 相关工作
### 2.1 大语言模型的层剪枝
层剪枝(Men et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib15); Qiao et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib18); Wang et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib23))是降低 LLM 计算和内存成本的有效策略。大多数现有方法为层分配重要性分数,并移除被认为不太关键的层,使用基于幅度的标准(Kim et al., 2024 (https://arxiv.org/html/2605.07271#bib.bib10))、基于损失的评估(Ma et al., 2023 (https://arxiv.org/html/2605.07271#bib.bib14))或知识保留机制,如通道恢复、流形引导融合(例如,MKA(Liu et al., 2024 (https://arxiv.org/html/2605.07271#bib.bib13)))和层折叠(例如,LaCo(Yang et al., 2024 (https://arxiv.org/html/2605.07271#bib.bib31)))。虽然这些方法旨在获得全局最优的剪枝模型,但我们的迭代剪枝框架则针对*局部最优性*,使得能够细粒度地分析逐层剪枝如何逐步重塑 LLM 中的决策结构。
### 2.2 解释中间表征
Logit Lens(Wang, 2025 (https://arxiv.org/html/2605.07271#bib.bib27); nostalgebraist, 2020 (https://arxiv.org/html/2605.07271#bib.bib16))和 Tuned Lens(Belrose et al., 2023 (https://arxiv.org/html/2605.07271#bib.bib3))范式研究了 LLM 如何逐步构建预测。虽然(Wang, 2025 (https://arxiv.org/html/2605.07271#bib.bib27))表明中间层通常包含最终输出的早期信号,(Alain & Bengio, 2016 (https://arxiv.org/html/2605.07271#bib.bib1))指出这些读数可能校准不佳。我们通过应用前头归一化(pre-head normalization)来缓解这一问题。我们发现的从沉默到决定的转变与关于诱导头(Induction Heads)(Olsson et al., 2022 (https://arxiv.org/html/2605.07271#bib.bib17))的机制可解释性研究一致,其中特定的电路形成触发了能力的突然跳跃。
参见标题 (a)
参见标题 (b)
参见标题 (c)
参见标题 (d)
参见标题 (e)
参见标题 (f)
参见标题 (g)
参见标题 (h)
参见标题 (i)
图 3:密集模型与剪枝(50% 比例)模型在 (a-c) Llama3-8B、(d-f) Llama2-7B 和 (g-i) Qwen3-4B 上的决策表征相似度比较分析。热力图显示深层决策语义的明显截断,表明剪枝引起的崩溃是未能达到深层决策领域的结构性故障。参见标题 (a)
参见标题 (b)
参见标题 (c)
参见标题 (d)
参见标题 (e)
参见标题 (f)
参见标题 (g)
参见标题 (h)
参见标题 (i)
图 4:在不同模型和任务下,渐进式剪枝过程中的逐层决策边界(DM)动态。“DM 跳跃”表征了从沉默期(DM<0)到决定期(DM>0)的转变。请注意,性能崩溃恰好发生在剪枝侵入沉默期脚手架时,阻止了正边界的形成。
## 3 方法
本节形式化了用于研究层剪枝期间 LLM 决策动态的分析框架。我们首先介绍两个决策级指标:决策边界(DM),量化模型的判别置信度;以及选项频率(OF),追踪预测的分布稳定性。然后我们提出迭代剪枝(IP),这是一种贪婪的分析策略,旨在随着网络深度的逐步减少,追踪这些指标的结构演变。
### 3.1 决策边界(DM)
为了捕捉跨层的决策涌现,我们定义了决策边界(DM)。不同于监测绝对概率的传统指标,DM 衡量正确答案与其最有力的干扰项之间的相对分离程度,为模型的判别确定性提供了直接代理。形式上,对于给定层 $l$ 和一组 $N$ 个多项选择样本,决策边界定义为:
$$
\mathrm{DM}(l) = \frac{1}{N} \sum_{i=1}^{N} \left( z_{i,c} - \max_{j \neq c} z_{i,j} \right), \quad (1)
$$
其中 $z_{i,c}$ 表示样本 $i$ 的正确选项的 logit,$z_{i,j}$ 表示第 $j$ 个竞争选项的 logit。
为了在每一层计算 $\mathrm{DM}(l)$,我们在 logit-lens 框架中使用语言模型头将中间隐藏状态投影到词汇空间。为了避免跨层分布偏移引起的尺度扭曲,我们在投影之前首先将模型的最终前头归一化层(例如,RMSNorm 或 LayerNorm)应用于中间表征。这种归一化对齐确保所有深度的 logit 都在一致的 feature scaling(特征缩放)机制下产生,使得逐层 DM 值可直接比较。
$\mathrm{DM}(l)$ 的符号作为功能指标:正值表示正确选项已成为领先者,而负值表示模型仍受不正确候选项的主导。我们利用这一指标将模型划分为两个领域:沉默期(持续负 DM)和决定期(持续正 DM)。DM 穿过零轴的层被识别为转变点。
### 3.2 选项频率(OF)
虽然 DM 总结了正确性,但它并未揭示模型错误背后的结构。因此,我们引入选项频率(OF)来表征候选空间中预测选择的多样性和偏差。对于层 $l$ 和 $M$ 个可能选项,选项 $j$ 的 OF 定义为:
$$
\mathrm{OF}(l, j) = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}(y_i = j), \quad (2)
$$
其中 $y_i$ 是模型对样本 $i$ 预测的选项索引,$\mathbb{I}(\cdot)$ 是指示函数。
通过追踪 OF 分布的演变,我们可以区分“不确定但平衡”的模型和“陷入有偏崩溃”的模型。这使我们能够观察沉默期的内部偏差如何逐渐消散进入决定期的结构化预测。
### 3.3 迭代剪枝(IP)
为了实现对结构故障的细粒度观察,我们提出迭代剪枝(IP),这是一种贪婪的逐步层移除策略。不同于优化最终性能的全局剪枝方法,IP 作为一种分析探针,用于监控每次单独层的移除如何移动转变点。
层重要性。在每一步,IP 使用块影响(Block Influence, BI)(Men et al., 2025 (https://arxiv.org/html/2605.07271#bib.bib15))分数评估所有剩余层的功能贡献。为确保独立性,BI 在每次迭代中重新计算。给定层 $l$ 和 $l+1$ 的隐藏表征,BI 分数定义为:
$$
\mathrm{BI}_l = \sum_{b=1}^{B} \sum_{s=1}^{S} \left( 1 - \mathrm{clip}_{[0,1]} \left( \cos \left( \mathbf{h}^{(l)}_{b,s}, \mathbf{h}^{(l+1)}_{b,s} \right) \right) \right), \quad (3)
$$
其中 $\mathbf{h}^{(l)}_{b,s}$ 是第 $b$ 个序列中第 $s$ 个 token 的表征。较低的 BI 分数表示最小的表征变化,将该层识别为移除候选者。
贪婪移除。在迭代 $t$,移除具有最小 BI 分数的层 $l^\star$:
$$
l^\star = \arg \min_{l \in \mathcal{L}^{(t)}} \mathrm{BI}_l^{(t)}, \quad (4)
$$
其中 $\mathcal{L}^{(t)}$ 是步骤 $t$ 中剩余的层集合。模型会立即重新评估相似文章
一层解释所有:理解大型语言模型中的大规模激活现象
本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。
修剪不安全票:一种资源高效的框架,用于更安全、更鲁棒的大型语言模型
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。
论大语言模型的固有可解释性:设计原则和架构调查
一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。
仅靠拟合是不够的:极低量化大语言模型中的平滑性
本文探讨了极低量化大语言模型中的平滑性退化问题,认为除了数值精度外,保持平滑性对于维持模型性能至关重要。
应用于大语言模型的可解释性研究:对比分析
一项对比研究,评估了三种可解释性技术(Integrated Gradients、Attention Rollout、SHAP)在微调 DistilBERT 模型上的表现,用于情感分类任务,重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。