小型LLM:剪枝与从头训练

arXiv cs.LG 论文

摘要

本文实证比较了剪枝与从头训练小型语言模型的差异,发现在有限token预算下剪枝具有明显优势,但随着训练规模扩大,优势逐渐减小,尤其是在粗粒度剪枝情况下。

arXiv:2606.14150v1 公告类型:新 摘要:剪枝有望成为快速获得强大小型语言模型的捷径。在本工作中,我们通过使用六种涵盖深度、宽度和稀疏粒度的剪枝方法,在两种受控的token匹配设置下,对Llama-3.1-8B进行0.5至0.8剪枝比例的剪枝,来验证这一前景。(1) 在相同的训练token预算下,剪枝初始化始终优于随机初始化。这表明父模型提供了一个强大的起点,尽管随着训练token预算增加和剪枝比例上升,优势逐渐缩小,并在我们研究的最高剪枝比例下几乎消失。(2) 当从头训练获得完整管道消耗的全部token预算时,细粒度剪枝仍保持优势,而较粗粒度的结构化剪枝则可能被追平或超越。这表明父模型传递了额外训练token单独无法完全恢复的知识,但仅限于细粒度。综合来看,我们的结果给出了明确的建议:当手头有大型预训练模型且训练token预算有限时,剪枝优于从头训练;当训练预算不受限时,对于较粗剪枝,从头训练可能具有竞争力,因此大型预训练父模型并非总是必要的。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:11

# 小型LLM:剪枝 vs. 从头训练
来源:https://arxiv.org/html/2606.14150
小型LLM:剪枝 vs\. 从头训练

Yufeng Xu¹,²,Taiming Lu¹,Kunjun Li¹,Jiachen Zhu²,Mingjie Sun³,Zhuang Liu¹

¹普林斯顿大学,²纽约大学,³卡内基梅隆大学

参见标题参见标题

参见标题参见标题

图1:**通过剪枝初始化**相对于**随机初始化**提供了显著优势,但这种优势会随着训练的持续而减弱。**左图**:在相同的训练 token 预算下,剪枝初始化优于随机初始化,尽管优势随训练时间延长而减小。**右图**:当随机初始化基线使用剪枝全过程所用的完整 token 预算进行训练时,它与剪枝替代方案相当。总体而言,剪枝是获得强大小型模型的捷径,但其优势会随着训练规模扩大而减弱。**摘要**

- 剪枝承诺了一条获得强大小型语言模型的捷径。在这项工作中,我们通过剪枝 Llama-3.1-8B,采用 0.5–0.8 的剪枝率,并应用六种跨深度、宽度和稀疏粒度的剪枝方法,在两种受控的 token 匹配设置下检验这一承诺。(1)在相同的训练 token 预算下,剪枝初始化始终优于随机初始化。这表明父模型提供了一个强大的起点,尽管随着训练 token 预算增加和剪枝率上升,优势会缩小,在我们研究的最高剪枝率下几乎消失。(2)当从头训练获得整个流程消耗的全部 token 预算时,更细粒度的剪枝仍然保持优势,而较粗的结构化剪枝可能被匹配或超越。这表明父模型传递的知识是额外的训练 token 本身无法完全恢复的,但仅在细粒度下成立。综合我们的结果,得出明确建议:手头有大型预训练模型且训练 token 预算有限时,剪枝优于从头训练;当训练预算不限时,对于较粗的剪枝,从头训练可以具有竞争力,因此大型预训练父模型并非总是必需的。我们的代码可在 github.com/zlab-princeton/llm-pruning-collection (https://github.com/zlab-princeton/llm-pruning-collection) 获得。

## 1 引言

移除一个训练好的语言模型超过一半的参数,加上一次轻量级的再训练,所得的小型模型仍然能匹配原模型大部分性能 (ma2023llmpruner; xia2024shearedllama; sun2024wanda; sreenivas2024minitron2)。这是网络剪枝 (lecun1989OBD; babak1993obs) 的承诺:一条获得强大小型语言模型的捷径,绕过了从零开始在数万亿 token 上预训练大规模语言模型 (LLM) 日益增长的成本 (grattafiori2024llama3; qwen3; deepseekv3; kaplan2020scalinglaw; hoffmann2022computeoptimalllm; henighan2020scalinglaw; touvron2023llama; touvron2023llama2)。

数十亿参数的开源权重 LLM 现已广泛可用,例如 Llama (grattafiori2024llama3; meta2025llama3.1)、Qwen (qwen3)、Gemma (gemma3) 和 OLMo (olmo3) 等版本,将预训练检查点公之于众。与此同时,由于部署约束、推理效率和可访问性 (hagele2024scalinglawscomputeoptimaltraining; hu2024minicpm; nag2024efficientcontinualpretrainingllms) 的推动,对更小模型的需求正在增长。这正是剪枝承诺要填补的空白。这引出了一个实际问题:要获得一个能力强的小型模型,我们应该是从头训练,还是通过剪枝从现有大模型中“雕刻”出来?剪枝很有吸引力,因为它可以从父模型传递知识,比随机初始化提供更强的起点。但这种继承并非免费:大型父模型必须先经过预训练才能被剪枝,而且剪枝的优势在 token 匹配的比较下是否能保持仍不清楚。

虽然剪枝通常被视为一种压缩技术,但我们将其视为一种**初始化策略**:剪枝后的权重仅仅是训练目标小型模型的起点。这重新定义了自然基线:我们不再比较剪枝模型与其父模型,而是将其与相同大小、在相同数据流上从随机初始化训练的模型进行比较。问题变成:在相同的训练 token 预算下,**通过剪枝大型模型进行初始化**是否胜出**随机初始化**?

然后我们提出一个更尖锐的问题:剪枝的收益仅仅是通过更多训练可以获得的“先发优势”,还是额外的数据也无法恢复的知识?为了找出答案,我们在两种 token 匹配设置下比较剪枝与随机初始化。(i) 相等的训练 token 预算:两个目标模型使用相同的训练 token 预算进行训练,隔离初始化的影响。(ii) 相等的总 token 预算:从头训练改为使用剪枝流程的**全部** token 预算(父模型的预训练 token 加上再训练 token),检验单独增加 token 能否弥合差距。在不同剪枝率和粒度下进行实验,我们得出两个关键观察,均在图1 (https://arxiv.org/html/2606.14150#S0.F1) 中说明:

1. (1)在相同的训练 token 预算下,从剪枝初始化开始训练始终优于从随机初始化开始,尽管这种优势随着剪枝率增加而减弱。
2. (2)即使从头训练使用剪枝流程的全部 token 预算(训练迭代次数),稀疏剪枝仍然表现更好;但对于结构化剪枝,从头训练可以弥合差距。

综合来看,这些结果将剪枝重新定义为一种 token 高效的初始化策略:手头有强大的父模型且训练 token 预算有限时,剪枝优于从头训练,尤其是在细粒度下,它可以传递额外的 token 单独无法恢复的知识。

(a) 剪枝粒度

参见标题

(b) 评估的方法

| 方法 | 目标模块 | 准则 |
| --- | --- | --- |
| Minitron-depth | 层 | 对验证损失的影响 |
| Minitron-width | 隐藏通道、MLP 通道 | 块输出激活范数 |
| FLAP | 隐藏通道、MLP 通道 | 输入特征方差 × 权重列范数 |
| ShearedLLaMA | 层、隐藏通道、MLP 通道、注意力头 | 学习剪枝掩码(拉格朗日优化) |
| Wanda | 单个权重 | 权重幅度 × 输入特征范数 |
| SparseGPT | 单个权重 | 逐层重建误差 |

图2:剪枝粒度和方法概览。(a) 我们研究的剪枝粒度图示:深度、宽度和稀疏剪枝。(b) 我们评估的六种剪枝方法概览,包括它们的目标模块和准则。

## 2 背景

网络剪枝 (lecun1989OBD) 识别并移除神经网络中不重要的权重或模块,以提高效率 (frankle2019LTH)。方法分为两类 (图2 (https://arxiv.org/html/2606.14150#S1.F2)(a)):**稀疏剪枝**,它将单个权重置零,同时保持模型形状;以及**结构化剪枝**,它移除整个架构组件,例如层、注意力头或前馈通道。

#### 稀疏剪枝。

稀疏方法将单个权重掩码为零。**半结构化** (n:m) 剪枝 (zhou2021nmpruning) 在每 m 个权重中保留恰好 n 个,可以利用硬件支持 (mishra2021acceleratingsparse; hubara2021acceleratedsparsetraining);**非结构化**剪枝对移除哪些权重没有约束。SparseGPT (frantar2023sparsegpt) 将权重选择建模为受最优脑外科手术 (babak1993obs) 启发的逐层重建问题。Wanda (sun2024wanda) 通过将每个权重评分作为其幅度乘上对应输入特征范数,更廉价地近似相同目标,后续工作 (yang2025wanda++) 进一步改进了基于激活的评分。两种方法均支持 n:m 和非结构化模式,并且只需要在剪枝后进行一次轻量级权重更新。

#### 结构化剪枝。

结构化方法,其根源在于经典 CNN 时代的通道和滤波器剪枝 (li2017l1normpruning; liu2017networkslimming; luo2017thinet; huang2018sparsestructureselection),移除整个模块,产生更小的密集架构。**深度剪枝**移除整个层:ShortGPT (men2024shortgpt)、Shortened Llama (kim2024shortenedllama) 和 SLEB (song2024sleb) 分别通过激活相似性、泰勒近似和块跳跃困惑度估计层的重要性;Minitron-depth (sreenivas2024minitron2) 搜索其移除对验证损失影响最小的连续层组。**宽度剪枝**移除隐藏或前馈通道:Minitron-width (sreenivas2024minitron2) 按输出激活范数对通道排序,而 FLAP (an2023flap) 则使用输入特征方差加权列范数。Sheared LLaMA (xia2024shearedllama) 通过拉格朗日优化学习剪枝掩码,在预先指定的固定目标模型大小约束下,联合剪枝深度和宽度。

#### 剪枝率和粒度。

**剪枝率**是移除的参数比例。**粒度**指被视为单个剪枝决策的最小单元,范围从整个层(最粗)到通道和注意力头,再到单个权重(最细)。在相同剪枝率下,更细的粒度能保留更多基础模型的性能,但产生的硬件加速较少,推理时的内存节省也减少 (an2023flap; sreenivas2024minitron2)。

## 3 方法

我们在受控的 token 预算下研究剪枝,通过控制比较来隔离 (i) 剪枝作为初始化策略的价值,以及 (ii) 额外的从头训练是否能够缩小与剪枝流程的差距。第 3.1 节 (https://arxiv.org/html/2606.14150#S3.SS1) 描述了实验设计、基础模型、数据流程、优化器和评估协议。第 3.2 节 (https://arxiv.org/html/2606.14150#S3.SS2) 形式化了我们评估的六种剪枝方法。

### 3.1 训练设置

#### 实验设计。

在整个过程中,我们使用三种记号:S_N 表示从头训练目标架构,使用随机初始化,训练 N B tokens;P200-R_N 表示剪枝流程,先预训练一个更大的模型 200B tokens,按目标比例剪枝,然后用 N B tokens 再训练剪枝模型;Meta-R_N 表示相同的流程,但从 Meta 发布的 Llama-3.1-8B 检查点(而非我们预训练 200B 的检查点)开始,再用 N B tokens 再训练(在图3 (https://arxiv.org/html/2606.14150#S4.F3) 中用作参考点)。两个 token 匹配实验都将剪枝流程与从头训练进行比较,区别仅在于我们允许从头训练基线看到多少数据:

- (1) 相等的训练 token 预算 (S50 vs. P200-R50):从头训练基线使用与剪枝模型再训练相同的 50B token 数据流,在相同的目标架构和优化器调度下进行训练,仅隔离初始化的影响。我们进一步扫描剪枝率,以追踪这种初始化优势如何随着压缩变得更加激进而演变。
- (2) 相等的总 token 预算 (S250 vs. P200-R50):从头训练基线使用流程消耗的所有 250B tokens(预训练加再训练),测试额外的 token 单独是否可以弥合差距。

#### 模型和数据集。

我们采用 Llama-3.1-8B (grattafiori2024llama3) 作为实验的基础模型,这是先前 LLM 剪枝工作中最常见的选择 (frantar2023sparsegpt; sun2024wanda; sreenivas2024minitron2)。对于训练数据,我们采用 DCLM-Baseline-1.0 (li2024datacomplm),这是一个大规模精选训练语料库,与其他当代网络规模语料库(如 RefinedWeb (penedo2023refinedweb)、Dolma (soldaini2024dolma) 和 RedPajama (weber2024redpajama))相当。数据集使用 Llama-3.1 分词器进行分词,并分成 8192 个 token 的块。

#### 数据流程。

200B 预训练 token 和 50B 再训练 token 是 DCLM 语料库中严格不重叠的子集。对于 S250 比较,250B tokens 正好是这两个不相交集合的并集,确保 S250 和 P200-R50 总共看到完全相同的数据。对于 S50 比较,S50 使用与 P200-R50 再训练阶段相同的 50B tokens。这保证了所有比较在 token 上是公平的,差异反映了初始化策略,而不是数据构成。

#### 训练配置。

我们遵循 Lingua (meta2024lingua) 中的默认配置,使用 AdamW (loshchilov2019adamw),采用余弦学习率衰减和 5% 的预热。对于每个实验,我们在 {1e-5, 3e-5, 1e-4, 3e-4, 1e-3} 范围内扫查最大学习率,并选择在短前缀运行中产生最低训练损失的那个。这对于剪枝后的再训练很重要,必须仔细选择学习率以防止灾难性遗忘 (parmar2024reusedontretrainrecipe; gupta2023howtorewarmyourmodel)。完整的训练超参数集见附录 D.1 (https://arxiv.org/html/2606.14150#A4.SS1)。

#### 评估。

我们在两个维度上评估:(i) 四个通用领域语料库(C4、WikiText-103、WikiText-2、CNN Dailymail)上的语言困惑度;(ii) 跨越常识问答(WinoGrande、HellaSwag、PIQA)、科学问答(ARC-Challenge、ARC-Easy、SciQ、OpenBookQA)和逻辑推理(BoolQ)等八个基准测试的零样本下游准确率。完整的评估协议、基准引用和随机机会基线见附录 E (https://arxiv.org/html/2606.14150#A5)。

### 3.2 剪枝方法

我们评估了六种代表性的 LLM 剪枝方法,涵盖两个家族,其目标模块和评分标准总结在图2 (https://arxiv.org/html/2606.14150#S1.F2)(b)(并在第2节 (https://arxiv.org/html/2606.14150#S2) 中描述)。**结构化**方法移除整个模型组件,同时保持权重矩阵稠密(Minitron-depth (muralidharan2024minitron1; sreenivas2024minitron2)、Minitron-width (muralidharan2024minitron1; sreenivas2024minitron2)、FLAP (an2023flap) 和 Sheared LLaMA (xia2024shearedllama));**稀疏**方法保留完整的宏观架构,但将单个权重零掩码(Wanda (sun2024wanda) 和 SparseGPT (frantar2023sparsegpt))。为简洁起见,我们将 Minitron-depth 称为 Minitron-D,Minitron-width 称为 Minitron-W,Wanda 和 SparseGPT 的非结构化变体分别称为 Wanda-U 和 SparseGPT-U。所有六种方法的正式数学描述见附录 C.2 (https://arxiv.org/html/2606.14150#A3.SS2)。

#### 实现。

对于 Minitron-depth 和 Minitron-width,我们开发了一个简化的重新实现,并对照原始结果验证了其正确性。FLAP 和 Sheared LLaMA 最初是为多头注意力 (MHA) 模型设计的;我们将两种方法都适应了 Llama-3.1 中使用的分组查询注意力 (GQA) (ainslie2023gqa),并验证了它们在此架构上实现了合理的剪枝性能。对于 Wanda 和 SparseGPT,我们使用了作者原始实现,未作修改。当原始论文未指定目标架构时,我们执行了轻量级架构搜索,寻找候选维度配置(见附录 D.2 (https://arxiv.org/html/2606.14150#A4.SS2))。每种方法的完整校准集和超参数见附录 D.2 (https://arxiv.org/html/2606.14150#A4.SS2)。

| 方法 | 比例 | 层数 | 注意力头数 | 隐藏尺寸 | FFN 尺寸 | 稀疏度 | 参数量 |
| --- | --- | --- | --- | --- | --- | --- | --- |
| 基础 | 0.0% | 32 | 32 | 4096 | 14336 | 0.0% | 8.0B |
| Minitron-D | 50.0% | 16 | 32 | 4096 | 14336 | 0.0% | 4.5B |
| Minitron-D | 62.5% | 8 | 32 | 4096 | 14336 | 0.0% | 2.8B |
| Minitron-D | 75.0% | 4 | 32 | 4096 | 14336 | 0.0% | 1.9B |

相似文章

通过令牌剪枝优化韩语中心的大语言模型

arXiv cs.CL

本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。

超小型LLM真的有用吗?

Reddit r/singularity

探讨了非常小的语言模型是否能妥善处理日常对话,以及哪些训练因素使它们表现更佳。