小型LLM：剪枝与从头训练

arXiv cs.LG 2026/06/15 04:00 论文

摘要

本文实证比较了剪枝与从头训练小型语言模型的差异，发现在有限token预算下剪枝具有明显优势，但随着训练规模扩大，优势逐渐减小，尤其是在粗粒度剪枝情况下。

arXiv:2606.14150v1 公告类型：新摘要：剪枝有望成为快速获得强大小型语言模型的捷径。在本工作中，我们通过使用六种涵盖深度、宽度和稀疏粒度的剪枝方法，在两种受控的token匹配设置下，对Llama-3.1-8B进行0.5至0.8剪枝比例的剪枝，来验证这一前景。(1) 在相同的训练token预算下，剪枝初始化始终优于随机初始化。这表明父模型提供了一个强大的起点，尽管随着训练token预算增加和剪枝比例上升，优势逐渐缩小，并在我们研究的最高剪枝比例下几乎消失。(2) 当从头训练获得完整管道消耗的全部token预算时，细粒度剪枝仍保持优势，而较粗粒度的结构化剪枝则可能被追平或超越。这表明父模型传递了额外训练token单独无法完全恢复的知识，但仅限于细粒度。综合来看，我们的结果给出了明确的建议：当手头有大型预训练模型且训练token预算有限时，剪枝优于从头训练；当训练预算不受限时，对于较粗剪枝，从头训练可能具有竞争力，因此大型预训练父模型并非总是必要的。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:11

# 小型LLM：剪枝 vs. 从头训练
来源：https://arxiv.org/html/2606.14150
小型LLM：剪枝 vs\. 从头训练

Yufeng Xu¹,²，Taiming Lu¹，Kunjun Li¹，Jiachen Zhu²，Mingjie Sun³，Zhuang Liu¹

¹普林斯顿大学，²纽约大学，³卡内基梅隆大学

参见标题参见标题

参见标题参见标题

图1：**通过剪枝初始化**相对于**随机初始化**提供了显著优势，但这种优势会随着训练的持续而减弱。**左图**：在相同的训练 token 预算下，剪枝初始化优于随机初始化，尽管优势随训练时间延长而减小。**右图**：当随机初始化基线使用剪枝全过程所用的完整 token 预算进行训练时，它与剪枝替代方案相当。总体而言，剪枝是获得强大小型模型的捷径，但其优势会随着训练规模扩大而减弱。**摘要**

- 剪枝承诺了一条获得强大小型语言模型的捷径。在这项工作中，我们通过剪枝 Llama-3.1-8B，采用 0.5–0.8 的剪枝率，并应用六种跨深度、宽度和稀疏粒度的剪枝方法，在两种受控的 token 匹配设置下检验这一承诺。(1)在相同的训练 token 预算下，剪枝初始化始终优于随机初始化。这表明父模型提供了一个强大的起点，尽管随着训练 token 预算增加和剪枝率上升，优势会缩小，在我们研究的最高剪枝率下几乎消失。(2)当从头训练获得整个流程消耗的全部 token 预算时，更细粒度的剪枝仍然保持优势，而较粗的结构化剪枝可能被匹配或超越。这表明父模型传递的知识是额外的训练 token 本身无法完全恢复的，但仅在细粒度下成立。综合我们的结果，得出明确建议：手头有大型预训练模型且训练 token 预算有限时，剪枝优于从头训练；当训练预算不限时，对于较粗的剪枝，从头训练可以具有竞争力，因此大型预训练父模型并非总是必需的。我们的代码可在 github.com/zlab-princeton/llm-pruning-collection (https://github.com/zlab-princeton/llm-pruning-collection) 获得。

## 1 引言

移除一个训练好的语言模型超过一半的参数，加上一次轻量级的再训练，所得的小型模型仍然能匹配原模型大部分性能 (ma2023llmpruner; xia2024shearedllama; sun2024wanda; sreenivas2024minitron2)。这是网络剪枝 (lecun1989OBD; babak1993obs) 的承诺：一条获得强大小型语言模型的捷径，绕过了从零开始在数万亿 token 上预训练大规模语言模型 (LLM) 日益增长的成本 (grattafiori2024llama3; qwen3; deepseekv3; kaplan2020scalinglaw; hoffmann2022computeoptimalllm; henighan2020scalinglaw; touvron2023llama; touvron2023llama2)。

数十亿参数的开源权重 LLM 现已广泛可用，例如 Llama (grattafiori2024llama3; meta2025llama3.1)、Qwen (qwen3)、Gemma (gemma3) 和 OLMo (olmo3) 等版本，将预训练检查点公之于众。与此同时，由于部署约束、推理效率和可访问性 (hagele2024scalinglawscomputeoptimaltraining; hu2024minicpm; nag2024efficientcontinualpretrainingllms) 的推动，对更小模型的需求正在增长。这正是剪枝承诺要填补的空白。这引出了一个实际问题：要获得一个能力强的小型模型，我们应该是从头训练，还是通过剪枝从现有大模型中“雕刻”出来？剪枝很有吸引力，因为它可以从父模型传递知识，比随机初始化提供更强的起点。但这种继承并非免费：大型父模型必须先经过预训练才能被剪枝，而且剪枝的优势在 token 匹配的比较下是否能保持仍不清楚。

虽然剪枝通常被视为一种压缩技术，但我们将其视为一种**初始化策略**：剪枝后的权重仅仅是训练目标小型模型的起点。这重新定义了自然基线：我们不再比较剪枝模型与其父模型，而是将其与相同大小、在相同数据流上从随机初始化训练的模型进行比较。问题变成：在相同的训练 token 预算下，**通过剪枝大型模型进行初始化**是否胜出**随机初始化**？

然后我们提出一个更尖锐的问题：剪枝的收益仅仅是通过更多训练可以获得的“先发优势”，还是额外的数据也无法恢复的知识？为了找出答案，我们在两种 token 匹配设置下比较剪枝与随机初始化。(i) 相等的训练 token 预算：两个目标模型使用相同的训练 token 预算进行训练，隔离初始化的影响。(ii) 相等的总 token 预算：从头训练改为使用剪枝流程的**全部** token 预算（父模型的预训练 token 加上再训练 token），检验单独增加 token 能否弥合差距。在不同剪枝率和粒度下进行实验，我们得出两个关键观察，均在图1 (https://arxiv.org/html/2606.14150#S0.F1) 中说明：

1. (1)在相同的训练 token 预算下，从剪枝初始化开始训练始终优于从随机初始化开始，尽管这种优势随着剪枝率增加而减弱。
2. (2)即使从头训练使用剪枝流程的全部 token 预算（训练迭代次数），稀疏剪枝仍然表现更好；但对于结构化剪枝，从头训练可以弥合差距。

综合来看，这些结果将剪枝重新定义为一种 token 高效的初始化策略：手头有强大的父模型且训练 token 预算有限时，剪枝优于从头训练，尤其是在细粒度下，它可以传递额外的 token 单独无法恢复的知识。

(a) 剪枝粒度

参见标题

(b) 评估的方法

| 方法 | 目标模块 | 准则 |
| --- | --- | --- |
| Minitron-depth | 层 | 对验证损失的影响 |
| Minitron-width | 隐藏通道、MLP 通道 | 块输出激活范数 |
| FLAP | 隐藏通道、MLP 通道 | 输入特征方差 × 权重列范数 |
| ShearedLLaMA | 层、隐藏通道、MLP 通道、注意力头 | 学习剪枝掩码（拉格朗日优化） |
| Wanda | 单个权重 | 权重幅度 × 输入特征范数 |
| SparseGPT | 单个权重 | 逐层重建误差 |

图2：剪枝粒度和方法概览。(a) 我们研究的剪枝粒度图示：深度、宽度和稀疏剪枝。(b) 我们评估的六种剪枝方法概览，包括它们的目标模块和准则。

## 2 背景

网络剪枝 (lecun1989OBD) 识别并移除神经网络中不重要的权重或模块，以提高效率 (frankle2019LTH)。方法分为两类 (图2 (https://arxiv.org/html/2606.14150#S1.F2)(a))：**稀疏剪枝**，它将单个权重置零，同时保持模型形状；以及**结构化剪枝**，它移除整个架构组件，例如层、注意力头或前馈通道。

#### 稀疏剪枝。

稀疏方法将单个权重掩码为零。**半结构化** (n:m) 剪枝 (zhou2021nmpruning) 在每 m 个权重中保留恰好 n 个，可以利用硬件支持 (mishra2021acceleratingsparse; hubara2021acceleratedsparsetraining)；**非结构化**剪枝对移除哪些权重没有约束。SparseGPT (frantar2023sparsegpt) 将权重选择建模为受最优脑外科手术 (babak1993obs) 启发的逐层重建问题。Wanda (sun2024wanda) 通过将每个权重评分作为其幅度乘上对应输入特征范数，更廉价地近似相同目标，后续工作 (yang2025wanda++) 进一步改进了基于激活的评分。两种方法均支持 n:m 和非结构化模式，并且只需要在剪枝后进行一次轻量级权重更新。

#### 结构化剪枝。

结构化方法，其根源在于经典 CNN 时代的通道和滤波器剪枝 (li2017l1normpruning; liu2017networkslimming; luo2017thinet; huang2018sparsestructureselection)，移除整个模块，产生更小的密集架构。**深度剪枝**移除整个层：ShortGPT (men2024shortgpt)、Shortened Llama (kim2024shortenedllama) 和 SLEB (song2024sleb) 分别通过激活相似性、泰勒近似和块跳跃困惑度估计层的重要性；Minitron-depth (sreenivas2024minitron2) 搜索其移除对验证损失影响最小的连续层组。**宽度剪枝**移除隐藏或前馈通道：Minitron-width (sreenivas2024minitron2) 按输出激活范数对通道排序，而 FLAP (an2023flap) 则使用输入特征方差加权列范数。Sheared LLaMA (xia2024shearedllama) 通过拉格朗日优化学习剪枝掩码，在预先指定的固定目标模型大小约束下，联合剪枝深度和宽度。

#### 剪枝率和粒度。

**剪枝率**是移除的参数比例。**粒度**指被视为单个剪枝决策的最小单元，范围从整个层（最粗）到通道和注意力头，再到单个权重（最细）。在相同剪枝率下，更细的粒度能保留更多基础模型的性能，但产生的硬件加速较少，推理时的内存节省也减少 (an2023flap; sreenivas2024minitron2)。

## 3 方法

我们在受控的 token 预算下研究剪枝，通过控制比较来隔离 (i) 剪枝作为初始化策略的价值，以及 (ii) 额外的从头训练是否能够缩小与剪枝流程的差距。第 3.1 节 (https://arxiv.org/html/2606.14150#S3.SS1) 描述了实验设计、基础模型、数据流程、优化器和评估协议。第 3.2 节 (https://arxiv.org/html/2606.14150#S3.SS2) 形式化了我们评估的六种剪枝方法。

### 3.1 训练设置

#### 实验设计。

在整个过程中，我们使用三种记号：S_N 表示从头训练目标架构，使用随机初始化，训练 N B tokens；P200-R_N 表示剪枝流程，先预训练一个更大的模型 200B tokens，按目标比例剪枝，然后用 N B tokens 再训练剪枝模型；Meta-R_N 表示相同的流程，但从 Meta 发布的 Llama-3.1-8B 检查点（而非我们预训练 200B 的检查点）开始，再用 N B tokens 再训练（在图3 (https://arxiv.org/html/2606.14150#S4.F3) 中用作参考点）。两个 token 匹配实验都将剪枝流程与从头训练进行比较，区别仅在于我们允许从头训练基线看到多少数据：

- (1) 相等的训练 token 预算 (S50 vs. P200-R50)：从头训练基线使用与剪枝模型再训练相同的 50B token 数据流，在相同的目标架构和优化器调度下进行训练，仅隔离初始化的影响。我们进一步扫描剪枝率，以追踪这种初始化优势如何随着压缩变得更加激进而演变。
- (2) 相等的总 token 预算 (S250 vs. P200-R50)：从头训练基线使用流程消耗的所有 250B tokens（预训练加再训练），测试额外的 token 单独是否可以弥合差距。

#### 模型和数据集。

我们采用 Llama-3.1-8B (grattafiori2024llama3) 作为实验的基础模型，这是先前 LLM 剪枝工作中最常见的选择 (frantar2023sparsegpt; sun2024wanda; sreenivas2024minitron2)。对于训练数据，我们采用 DCLM-Baseline-1.0 (li2024datacomplm)，这是一个大规模精选训练语料库，与其他当代网络规模语料库（如 RefinedWeb (penedo2023refinedweb)、Dolma (soldaini2024dolma) 和 RedPajama (weber2024redpajama)）相当。数据集使用 Llama-3.1 分词器进行分词，并分成 8192 个 token 的块。

#### 数据流程。

200B 预训练 token 和 50B 再训练 token 是 DCLM 语料库中严格不重叠的子集。对于 S250 比较，250B tokens 正好是这两个不相交集合的并集，确保 S250 和 P200-R50 总共看到完全相同的数据。对于 S50 比较，S50 使用与 P200-R50 再训练阶段相同的 50B tokens。这保证了所有比较在 token 上是公平的，差异反映了初始化策略，而不是数据构成。

#### 训练配置。

我们遵循 Lingua (meta2024lingua) 中的默认配置，使用 AdamW (loshchilov2019adamw)，采用余弦学习率衰减和 5% 的预热。对于每个实验，我们在 {1e-5, 3e-5, 1e-4, 3e-4, 1e-3} 范围内扫查最大学习率，并选择在短前缀运行中产生最低训练损失的那个。这对于剪枝后的再训练很重要，必须仔细选择学习率以防止灾难性遗忘 (parmar2024reusedontretrainrecipe; gupta2023howtorewarmyourmodel)。完整的训练超参数集见附录 D.1 (https://arxiv.org/html/2606.14150#A4.SS1)。

#### 评估。

我们在两个维度上评估：(i) 四个通用领域语料库（C4、WikiText-103、WikiText-2、CNN Dailymail）上的语言困惑度；(ii) 跨越常识问答（WinoGrande、HellaSwag、PIQA）、科学问答（ARC-Challenge、ARC-Easy、SciQ、OpenBookQA）和逻辑推理（BoolQ）等八个基准测试的零样本下游准确率。完整的评估协议、基准引用和随机机会基线见附录 E (https://arxiv.org/html/2606.14150#A5)。

### 3.2 剪枝方法

我们评估了六种代表性的 LLM 剪枝方法，涵盖两个家族，其目标模块和评分标准总结在图2 (https://arxiv.org/html/2606.14150#S1.F2)(b)（并在第2节 (https://arxiv.org/html/2606.14150#S2) 中描述）。**结构化**方法移除整个模型组件，同时保持权重矩阵稠密（Minitron-depth (muralidharan2024minitron1; sreenivas2024minitron2)、Minitron-width (muralidharan2024minitron1; sreenivas2024minitron2)、FLAP (an2023flap) 和 Sheared LLaMA (xia2024shearedllama)）；**稀疏**方法保留完整的宏观架构，但将单个权重零掩码（Wanda (sun2024wanda) 和 SparseGPT (frantar2023sparsegpt)）。为简洁起见，我们将 Minitron-depth 称为 Minitron-D，Minitron-width 称为 Minitron-W，Wanda 和 SparseGPT 的非结构化变体分别称为 Wanda-U 和 SparseGPT-U。所有六种方法的正式数学描述见附录 C.2 (https://arxiv.org/html/2606.14150#A3.SS2)。

#### 实现。

对于 Minitron-depth 和 Minitron-width，我们开发了一个简化的重新实现，并对照原始结果验证了其正确性。FLAP 和 Sheared LLaMA 最初是为多头注意力 (MHA) 模型设计的；我们将两种方法都适应了 Llama-3.1 中使用的分组查询注意力 (GQA) (ainslie2023gqa)，并验证了它们在此架构上实现了合理的剪枝性能。对于 Wanda 和 SparseGPT，我们使用了作者原始实现，未作修改。当原始论文未指定目标架构时，我们执行了轻量级架构搜索，寻找候选维度配置（见附录 D.2 (https://arxiv.org/html/2606.14150#A4.SS2)）。每种方法的完整校准集和超参数见附录 D.2 (https://arxiv.org/html/2606.14150#A4.SS2)。

| 方法 | 比例 | 层数 | 注意力头数 | 隐藏尺寸 | FFN 尺寸 | 稀疏度 | 参数量 |
| --- | --- | --- | --- | --- | --- | --- | --- |
| 基础 | 0.0% | 32 | 32 | 4096 | 14336 | 0.0% | 8.0B |
| Minitron-D | 50.0% | 16 | 32 | 4096 | 14336 | 0.0% | 4.5B |
| Minitron-D | 62.5% | 8 | 32 | 4096 | 14336 | 0.0% | 2.8B |
| Minitron-D | 75.0% | 4 | 32 | 4096 | 14336 | 0.0% | 1.9B |

小型LLM：剪枝与从头训练

相似文章

@Zephyr271828: 你想要一个强大的小型LLM。是从头开始训练小模型，还是继承更大的模型？新论文：小型LLM：剪枝对比…

通过令牌剪枝优化韩语中心的大语言模型

超小型LLM真的有用吗？

修剪不安全票：一种资源高效的框架，用于更安全、更鲁棒的大型语言模型

我从零开始训练了一个75M参数的LLM，使用18B tokens，它击败了几乎两倍大小的模型

提交意见反馈