用于大语言模型压缩的联合结构化剪枝与混合精度量化

arXiv cs.AI 2026/06/09 04:00 论文

摘要

一种新颖的端到端大语言模型压缩框架，联合优化结构化剪枝与混合精度量化，在超低位宽精度下，相比于现有最先进方法实现了显著的困惑度降低和加速效果。

arXiv:2606.07819v1 Announce Type: new 摘要：近年来，大型语言模型（LLM）部署的效率已成为实际应用中的关键问题。尽管训练后量化（PTQ）和结构化剪枝是减少内存占用和推理延迟的成熟技术，但大多数现有的PTQ方法在逐层基础上优化量化误差，忽视了误差在网络中的累积和传播，常常导致次优解。传统的流程也倾向于孤立或顺序地应用剪枝和量化，进一步加剧了次优性。我们引入了一个新颖的端到端框架，通过两种关键方式解决这些局限性。首先，我们提出了一种新颖的混合精度PTQ策略，该策略直接最小化整个模型的全局误差传播，而不是隔离逐层误差。在此基础上，我们开发了一种新颖的联合优化方法，在统一的搜索空间中同时学习结构化剪枝决策和混合精度量化策略。大量实验表明，在超低位宽（1-3比特）下，我们的量化方法相比最先进（SoTA）的权重-激活量化基线，将WikiText困惑度降低了高达21%。与领先的仅权重量化方法相比，在WikiText和C4上分别实现了高达59%和85%的更低困惑度。与最先进的联合剪枝与量化技术相比，我们提出的方法在超低位宽下提供了更优的困惑度和推理性能。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:53

# 联合结构化剪枝与混合精度量化的大语言模型压缩
来源：https://arxiv.org/html/2606.07819
11institutetext:挪威特罗姆瑟大学 – 挪威北极大学 22institutetext:挪威奥斯陆大学
22email:\{hoang\.l\.la,phuong\.hoai\.ha\}@uit\.no
\{truongl,amirhost\}@ifi\.uio\.no###### 摘要

近年来，大型语言模型（LLMs）部署的效率已成为实际应用中的关键问题。虽然训练后量化（PTQ）和结构化剪枝是减少内存占用和推理延迟的成熟技术，但现有的大多数PTQ方法逐层优化量化误差，忽略了误差在网络中的累积和传播，往往导致次优解。传统的流程也倾向于孤立地或顺序地应用剪枝和量化，进一步加剧了次优性。我们提出了一种新颖的端到端框架，以两种关键方式解决了这些局限性。首先，我们提出了一种新颖的混合精度PTQ策略，该策略直接最小化整个模型的全局误差传播，而不是隔离逐层误差。在此基础上，我们开发了一种新颖的联合优化方法，在统一的搜索空间中同时学习结构化剪枝决策和混合精度量化策略。大量实验表明，在超低精度（1-3比特）下，与最先进的权重量化基线相比，我们的量化方法在WikiText困惑度上降低了高达21%。与领先的仅权重量化方法相比，在WikiText和C4上分别实现了高达59%和85%的更低困惑度。与最先进的联合剪枝与量化技术相比，我们提出的方法在超低比特下提供了优越的困惑度和推理性能。此外，在主流的混合精度设置（例如4位/8位）中，我们的压缩模型在WikiText困惑度和零样本推理准确性方面仍保持高度竞争力，同时相比FP16加速高达2倍（prefill阶段），解码时峰值内存减少高达6.5倍，推理速度提升高达30%，并且与最先进方法压缩的模型相比，额外节省10%的内存。

## 1 引言

近年来，大型语言模型（LLMs）的部署效率已成为主要研究焦点。为了在资源受限设备上部署，先前的文献已广泛研究了预训练LLMs的模型压缩。剪枝和量化是两种最常用的技术，因为它们能减少内存占用和计算需求，同时在高效边缘推理中保持推理性能。

剪枝通过消除冗余参数来减少资源使用。然而，与同样高压缩比（例如75%）下的量化相比，剪枝后的模型通常表现出较差的推理性能[ kuzmin2023pruning ]。量化将权重（以及可选的激活值）映射到更低比特的表示，通常在给定压缩比下能更好地保持性能。它包括需要微调的量化感知训练（QAT）和直接对预训练权重操作而无需重新训练的训练后量化（PTQ）。本文聚焦于PTQ，因为它避免了与QAT相关的高成本重训练或微调步骤。

最近针对超低比特LLMs的混合精度PTQ方法[ zhao2024atom , zhao2025ptq1 , huang2024slim , huang2024billm ]通常将线性层权重划分为显著和非显著通道。非显著通道被量化为极低精度（例如1-4比特），而显著通道保留较高精度（例如8比特）。这些方法通常依赖于由局部量化损失指导的逐层贪心搜索，这忽略了全局误差传播，并且在不同层之间应用统一的显著性标准，尽管层间敏感性不同。这常常导致次优压缩[ arai2025quantization ]。我们的工作引入了一种新颖的混合精度PTQ方法来解决这些局限性。

为了在激进压缩下进一步提高推理和生成能力，最近的研究也探索了联合剪枝和量化，从理论和实验上都表明两者是非正交的[ harmaeffective ]。像SparseGPT+GPTQ[ frantar2023sparsegpt ]和OBR[ guo2025optimal ]这样的方法支持带有误差补偿的联合非结构化/半结构化压缩，但与结构化方法相比，加速效果有限。我们引入了一个联合结构化剪枝和混合精度PTQ框架，将我们新颖的量化方法与DISP-LLM[ gao2024disp ]相结合，在联合搜索空间上实现协同优化。

我们的主要贡献如下：

- •我们引入了一种新颖的混合精度训练后量化（PTQ）框架，将位宽分配重新表述为二进制掩码优化问题。一个直接在端到端任务损失上训练的超网络学习并优化这些二进制掩码。与依赖固定人工阈值来区分显著与非显著权重的先前方法不同，我们的方法使用全局端到端损失动态识别每个线性层中最重要的（显著）权重。这种自适应、损失驱动的策略克服了早期技术的局部贪心性质和次优性。与最先进的权重量化PTQ基线相比，我们的方法将WikiText-2困惑度降低了高达21%，并在六个推理基准上平均零样本准确率提高了高达4.5%。与最先进的仅权重量化PTQ基线相比，在WikiText-2和C4上分别实现了高达59%和85%的更低困惑度，并且在推理任务上平均零样本准确率提高了高达5.4%。
- •一个集成的结构化剪枝和混合精度量化框架，名为“一次训练获得全部”（TOGA），在各种任务上实现了最先进的困惑度和零样本推理性能。
- •用于高效混合精度矩阵乘法（例如W4A4+W8A8）的自定义CUDA内核。利用这些内核，我们的压缩模型相比FP16实现了高达2倍的prefill加速和6.5倍的峰值内存减少，同时比先前最强的2:4半结构化稀疏技术在prefill上快30%，峰值内存节省10%。

## 2 相关工作及超越SoTA的进展

### 2.1 混合精度训练后量化技术

最近的混合精度量化（MPQ）方法根据量化误差敏感性将更高的位宽分配给显著（敏感）的权重通道，这种敏感性通常通过局部层级别信息（如Hessian信息、梯度或激活统计）来估计[ huang2024slim , huang2024billm , zhao2024atom , zhao2025ptq1 ]。仅权重的MPQ在内存受限的推理场景中显著提高了内存效率，而激活值保持16位精度。例如，PTQ-1.61[ zhao2025ptq1 ]和BiLLM[ huang2024billm ]使用每层基于Hessian的度量来区分显著和非显著权重。Slim-LLM[ huang2024slim ]在每个线性层内应用局部贪心搜索，以确定其权重矩阵的最优位宽分配。

权重量化MPQ直接处理激活异常值以获得更高的效率增益。Atom[ zhao2024atom ]通过基于幅值识别关键激活，将它们（连同对应的权重通道）重排到矩阵的末端，然后将显著通道量化为更高精度（8位），同时对非显著通道应用较低精度（3或4位）。在另一种方法中，ResQ[ saxena2024resq ]采用主成分分析（PCA）来分离敏感和非敏感分量，对非敏感的权重量化通道应用W4A4量化，其余部分应用W8A8量化。

超越SoTA的进展：这些方法有两个关键局限性。首先，它们通常依赖固定的、统一的显著性阈值来识别敏感权重，从而忽略了不同模型和架构中层间敏感性的差异。其次，它们仅使用局部、层级别的敏感性度量来分配比特。因此，它们未能考虑信号通过整个网络传播时累积的量化误差[ arai2025quantization ]。我们的方法通过优化二进制掩码来识别整个模型架构中的显著权重，从而解决了这两个问题，实现了跨线性层的灵活、非均匀的比特分配，同时直接优化全局语言建模损失。

### 2.2 剪枝+量化方法

Harma等人[ harmaeffective ]证明剪枝和量化是非正交的，并且应用它们的顺序显著影响性能。在LLMs中，先剪枝后量化的序列始终产生比先量化后剪枝或单独应用任一技术更低的困惑度。类似地，在视觉模型中，Kuzmin等人[ kuzmin2023pruning ]表明，在同等压缩比下，量化模型通常比剪枝模型保持更高的准确率。他们的发现进一步揭示，将轻度剪枝与高精度量化相结合，相比单独激进低比特量化能产生更优的准确率。

SparseGPT[ frantar2023sparsegpt ]基于最优脑外科手术（OBS）框架[ hassibi1993optimal ]对LLMs进行非结构化剪枝和量化。作者表明，通过将SparseGPT与GPTQ[ frantar2022gptq ]结合，联合应用两种技术优于单独使用任一方法。最近，OBR[ guo2025optimal ]在剪枝和量化之间引入了一个显式的误差补偿步骤，并使用OBS原则更好地协调它们对权重分布的冲突影响。

超越SoTA的进展：SparseGPT和OBR都依赖于非结构化或半结构化稀疏模式。虽然非结构化稀疏提供了强大的理论压缩，但在标准GPU硬件上提供的实际推理加速有限[ hoefler2021sparsity ]。另一方面，半结构化稀疏可以实现实际加速，但它受当前硬件约束：NVIDIA GPU主要仅支持2:4模式（50%稀疏度，特定2-out-of-4非零布局）。当针对其他稀疏度比率（例如40%或60%）时，这些方法通常会退化为完全非结构化剪枝，这在现有硬件上仍然非常低效，并且几乎无法带来实际加速。相比之下，据我们所知，本工作首次为大型语言模型引入了联合*结构化剪枝*和*混合精度量化*框架。通过产生硬件友好、与密集兼容的矩阵，我们的方法能够在标准GPU上高效执行，同时与先前的联合非结构化或半结构化方法相比，持续实现优越的准确率-效率权衡。此外，我们方法产生的结构化剪枝模型在推理速度上加快了高达30%，峰值内存使用降低了10%，并且在困惑度和推理性能上优于先前工作的2:4半结构化剪枝模型。详见第4节 (https://arxiv.org/html/2606.07819#S4) 的详细实验结果。

### 2.3 使用二进制掩码的LLM结构化剪枝

Transformers：LLMs主要基于仅解码器Transformer架构[ vaswani2017attention ]。具体来说，每个Transformer块包含两个主要子模块：多头自注意力（MHA）和前馈网络（FFN），每个后面都跟着残差连接和层归一化。因此，给定Transformer块的输入X，核心计算描述如下：

Attention\(X\)\\displaystyle\\text\{Attention\}\(X\)=MHA\(XWq,XWk,XWv\)Wo,\\displaystyle=\\text\{MHA\}\(XW\_\{q\},XW\_\{k\},XW\_\{v\}\)W\_\{o\},\(1\)MLP\(X\)\\displaystyle\\text\{MLP\}\(X\)=\(σ\(XWgate\)⊙\(XWup\)\)Wdown,\\displaystyle=\\bigl\(\\sigma\(XW\_\{\\text\{gate\}\}\)\\odot\(XW\_\{\\text\{up\}\}\)\\bigr\)W\_\{\\text\{down\}\},\(2\)其中MHA使用多个注意力头捕获位置依赖关系，每个注意力头由查询（Wq）、键（Wk）、值（Wv）和输出（Wo）的线性投影定义。FFN（也称为MLP）应用门控（Wgate）、上投影（Wup）和下投影（Wdown）矩阵，并在门控之后使用非线性函数σ。

二进制掩码：我们提出的方法受DISP-LLM[ gao2024disp ]启发，该方法将结构化剪枝表述为可学习的二进制掩码优化问题。设L表示模型中二进制掩码的总数，P=\{Pi\}i=1L\\mathcal\{P\}=\\\{P\_\{i\}\\\}\_\{i=1\}^\{L\}是可学习二进制掩码的集合，其中每个Pi∈\{0,1\}diP\_\{i\}\\in\\\{0,1\\\}^\{d\_\{i\}\}指示对应权重矩阵的哪些通道（输入或输出）被保留（1）或剪枝（0）。对于一个全精度权重矩阵W∈Rdout×dinW\\in\\mathbb\{R\}^\{d\_\{\\text\{out\}\}\\times d\_\{\\text\{in\}\}\}的线性层，使用输入掩码Pin∈\{0,1\}dinP\_\{\\text\{in\}\}\\in\\\{0,1\\\}^\{d\_\{\\text\{in\}\}\}和输出掩码Pout∈\{0,1\}doutP\_\{\\text\{out\}\}\\in\\\{0,1\\\}^\{d\_\{\\text\{out\}\}\}应用结构化剪枝。剪枝后的权重矩阵获得如下：

Fprune\(W,Pin,Pout\)=diag⁡\(Pin\)Wdiag⁡\(Pout\)=PinTWPout\.\\displaystyle F\_\{\\text\{prune\}\}\(W,P\_\{\\text\{in\}\},P\_\{\\text\{out\}\}\)=\\operatorname\{diag\}\(P\_\{\\text\{in\}\}\)\\,W\\,\\operatorname\{diag\}\(P\_\{\\text\{out\}\}\)=P\_\{\\text\{in\}\}^\{T\}WP\_\{\\text\{out\}\}\.\(3\)
将其应用于注意力和前馈模块得到：

Attention\(X\)\\displaystyle\\text\{Attention\}\(X\)=MHA\(XP1,XP1,XP1\)\(WoP2\),\\displaystyle=\\text\{MHA\}\(XP\_\{1\},XP\_\{1\},XP\_\{1\}\)\(W\_\{o\}P\_\{2\}\),\(4\)MLP\(X\)\\displaystyle\\text\{MLP\}\(X\)=\(σ\(XP3Wgate\)⊙\(XP3Wup\)\)\(P4TWdownP5\),\\displaystyle=\\bigl\(\\sigma\(XP\_\{3\}W\_\{\\text\{gate\}\}\)\\odot\(XP\_\{3\}W\_\{\\text\{up\}\}\)\\bigr\)\(P\_\{4\}^\{T\}W\_\{\\text\{down\}\}P\_\{5\}\),\(5\)其中\{Pi\}i=15\\\{P\_\{i\}\\\}\_\{i=1\}^\{5\}是Transformer块中线性层的剪枝掩码。

遵循DISP-LLM，在本工作中，我们仅剪枝注意力模块的输入和输出维度以及MLP模块的输入、中间和输出维度，同时保持注意力头数和头维度固定。

搜索最优二进制掩码：设S是一组共L个二进制向量sl，它们控制模型的联合剪枝和量化，该模型包含L个线性层。虽然寻找最优配置S∗可以通过计算密集型技术解决，即进化算法[ tang2025darwinlm ]和强化学习，但受DISP-LLM启发，我们倡导一种更高效的基于超网络的方法。为了引导超网络朝向满足期望预算b的配置，令B(S)是一个可微函数，用于估计由配置S引起的期望预算（例如有效稀疏度、位宽平均内存使用或内存节省）。预算正则化项可以定义如下。

R\(b,B\(S\)\)=log⁡\(max⁡\(b,B\(S\)\)min⁡\(b,B\(S\)\)\)\\displaystyle R\(b,B\(S\)\)=\\log\(\\frac\{\\max\(b,B\(S\)\)\}\{\\min\(b,B\(S\)\)\}\)\(6\)
这一项将期望预算B(S)正则化以匹配目标b。遵循DISP-LLM[ gao2024disp ]，超网络通过以下方式训练：

用于大语言模型压缩的联合结构化剪枝与混合精度量化

相似文章

通过联合优化架构与量化策略实现 LLM 压缩

基于归因引导和覆盖最大化的结构化MoE压缩剪枝

面向延迟和模型大小优化的LLM多目标结构化剪枝

Mix-Quant: 量化预填充，精准解码的智能体大语言模型

突破压缩瓶颈：从理论到实践

提交意见反馈