基于平坦度的理论最优量化

arXiv cs.LG 2026/05/20 04:00 论文

quantization llm post-training-quantization flatness bdq activation-outliers model-compression

摘要

介绍了平坦度度量与双向对角量化（BDQ）用于大型语言模型的训练后量化，实现了接近无损的4比特权重和激活量化，并在极低比特设置下取得了显著改进。

arXiv:2605.18800v1 公告类型：新摘要：训练后量化已成为压缩和加速大型语言模型（LLM）推理的一种广泛采用的技术。LLM量化的主要挑战源于激活异常值，这些异常值会显著降低模型性能，尤其是在较低比特精度下。尽管近期的方法尝试通过跨特征维度的线性变换来缓解异常值，但我们的分析表明，变换后的权重和激活仍表现出持续的异常值模式，且幅度分布集中。在本文中，我们首先对量化误差与异常值之间的数学关系进行建模，然后引入一个新的度量——平坦度（Flatness）来量化异常值的分布。基于此，我们推导出了关于平坦度的理论最优解。基于这些见解，我们提出了双向对角量化（BDQ），一种新颖的训练后量化框架，通过优化的矩阵变换有效分散异常值模式。BDQ通过学习的对角操作，策略性地将异常值幅度分布到矩阵维度上。大量实验表明，BDQ建立了一个新的量化基准。它在LLaMA-3-8B模型的W4A4量化中实现了低于1\\%的准确率下降。在更具挑战性的W2A4KV16实验中，与最先进的方法相比，BDQ在DeepSeek-R1-Distill-LLaMA-70B模型上将性能差距缩小了39.1\\%。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:36

# 基于平坦度的理论最优量化  
来源：https://arxiv.org/html/2605.18800  

Xiusheng Huang<sup>1,2,3</sup>, Zhe Li<sup>4</sup>, Xuanwu Yin<sup>4</sup>, Lu Wang<sup>5</sup>, Yequan Wang<sup>3†</sup>, Dong Li<sup>4</sup>, Emad Barsoum<sup>4</sup>, Kang Liu<sup>1,2†</sup>  
<sup>1</sup>中国科学院自动化研究所复杂系统认知与决策智能重点实验室，北京，中国  
<sup>2</sup>中国科学院大学人工智能学院  
<sup>3</sup>北京人工智能研究院  
<sup>4</sup>AMD  
<sup>5</sup>Ritzz-AI  
[email protected], {wangluloveslezhi,tshwangyequan}@gmail.com, {z.li,Xuanwu.Yin,d.li,Emad.Barsoum}@amd.com, [email protected]  

###### 摘要  

训练后量化已成为压缩和加速大语言模型（LLMs）推理的广泛采用技术。LLMs量化的主要挑战源于激活异常值，这些异常值在低比特精度下会显著降低模型性能。尽管近期方法尝试通过跨特征维度的线性变换来缓解异常值，但我们的分析表明，变换后的权重和激活仍存在持续的异常值模式，且幅值分布集中。本文首先建模了量化误差与异常值之间的数学关系，然后引入了一个新指标——平坦度（Flatness）来量化异常值的分布。基于此，我们推导了关于平坦度的理论最优解。基于这些见解，我们提出了双向对角量化（Bidirectional Diagonal Quantization, BDQ），这是一种新颖的训练后量化框架，通过优化的矩阵变换有效分散异常模式。BDQ通过学习的对角操作将异常幅值策略性地分布在矩阵维度上。大量实验表明，BDQ建立了新的量化基准。在LLaMA-3-8B模型的W4A4量化中，它实现了低于1%的精度下降。在更具挑战性的W2A4KV16实验中，与最先进方法相比，BDQ在DeepSeek-R1-Distill-LLaMA-70B模型上将性能差距缩小了39.1%。  

# 基于平坦度的理论最优量化  

Xiusheng Huang<sup>1,2,3</sup>, Zhe Li<sup>4</sup>, Xuanwu Yin<sup>4</sup>, Lu Wang<sup>5</sup>, Yequan Wang<sup>3†</sup>, Dong Li<sup>4</sup>, Emad Barsoum<sup>4</sup>, Kang Liu<sup>1,2†</sup>  
<sup>1</sup>中国科学院自动化研究所复杂系统认知与决策智能重点实验室，北京，中国  
<sup>2</sup>中国科学院大学人工智能学院  
<sup>3</sup>北京人工智能研究院  
<sup>4</sup>AMD  
<sup>5</sup>Ritzz-AI  
[email protected], {wangluloveslezhi,tshwangyequan}@gmail.com, {z.li,Xuanwu.Yin,d.li,Emad.Barsoum}@amd.com, [email protected]  

††footnotetext:†通讯作者  

## 1 引言  

近年来，大语言模型（LLMs）随着参数规模的增长，在多项自然语言处理任务中取得了优异性能（Yang et al., 2024 (https://arxiv.org/html/2605.18800#bib.bib74); Grattafiori et al., 2024 (https://arxiv.org/html/2605.18800#bib.bib75)）。然而，参数规模的扩大也显著增加了计算和存储成本（Xiao et al., 2023 (https://arxiv.org/html/2605.18800#bib.bib20)）。因此，低成本LLMs的高效部署已成为一个迫切的研究方向（Ashkboos et al., 2025 (https://arxiv.org/html/2605.18800#bib.bib23)）。先前的研究可分为改变架构和保持架构两类技术。改变架构的方法，如蒸馏（Han et al., 2015 (https://arxiv.org/html/2605.18800#bib.bib66); Chen et al., 2020 (https://arxiv.org/html/2605.18800#bib.bib68)）和剪枝（Zhu et al., 2024 (https://arxiv.org/html/2605.18800#bib.bib76)），通过迁移知识或移除不重要的参数来减小模型尺寸，但需要大量数据和计算，因此不适用于LLMs。相比之下，保持架构的方法，如量化（Frantar et al., 2022 (https://arxiv.org/html/2605.18800#bib.bib15)）和低秩分解（Yuan et al., 2023 (https://arxiv.org/html/2605.18800#bib.bib13)），则保持模型结构；量化降低权重精度，而低秩方法近似权重矩阵。由于其高效性和强性能，量化在LLM部署中尤其流行。  

训练后量化（PTQ）已成为压缩和加速LLMs的广泛采用技术。如图1(a) (https://arxiv.org/html/2605.18800#S1.F1.sf1)所示，在量化过程中，原始数据中的异常值带来了巨大挑战，因为有限的量化空间无法充分表达原始数据空间，大部分数据集中在少数几个区域。近期研究采用线性变换来应对这些挑战。旋转变换（Ashkboos et al., 2025 (https://arxiv.org/html/2605.18800#bib.bib23); Liu et al., 2024 (https://arxiv.org/html/2605.18800#bib.bib24)）在图1(b) (https://arxiv.org/html/2605.18800#S1.F1.sf2)中缓解了这一现象。然而，由于异常值的存在，大部分数据仍集中在蓝色区域。现有方法是启发式的，尚未建立异常值与量化误差之间的直接数学关系，也未优化整个量化空间的分布。  

参考图注 (a) 原始  参考图注 (b) 旋转变换  参考图注 (c) 本文方法  
图1: LLaMA3-8B在不同变换下的激活分布。量化后，不同范围的值被映射到相应的整数级别。每个框内的点数反映了量化值的频率。点的分布越均匀，表示量化质量越高。蓝点代表接近零的值，橙点表示中间范围的值，红点对应大幅值。  

本文首先建立了异常值与量化误差之间的数学关系，证明了异常值在二次水平上影响量化误差。此外，我们引入了平坦度（Flatness）概念，作为量化异常值分布的有效指标。受信息熵（Tsai et al., 2008 (https://arxiv.org/html/2605.18800#bib.bib77)）启发，我们将平坦度定义为评估每个元素在其行和列中的平坦程度，并扩展到矩阵中的所有元素。重要的是，通过数学推导，我们发现了提升平坦度的最优解，并展示了与先前方法相比的显著优势，为开发更有效的量化方法奠定了基础。基于上述发现，我们提出了双向对角量化（BDQ）方法。BDQ为LLMs中的每个全连接层分配两个可学习的对角变换对，对行和列同时进行缩放，从而沿两个维度重新分布异常值。我们从理论上证明，这种形式可以实现在平坦度意义上的最优解。此外，采用Hadamard正交变换进一步将异常值散布到整个矩阵中。同时，众所周知，量化过程中仅使用少量校准集（例如128个样本），这可能导致模型过拟合到有限的特征集，实验中表明这种效应会阻碍异常值缓解。为解决这一问题，BDQ引入了递归交叉熵损失，该损失捕获先前迭代的状态，从而减少过拟合并提高泛化能力。  

BDQ是一种高效的LLM PTQ方法，在各种模型和基准测试中持续优于现有技术。在W4A4KV4设置下，BDQ保持了超过99.1%的全精度准确率。此外，在W2A4KV16设置下，BDQ将DeepSeek-R1-Distill-LLaMA-70B (Guo et al., 2025 (https://arxiv.org/html/2605.18800#bib.bib82))相对于最新方法的性能差距缩小了39.1%。据我们所知，我们是首个对异常值与量化误差之间数学关系进行建模的研究，发现异常值是影响量化精度的关键因素。同时，我们提出了反映模型中异常值存在情况的平坦度指标，并通过数学推导给出了最优解。本文的贡献总结如下：  

- • 我们首先建立了异常值与量化误差之间的数学关系，发现异常值是影响量化精度的关键因素。  
- • 为量化异常值分布，我们提出了平坦度指标，并通过数学推导给出了最优解。与先前方法相比，该最优解展示了显著优势。  
- • 我们提出了双向对角量化（BDQ），有效减少了量化误差。大量实验表明，BDQ显著优于现有量化方法。  

## 2 相关工作  

### 2.1 改变架构的方法  

近期模型压缩研究聚焦于通过结构修改来降低复杂度和规模。剪枝技术从早期的权重剪枝（Han et al., 2015 (https://arxiv.org/html/2605.18800#bib.bib66)）发展到在训练过程中动态移除不重要参数的策略（Chen et al., 2020 (https://arxiv.org/html/2605.18800#bib.bib68)），以及基于神经架构搜索的最优网络结构方法（Zhang et al., 2021 (https://arxiv.org/html/2605.18800#bib.bib69)）。知识蒸馏也从基础的教师-学生框架（Kim and Rush, 2016 (https://arxiv.org/html/2605.18800#bib.bib67)）发展到结合自监督学习（Yang et al., 2022 (https://arxiv.org/html/2605.18800#bib.bib70)）和多模态蒸馏以保持语义（Zhao et al., 2024 (https://arxiv.org/html/2605.18800#bib.bib71)）的方法。然而，这些方法往往伴随着高计算成本和低处理速度，限制了它们的实际部署。  

### 2.2 保持架构的方法  

训练后量化（PTQ）因其高效性在LLMs中广受欢迎，方法主要分为仅权重量化和权重-激活量化。FWSVD（Hsu et al., (https://arxiv.org/html/2605.18800#bib.bib12)）和ASVD（Yuan et al., 2023 (https://arxiv.org/html/2605.18800#bib.bib13)）评估参数或通道重要性，而GPTQ（Frantar et al., 2022 (https://arxiv.org/html/2605.18800#bib.bib15)）和AWQ（Lin et al., 2024 (https://arxiv.org/html/2605.18800#bib.bib16); Lee et al., 2023 (https://arxiv.org/html/2605.18800#bib.bib17)）减少量化误差并处理激活异常值。QuIP（Chee et al., 2023 (https://arxiv.org/html/2605.18800#bib.bib18)）、QuIP#（Tseng et al., 2024 (https://arxiv.org/html/2605.18800#bib.bib19)）、SmoothQuant（Xiao et al., 2023 (https://arxiv.org/html/2605.18800#bib.bib20)）和OmniQuant（Shao et al., 2023 (https://arxiv.org/html/2605.18800#bib.bib21)）通过多种技术进一步改进了量化。I-LLM（Hu et al., 2024 (https://arxiv.org/html/2605.18800#bib.bib22)）支持仅整数推理，QuaRot（Ashkboos et al., 2025 (https://arxiv.org/html/2605.18800#bib.bib23)）使用随机旋转，SpinQuant学习用于4比特量化的旋转（Liu et al., 2024 (https://arxiv.org/html/2605.18800#bib.bib24)）。量化因其高精度和低成本在低秩分解中脱颖而出。  

## 3 动机  

在模型量化过程中，设权重或激活为 \(W \in \mathbb{R}^{m \times n}\)，并假设异常值满足 \(\|w_{\text{outlier}}\| \gg \mathbb{E}[\|W\|]\)，其中 \(\mathbb{E}[\|W\|]\) 表示元素的统计期望。量化过程由尺度 \(\bigtriangleup \in \mathbb{R}^{+}\) 和零点 \(z \in \mathbb{Z}\) 决定，将浮点值映射到整数空间如下：  

\[
Q(w) = \text{round}\left(\frac{w}{\bigtriangleup}\right) + z, \quad \bigtriangleup = \frac{\max(\|w\|)}{2^{b} - 1} \tag{1}
\]

其中 \(w\) 是原始权重，\(Q(w) - z \in \{0,1,\ldots,2^{b}-1\}\) 是 \(b\) 比特量化后的整数值。设 \(x\) 为矩阵的输入，量化误差定义为：  

\[
\epsilon = wx - w^{\prime}x \tag{2}
\]

### 3.1 单个异常值的量化误差  

当包含异常值时，设 \(\bigtriangleup\) 为选定的尺度因子和 \(b\) 比特整数点。假设量化范围设置为 \([-c, c]\)：  

\[
\bigtriangleup = \frac{c}{2^{b} - 1} \tag{3}
\]

如果 \(\|w_{\text{outlier}}\|\) 很大，则调整后：  

\[
\bigtriangleup^{\prime} = \frac{\|w_{\text{outlier}}\|}{2^{b} - 1} \tag{4}
\]

同时，令 \(w_{\text{outlier}}\) 代表量化区间，\(\Delta = \frac{c}{2^{b} - 1}\) 扩大为 \(\frac{\|w_{\text{outlier}}\|}{2^{b} - 1}\)。对于任意非异常值 \(w_i \in [-c, c]\)，其量化误差上限从 \(\frac{\Delta}{2}\) 增加到 \(\frac{\Delta^{\prime}}{2}\)，即：  

\[
\|\epsilon_i\| \leq \frac{\Delta x}{2} \xrightarrow{\text{outlier}} \|\epsilon_i\| \leq \frac{\|w_{\text{outlier}}\| x}{2^{b} - 1} \tag{5}
\]

当 \(\|w_{\text{outlier}}\| \gg c\) 时，由异常值引起的量化误差可能非常显著。量化误差 \(\epsilon_i\) 与异常值 \(w_{\text{outlier}}\) 之间存在比例关系。  

### 3.2 整个矩阵的量化误差  

量化误差的统计特性和权重的特征可假设服从正态分布 \(N(0, k^2\sigma^2)\)（其中 \(k \gg 1\)）（Ashkboos et al., 2025 (https://arxiv.org/html/2605.18800#bib.bib23)）。总量化误差可表示为：  

\[
E[\epsilon^2] = \frac{x}{mn} \sum_{m}^{j=1} \sum_{n}^{i=1} (w_{ij} - w_{ij}^{\prime})^2 \tag{6}
\]

\[
= (1-p) E[\epsilon_{\text{normal}}^2] x + p E[\epsilon_{\text{outlier}}^2] x
\]

其中 \((1-p) E[\epsilon_{\text{normal}}^2]\) 是正常贡献，\(pE[\epsilon_{\text{outlier}}^2]\) 是异常值贡献，\(p\) 是与异常值数量相关的系数。由于异常值的存在，随着尺度因子 \(\bigtriangleup^{\prime}\) 的增大，正常项的方差变为：  

\[
E[\epsilon_{\text{normal}}^2] \approx \frac{\Delta^{\prime 2}}{12} = \frac{k^2 \sigma^2}{12(2^{b} - 1)^2} \tag{7}
\]

而异常值本身的平均误差，由于被截断到量化范围的边界，误差为：  

\[
E[\epsilon_{\text{outlier}}] = w_{\text{outlier}} - \text{sign}(w_{\text{outlier}}) \cdot (2^{b} - 1) \bigtriangleup^{\prime} \tag{8}
\]

当 \(\|w_{\text{outlier}}\| > (2^{b} - 1) \bigtriangleup^{\prime}\) 时，\(\text{sign}(\cdot)\) 是符号函数。均方误差为：  

\[
E[\epsilon_{\text{outlier}}^2] = (\|w_{\text{outlier}} - (2^{b} - 1) \bigtriangleup^{\prime}\|)^2 \tag{9}
\]

当异常值显著大于量化范围时（即...

基于平坦度的理论最优量化

相似文章

可变位宽量化：为“更大但更小”的语言模型学习每组的精度

InfoQuant：为低比特大语言模型量化塑造激活分布

Qift: 移位友好的无零点W2训练后量化，用于旋转W2A4/KV4大语言模型推理

[论文] 大语言模型的统计无损量化

Tequila：一种面向大语言模型的无陷阱三元量化方法

提交意见反馈