InfoQuant:为低比特大语言模型量化塑造激活分布

arXiv cs.LG 论文

摘要

InfoQuant 提出了一种无需训练的方法——峰值抑制正交变换(PSOT),用于重塑低比特大语言模型量化中的激活分布,在 W4A4KV4 设置下保留了 97% 的浮点精度,并优于之前的 PTQ 方法。

arXiv:2605.26175v1 公告类型:新 摘要:低比特激活量化仍然是高效大语言模型(LLM)部署中的主要瓶颈。困难不仅在于激活值包含离群点,还在于其分布通常与低比特均匀量化器匹配不佳。现有的训练后量化(PTQ)方法会抑制峰值、平衡通道或最小化重建误差,但它们很少明确什么样的激活分布实际上易于离散化。因此,激活值在数值上可能更平滑,但仍会产生较大的量化误差,因为量化范围仍然很宽,或者大多数值都坍缩到均值附近的少数几个水平上。我们将激活变换重新定义为面向量化器的分布设计,并从信息论角度分析量化误差。我们的分析表明,有利于量化的激活应同时具有较小的数值范围和在该范围内足够的分散度。在此分析的指导下,我们提出了 InfoQuant,一种无需训练的方法,采用峰值抑制正交变换(PSOT)将激活塑造成更有利于量化的分布。我们进一步引入了自适应离群标记选择,以提高 PSOT 在优化过程中的鲁棒性。在多个 LLM 系列中,InfoQuant 始终优于之前的 PTQ 和端到端训练基线。在 W4A4KV4 设置下,它平均保留了 97% 的浮点精度,并将 LLaMA-2 13B 的性能差距相比之前的最优方法降低了 42%。代码可在 [https://github.com/LLIKKE/InfoQuant](https://github.com/LLIKKE/InfoQuant) 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:04

# InfoQuant:面向低位大型语言模型量化的激活分布塑造

来源:https://arxiv.org/html/2605.26175
Ke Li1,Dong An2,Xiaoling Zang2,Can Ye2,Liang Xie3,Qibo Qiu4,Chen Shen5,Xiaofei He6,Wenxiao Wang1,\*

1浙江大学软件学院 2蚂蚁集团 3浙江工业大学计算机科学与技术学院 4中国移动(浙江)创新研究院 5阿里云计算 6浙江大学CAD&CG国家重点实验室 \*通讯作者。\{like2248,wenxiaowang\}@zju.edu.cn

###### 摘要

低位激活量化仍然是高效部署大型语言模型(LLM)的主要瓶颈。其困难不仅在于激活值包含异常值,还在于它们的分布通常与低位均匀量化器不匹配。现有的训练后量化(PTQ)方法会抑制峰值、平衡通道或最小化重建误差,但它们很少明确指出什么样的激活分布实际上易于离散化。结果,激活值可能在数值上看起来更平滑,但由于量化范围仍然很宽或大部分值坍缩到均值附近的少数几个水平,仍会产生较大的量化误差。我们将激活变换重新定义为面向量化器的分布设计,并从信息论角度分析量化误差。我们的分析表明,利于量化的激活值应同时具有较小的数值范围和在该范围内足够的分散度。在此分析指导下,我们提出了InfoQuant,一种免训练方法,它采用峰值抑制正交变换(PSOT)将激活值塑造为更利于量化的分布。我们进一步引入自适应异常标记选择,以提高PSOT在优化过程中的鲁棒性。在多个LLM系列中,InfoQuant始终优于先前的PTQ和端到端训练基线。在W4A4KV4设置下,它平均保留了浮点精度的97%,并将LLaMA-2 13B的性能差距相比之前的最先进技术降低了42%。111代码可在以下网址获取:github.com/LLIKKE/InfoQuant (https://github.com/LLIKKE/InfoQuant)

InfoQuant:面向低位大型语言模型量化的激活分布塑造

Ke Li1,Dong An2,Xiaoling Zang2,Can Ye2,Liang Xie3,Qibo Qiu4,Chen Shen5,Xiaofei He6,Wenxiao Wang1,\*1浙江大学软件学院 2蚂蚁集团 3浙江工业大学计算机科学与技术学院 4中国移动(浙江)创新研究院 5阿里云计算 6浙江大学CAD&CG国家重点实验室 \*通讯作者。\{like2248,wenxiaowang\}@zju.edu.cn

## 1 引言

训练后量化(PTQ)是降低大型语言模型(LLM)推理内存和计算成本最实用的方法之一。然而,其主要挑战在于低位激活量化。与权重不同,LLM激活值通常包含少量主导坐标,这些坐标扩大了量化范围,并迫使四舍五入量化将许多正常值映射到相同的少数几个水平。这种不匹配在4位设置下变得尤为严重,因为有限的量化水平几乎没有空间同时保留稀有的极值和密集的中心值。

最近的PTQ方法越来越多地通过在量化前进行激活变换来解决这个问题。SmoothQuant(Xiao et al.,2023 (https://arxiv.org/html/2605.26175#bib.bib41))通过对角缩放将激活难度迁移到权重中,而QuaRot(Ashkboos et al.,2024b (https://arxiv.org/html/2605.26175#bib.bib17))和SpinQuant(Liu et al.,2025b (https://arxiv.org/html/2605.26175#bib.bib23))使用正交旋转来重新分布激活能量;其他方法进一步引入了更灵活的仿射变换或重建目标(Ma et al.,2024 (https://arxiv.org/html/2605.26175#bib.bib18);Sun et al.,2025 (https://arxiv.org/html/2605.26175#bib.bib22))。尽管这些方法形式各异,但它们具有相同的实际作用:它们改变了量化器所见的激活分布。然而,其中大多数方法的动机是抑制异常值、平衡通道或减少重建误差,而不是定义低位量化器能够良好表示的变换后分布是什么。因此,如图1 (https://arxiv.org/html/2605.26175#S1.F1)所示,它们可能减少了可见峰值,但没有完全提高可离散性,或者保留了小的数值误差,同时仍坍缩了分布的分辨率。因此,核心问题不仅是如何变换激活值,而且是什么样的变换后分布实际上利于量化。

![参见标题](https://arxiv.org/html/2605.26175#S1.F1)
图1:LLaMA-2 7B第4层q/k/v_proj输入在三种变换下的激活分布:原始激活值(左)、Hadamard旋转(中)以及PSOT学得的旋转(右)。与原始和Hadamard旋转的激活值相比,PSOT产生了更利于量化的分布,具有更窄的数值范围和更大的归一化分散度。这里,\(b_n\)表示无穷范数归一化后的标准差,且较小的\(\lambda = \bar{s}/b_n\)表示较低的归一化量化误差上界,其中\(\bar{s}\)是范围归一化的量化步长。

我们通过将激活变换重新定义为面向量化器的分布设计来弥补这一空白。从信息论的角度,我们分析了量化误差如何依赖于变换后的激活分布。我们的理论和实证研究表明,较低的量化误差与两个互补特性相关联:更小的数值范围和该范围内更大的分散度。这一结果重新定义了激活变换的作用。PTQ方法不应仅仅抑制异常值或最小化启发式重建损失,而应明确地将激活值塑造成低位量化器更易于保留的分布。由于LLM激活值通常是钟形分布且常包含异常值(Liu et al.,2025a (https://arxiv.org/html/2605.26175#bib.bib48)),它们自然与这一目标不一致,这解释了为什么低位激活量化仍然困难。

在此原则指导下,我们引入了InfoQuant,一种免训练的PTQ方法,它学习正交变换以产生更利于量化的激活分布。其核心组件是峰值抑制正交变换(PSOT),它应用逐激活的峰值抑制目标来减小数值范围,同时增加归一化分散度。我们进一步引入自适应异常标记选择以提高优化鲁棒性,并在分布重塑后学习激活裁剪参数以细化最终量化范围。尽管InfoQuant是围绕激活优化设计的,但它仍然与标准的权重量化流程兼容。总体而言,我们的贡献可总结如下:

- • 我们引入了一个用于理解激活量化误差的信息论框架,并从理论和经验上展示了利于量化的分布应具有更小的数值范围和更大的分散度。
- • 我们引入了InfoQuant,一种以学得的正交激活塑造为核心的硬件高效且免训练的PTQ方法,结合自适应异常标记选择和可学习的激活裁剪以实现鲁棒校准。
- • 我们证明激活分布优化能带来强大的经验和实践收益。在W4A4KV4设置下,LLaMA-2(7B、13B、70B)和LLaMA-3(8B、70B)平均保留了其原始性能的97%,并且70B模型仅需24GB GPU内存即可完成量化。

## 2 相关工作

#### 大型语言模型的训练后量化。

PTQ是一种高效且广泛使用的LLM压缩方法。由于LLM权重的平坦和均匀分布,仅权重量化通常导致最小的性能下降。GPTQ(Frantar et al.,2023 (https://arxiv.org/html/2605.26175#bib.bib29))使用基于Hessian的误差补偿,以在低精度损失下实现高压缩。AWQ(Lin et al.,2024b (https://arxiv.org/html/2605.26175#bib.bib49))和OWO(Lee et al.,2024 (https://arxiv.org/html/2605.26175#bib.bib52))通过减轻激活异常值的影响进一步提高了性能。QuIP(Chee et al.,2023 (https://arxiv.org/html/2605.26175#bib.bib46))和QuIP#(Tseng et al.,2024 (https://arxiv.org/html/2605.26175#bib.bib45))应用随机Hadamard变换进行非相干处理,并对权重使用向量量化,从而获得更好的性能。相比之下,由于存在罕见但极端的异常值(Wei et al.,2023 (https://arxiv.org/html/2605.26175#bib.bib54);Xiao et al.,2023 (https://arxiv.org/html/2605.26175#bib.bib41)),激活量化仍然更具挑战性,这些异常值会不成比例地影响精度。

#### 基于变换的方法。

这些方法更有效地跨通道重新分布激活异常值。通道缩放(Xiao et al.,2023 (https://arxiv.org/html/2605.26175#bib.bib41))将部分负担转移到权重上,OmniQuant(Shao et al.,2024 (https://arxiv.org/html/2605.26175#bib.bib50))和LRQuant(Zhao et al.,2024 (https://arxiv.org/html/2605.26175#bib.bib43))通过最小化MSE来优化缩放参数。然而,近期工作(Yi et al.,2025 (https://arxiv.org/html/2605.26175#bib.bib51))表明,仅通道缩放在4位设置下会失败,导致显著的性能下降。AffineQuant(Ma et al.,2024 (https://arxiv.org/html/2605.26175#bib.bib18))学习仿射变换来预处理激活值。然而,由于全尺寸矩阵乘法的巨大开销,AffineQuant只能对一小部分线性层应用仿射变换。FlatQuant(Sun et al.,2025 (https://arxiv.org/html/2605.26175#bib.bib22))通过Kronecker分解降低了这一成本,对每个线性层应用仿射变换。利用计算不变性(Ashkboos et al.,2024a (https://arxiv.org/html/2605.26175#bib.bib53)),可以在权重和块间激活上应用正交变换,而无需额外的推理开销。QuaRot(Ashkboos et al.,2024b (https://arxiv.org/html/2605.26175#bib.bib17))使用随机化Hadamard变换来去除异常值。SpinQuant(Liu et al.,2025b (https://arxiv.org/html/2605.26175#bib.bib23))进一步在Stiefel流形上使用任务损失(例如交叉熵)优化可学习的正交矩阵,以找到稳定的变换。OSTQuant(Hu et al.,2025 (https://arxiv.org/html/2605.26175#bib.bib24))将通道缩放与正交变换结合,并使用从原始输出的端到端蒸馏来提升量化效果。Kurtail(Akhondzadeh et al.,2025 (https://arxiv.org/html/2605.26175#bib.bib44))通过控制峰度使分布更均匀,从而促进量化。BASE-Q(He et al.,2025 (https://arxiv.org/html/2605.26175#bib.bib63))引入了一个额外的偏置项来平衡旋转后不同通道的均值。

## 3 动机

### 3.1 量化基础

量化将高精度值映射到一组离散水平。该过程详述如下:

\[
\mathcal{Q}(\mathbf{X}) = \text{clamp}\left(\left\lfloor\frac{\mathbf{X}}{s}\right\rceil + z,\ 0,\ 2^{N}-1\right) \tag{1}
\]
这里,量化步长记为 \(s = \frac{\mathbf{X}_{\max} - \mathbf{X}_{\min}}{2^N - 1}\),且 \(z = -\left\lfloor\frac{\mathbf{X}_{\min}}{s}\right\rceil\) 是对应的零点,\(\left\lfloor\cdot\right\rceil\) 表示取整操作,\(N\) 表示目标位宽。给定一个浮点张量 \(\mathbf{X}\),量化函数 \(\mathcal{Q}(\cdot)\) 产生其整数值表示。量化误差主要源于取整操作,该操作将大小为一个区间 \(s\) 内的所有值坍缩到同一个离散水平。

### 3.2 量化误差的分布视角

最近的PTQ方法通常使用基于MSE的目标来优化激活变换(Shao et al.,2024 (https://arxiv.org/html/2605.26175#bib.bib50);Zhao et al.,2024 (https://arxiv.org/html/2605.26175#bib.bib43);Sun et al.,2025 (https://arxiv.org/html/2605.26175#bib.bib22))。虽然MSE是数值失真的有用量度,但它并不能完全捕捉低位量化引入的分布不匹配。这一局限性对于四舍五入(RTN)下的激活量化尤为重要,因为许多值可能只产生小的逐点误差,但仍然被映射到少数离散水平。在这种情况下,量化后的激活值可能在数值上接近原始值,但同时失去了大量的分布分辨率,这一点MSE本身并不能很好地反映。

![参见标题](https://arxiv.org/html/2605.26175#S3.F2)
图2:量化LLaMA-2 7B第4层q/k/v_proj输入的分布效应。上图:在不同量化步长\(s\)和分散度值\(b_n\)下,量化前后激活直方图之间的KL散度,使用15,000个直方图区间。中图/下图:低误差和高误差情况下量化前后的激活直方图。当宽范围和低归一化分散度迫使密集激活值落入过少的离散水平时,低位量化的破坏性最大。

先前的工作(Liu et al.,2025a (https://arxiv.org/html/2605.26175#bib.bib48))已经表明LLM中的激活分布通常是钟形的(例如高斯或拉普拉斯分布)。当使用低位均匀RTN量化器量化此类激活时,少数大值可能决定量化范围,迫使大多数正常值向均值附近的水平坍缩(图2 (https://arxiv.org/html/2605.26175#S3.F2),下图)。因此,产生的误差不仅是局部取整失真的问题,还在于可用量化水平与底层激活分布匹配程度差的问题。虽然非均匀量化器原则上可以更好地适应密集区域,但它们通常会引入额外的硬件复杂性,在实际低位部署中吸引力较低。这些观察促使我们寻求一个既能反映数值偏差又能反映量化引起的分布偏移的分析度量。为此,我们使用平滑的KL散度作为低位量化引起的分布失真的分析透镜。令 \(\mathbf{x}\) 表示一个激活标记,并令每个条目用标量 \(x \in \mathbf{x}\) 表示,其分布为 \(P(x)\)。我们考虑一个中心化的有限位裁剪量化器

\[
\hat{x} = Q_{s,c}(x) = \operatorname{clip}\!\left(s\left\lfloor\frac{x}{s}\right\rceil,\,-c,\,c\right), \tag{2}
\]
其中 \(s\) 是量化步长,\(c\) 是裁剪尺度。直接比较 \(P(x)\) 与量化分布是不适定的,因为KL散度要求密度对密度比较,而量化将连续密度转变为离散质心上的概率质量。因此,我们将每个质心扩散为一个狭窄的连续核。具体地,令 \(q_i\) 表示一个量化质心,令 \(I_i = \{x \mid Q_{s,c}(x) = q_i\}\) 为其量化单元,并定义相应的概率质量 \(p_i = \int_{I_i} P(x)\,dx\)。量化分布(平滑后)为

相似文章

基于平坦度的理论最优量化

arXiv cs.LG

介绍了平坦度度量与双向对角量化(BDQ)用于大型语言模型的训练后量化,实现了接近无损的4比特权重和激活量化,并在极低比特设置下取得了显著改进。

Mix-Quant: 量化预填充,精准解码的智能体大语言模型

arXiv cs.CL

Mix-Quant 提出了一种面向智能体大语言模型的阶段感知量化框架,在预填充阶段使用 NVFP4 量化以加速计算,同时在解码阶段保持 BF16 精度以维持准确性。该方法在智能体基准测试中实现了预填充速度提升最高 3 倍,且性能下降极小。