仅靠拟合是不够的:极低量化大语言模型中的平滑性
摘要
本文探讨了极低量化大语言模型中的平滑性退化问题,认为除了数值精度外,保持平滑性对于维持模型性能至关重要。
arXiv:2605.08894v1 公告类型:新论文
摘要:大语言模型(LLMs)表现优异,但部署成本高昂,这促使人们采用极低比特但有损的量化技术。现有的量化算法主要关注提高前向计算的数值精度以消除性能下降。在本文中,我们发现极低量化的 LLMs 除了数值精度损失外,还遭受着系统性的平滑性退化。通过平滑性代理指标,我们观察到随着量化比特宽度的降低,这种退化变得越来越严重。此外,基于序列邻域建模,我们发现量化模型在预测邻域内的有效 token 候选数量急剧减少,这直接导致解码树变得稀疏并降低了生成质量。为了验证这一点,我们在训练后量化和量化感知训练中引入了一种简单的平滑性保持原则,并证明保持平滑性除了数值精度之外还能带来额外的性能增益。本文的核心目标是强调平滑性保持作为未来极端量化方法的重要设计考量因素。代码已开源至 https://github.com/xuyuzhuang11/FINE。
查看缓存全文
缓存时间: 2026/05/12 07:05
# 极度量化大语言模型中的平滑性
来源: https://arxiv.org/html/2605.08894
## 拟合还不够:极度量化大语言模型中的平滑性
Yuzhuang Xu${}^{1}$ Xu Han${}^{2,\ast}$ Yuxuan Li${}^{2}$ Pengzhan Li${}^{1}$ Wanxiang Che${}^{1}$
${}^{1}$哈尔滨工业大学,中国哈尔滨 ${}^{2}$清华大学,中国北京
\{xyz, car\}@ir\.hit\.edu\.cn, han\-xu@mail\.tsinghua\.edu\.cn
###### 摘要
大语言模型(LLMs)虽然表现出强大的性能,但部署成本高昂,这促使人们探索极低比特但有损的量化方案。现有的量化算法主要集中在提高前向计算的数值精度以消除性能下降。在本文中,我们证明极度量化的 LLMs 除了数值精度损失外,还遭受系统性的平滑性退化。通过平滑性代理指标,我们观察到随着量化比特宽度的降低,这种退化变得日益严重。此外,基于序列邻域建模,我们发现量化模型在预测邻域内的有效候选词数量急剧减少,这直接导致解码树变得更加稀疏,生成质量下降。为了验证这一点,我们在训练后量化(PTQ)和量化感知训练(QAT)中引入了一种简单的平滑性保持原则,并证明保持平滑性在数值精度之外带来了额外的增益。本文的核心目标是强调平滑性保持作为未来极端量化方法的一个重要设计考量。代码 available at https://github.com/xuyuzhuang11/FINE\.
“当你到达边缘时,隐藏的力量将接管。”
## 1 引言
大语言模型(LLMs)面临巨大的部署成本,构成了实际采用的主要瓶颈。为了在受限预算下释放模型能力,模型量化被广泛使用,用低比特表示替换高位值表示\[14,23\]\. 模型量化现在已经推进到极低的比特宽度,例如 1\-bit\[41,21\]甚至 sub\-1\-bit\[10\]\. 在这种极端的比特宽度压缩下,模型往往遭受严重的性能下降。现有研究将这种退化主要归因于数值精度损失,因此侧重于尽可能保持前向计算的数值精度\[16,21\]\. 于是产生了一个自然的问题:在极低比特量化中,模型性能的崩溃是否 solely 由数值精度引起?
参见图注
**图 1**: 极端量化中的平滑性退化。GPTQ 量化的 LLaMA\-2\-7B 在不同比特宽度下的平滑性得分分布。较高的分数表示更差的平滑性。
答案可能是“否”。我们经验性地观察到,这类极度量化的 LLMs 除了拟合精度之外,还遭受显著的平滑性退化,这可能构成能力损失的另一个来源,如图 1 所示。机器学习领域的先前研究早已将平滑性与泛化能力、鲁棒性和训练稳定性联系起来\[2,8,24\]\. 众所周知,平滑性较差的模型对微小扰动表现出高度敏感性,导致输出不稳定和泛化误差放大。来自经典机器学习和视觉任务的大量证据进一步表明,平滑性退化通常伴随着性能和可靠性的降低\[11,19,20,5\]\. 尽管其重要性已得到充分确立,但在基于 Transformer 的 LLMs 中,特别是在极端量化方面,平滑性仍然 largely underexplored,这促使我们研究其在量化 LLM 能力退化中的作用。
此外,通过引入文本序列上的邻域模型以及反向困惑度(rPPL),我们从理论上证明,量化模型的下一个 token 概率分布比原始 FP16 模型“更快”地坍塌。这一现象表明,量化模型在每个解码步骤产生的下一个 token 排名质量较低,为采样留下的有效候选范围大幅缩小。从宏观角度来看,这表现为量化模型生成的有效解码树显著更稀疏。更重要的是,我们发现随着量化比特宽度的降低,这种邻域坍塌效应变得越来越严重。额外分析表明,缓解这种邻域坍塌的直接方法是在量化过程中尽可能保持模型平滑性,这与我们的经验观察密切相关。
受经验和理论发现的启发,我们提出了缓解极度量化 LLMs 中平滑性退化的简单策略。对于训练后量化(PTQ),我们认为现有方法依赖于不完整的优化目标,主要关注重建误差而忽视了平滑性保持。因此,我们引入了可学习的梯度保持(LGP)以在量化期间显式维持原始梯度。对于量化感知训练(QAT),我们发现平滑性退化主要出现在中间隐藏状态梯度中,因此在训练期间引入了梯度正则化损失(LGR)。PTQ 和 QAT 的实验均表明,平滑性带来了额外的性能增益。
我们并非提出一种与其他方法竞争算法,而是强调平滑性保持作为极端量化的关键设计原则。我们的分析表明,在极低比特设置下,前向拟合和后向保持难以联合优化,且后者对比特宽度减少更为敏感。此外,解空间分析表明,能够同时保持前向和后向行为的低比特量化权重并没有消失,而是变得越来越狭窄。因此,极端量化的目标不应再是寻找隐藏状态重建误差或困惑度的无损临界点,而是在有限比特宽度预算下实现拟合精度和平滑性之间的原则性权衡。总体而言,本文做出以下三项贡献:
- **发现**。我们为基于 Transformer 的 LLMs 建立了一个可行的平滑性代理指标,并揭示了极度量化 LLMs 中的平滑性退化问题。此外,通过序列邻域建模和 rPPL,我们揭示了由平滑性退化引起的解码树稀疏化效应。
- **验证**。我们设计了简单而有效的方法,包括用于 PTQ 的 LGP 和用于 QAT 的 LGR,以验证平滑性增强在极端量化下为预测分布带来了积极的性能增益。
- **指导**。我们指出了现有量化目标的局限性,并对在极端量化中考虑平滑性的可行性和必要性进行了深入分析。我们的发现为未来的算法设计提供了实用指导。
## 2 预备知识
### 2.1 网络平滑性
Lipschitz 连续性是神经网络中最相关的平滑性度量。通常,设 $f:\mathcal{D}\subseteq\mathbb{R}^n\to\mathbb{R}^m$ 为定义在域 $\mathcal{D}$ 上的函数。如果存在常数 $C>0$ 使得对于所有 $\mathbf{x},\mathbf{y}\in\mathcal{D}$ 有:
$$
\|f(\mathbf{x})-f(\mathbf{y})\|_{\alpha}\leq C\|\mathbf{x}-\mathbf{y}\|_{\alpha}. \tag{1}
$$
则称函数 $f$ 关于 $\alpha$-范数是 $C$-Lipschitz 连续的。Lipschitz 常数也可以简单地给出为 $C=\sup_{\mathbf{x}\in\mathcal{D}}\|\nabla_{\mathbf{x}}f\|_{\tilde{\alpha}}$,其中 $\nabla_{\mathbf{x}}f$ 是 $f$ 关于输入 $\mathbf{x}$ 的雅可比矩阵。这里,$\tilde{\alpha}$ 表示 $\alpha$ 的对偶范数如果 $m=1$;否则,$\tilde{\alpha}=\alpha$。为简单起见,本文固定 $\alpha=\tilde{\alpha}=2$。较小的常数 $C$ 意味着在小输入扰动下输出变化有限。它与泛化和鲁棒性密切相关。不幸的是,计算 $C$ 的精确值是 NP-hard 的\[36\]\. 因此,我们仅通过估计 $C$ 的上界和下界来近似表征平滑性。
最简单但显著宽松的**上界**是每层 Lipschitz 常数的乘积。此外,下界是通过从域 $\mathcal{D}$ 中采样一小个子集 $S$ 来估计的。考虑一个由 $\boldsymbol{\theta}$ 参数化的 $L$ 层网络 $f_{\boldsymbol{\theta}}$,定义为 $f_{\boldsymbol{\theta}}=f^{(L)}\circ f^{(L-1)}\circ\cdots\circ f^{(1)}$。其 Lipschitz 常数的上界和下界由下式给出
$$
C_{\text{lower}}\leq\sup_{\mathbf{x}\in S}\|\nabla_{\mathbf{x}}f_{\boldsymbol{\theta}}\|_{2}\leq C\leq\prod_{i=1}^{L}\sup_{\mathbf{x}^{(i-1)}\in\text{dom}(f^{(i)})}\|\nabla_{\mathbf{x}^{(i-1)}}f^{(i)}\|_{2}=C_{\text{upper}}, \tag{2}
$$
其中 $\mathbf{x}^{(i-1)}$ 表示第 $i$ 层的输入,$\text{dom} f$ 是 $f$ 的定义域。$C_{\text{lower}}$ 更准确,降低了准确估计 $C$ 的复杂性。然而,缺点在于它仅反映特定点的局部梯度幅度,而不是全局景观。计算机视觉中的一个替代方法是计算**期望输入梯度** $C_{\text{avg}}=\mathbb{E}_{\mathbf{x}\in S}\|\nabla_{\mathbf{x}}f_{\boldsymbol{\theta}}\|_{2}$。虽然该指标不严格满足 Lipschitz 常数的定义,但它提供了 $C$ 的有效且通常更实用的估计。更多细节请参阅 Khromov 和 Singh \[17\]\.
### 2.2 模型量化
模型量化将 LLMs 中常用的 16 位浮点格式转换为低比特表示\[14,40\]\. 虽然大多数研究侧重于低位整数表示,但也研究了浮点格式\[38\]和基于码本的编码\[35,12\]\. 在本工作中,我们专注于定点量化进行分析。
量化通过缩放和平移来转换精度。该过程公式化为
$$
Q(w)=\text{clamp}(\lfloor\frac{w}{h}\rceil+z,0,2^N-1), \tag{3}
$$
其中 $\lfloor\cdot\rceil$ 表示四舍五入,$\text{clamp}$ 表示裁剪操作。参数 $h$ 和 $z$ 获取如下:
$$
h = \frac{\max(w)-\min(w)}{2^N-1}, \tag{4}
$$
$$
z = -\lfloor\min(w)/h\rceil.
$$
这里,$N$ 表示整数的比特宽度。为了内存效率,矩阵行或列通常分组量化,每组共享相同的 $h$ 和 $z$,通常为 64 或 128 大小。
相应地,反量化过程将离散整数值映射回浮点域以启用后续计算。它可以定义为
$$
\hat{w}=Q^{-1}(Q(w))=h\cdot(Q(w)-z). \tag{5}
$$
恢复值 $\hat{w}$ 作为原始权重 $w$ 的近似,量化误差由比特宽度 $N$、裁剪范围和分组统计决定。
参见图注
(a) BF16 (原始)
(b) INT3 (GPTQ)
(c) 输入梯度分布
**图 2**: LLaMA\-2\-7B 在一个输入序列上不同精度下的近似 Lipschitz 常数,即期望输入梯度 $C_{\text{avg}}$。
## 3 经验研究:代理与平滑性
虽然 Lipschitz 常数边界和期望输入梯度有效地表征了模型平滑性,但现有结论主要衍生自简单架构或视觉任务,如 MLPs\[33\]、ResNets\[5\] 或 ViTs\[17\]\. 这些发现是否适用于基于 Transformer 的 LLMs 和量化 LLMs 尚不清楚。在本节中,我们在验证代理适用性的前提下,讨论量化 LLMs 中的平滑性退化问题。
$C_{\text{avg}}$ 是一个可微指标,但它偏离了 $C$ 的严格定义。我们现在需要解决两个关键问题:(a) $C_{\text{avg}}$ 能否在基于 Transformer 的 LLMs 中近似 $C$?(b) 这种近似是否适用于量化 LLMs?
为了便于测量输入扰动对 LLM 输出的影响,我们将 $f$ 定义为语言建模目标结合交叉熵损失。因此,$f$ 采取形式 $f:\mathbb{R}^n\to\mathbb{R}$。一个关键好处是 $\nabla_{\mathbf{x}}f$ 简化为梯度向量而不是雅可比矩阵,从而避免了与雅可比相关的过度计算和内存开销。
我们在 LLMs 背景下正式定义 $\nabla_{\mathbf{x}}f$。对于输入序列 $(w_1,\dots,w_T)$,令 $\mathbf{x}_t^{(i)}$ 表示第 $i=1,\dots,L$ 层中 token $w_t$ 的输入隐藏状态。平滑性代理,称为“输入梯度”,定义为 $\nabla_{\mathbf{x}^{(0)}}f$,其中 $\mathbf{x}^{(0)}$ 是 $w_t$ 的 token 嵌入。
由于 $C_{\text{lower}}$ 已被证明是 Lipschitz 常数的合理准确估计\[17\]\,我们研究了 LLaMA\-2\-7B 上 $C_{\text{avg}}$ 和 $C_{\text{lower}}$ 之间的关系。如图 2(a) 所示,随着输入 token 数量的增加,$C_{\text{lower}}$ 收敛。虽然 $C_{\text{lower}}$ 表现出几个明显的尖峰,但这归因于极少数具有大梯度的 token。如图 2(c) 所示,几乎所有 token 的梯度均保持在 0.02 以下。如果没有这些异常值,$C_{\text{lower}}$ 的分布将是平坦的。同时,尽管两者之间存在幅度差距,$C_{\text{avg}}$ 表现出与 $C_{\text{lower}}$ 相似的趋势。因此,虽然 $C_{\text{avg}}$ 不严格遵守 $C$ 的定义,但它仍然是估计 LLM 平滑性趋势的有效指标。
这一结论相似文章
从信号退化到计算崩溃:揭示LLM量化的两种失效模式
研究者发现激进LLM量化存在两种截然不同的失效模式——信号退化与计算崩溃,并证明无需训练的修复手段仅能缓解前者,表明超低比特模型需进行结构性重建。
可训练的平滑旋转变换与学习到的通道缩放用于LLM量化
本文提出了可训练的平滑旋转变换,结合分位数鲁棒缩放和基于梯度的优化,以改进LLM的训练后量化,在LLaMA-3.2-1B的W4A4量化下实现了显著的误差降低。
量化破坏对齐:压缩大语言模型中偏见在不同模型与精度下的涌现
本文研究了训练后量化如何在指令调优的大语言模型中引入新偏见,发现3位精度导致6-21%之前无偏见的项目发展出刻板印象,而像困惑度这样的标准指标未能检测到这种退化。
通过平滑MMD对齐增强LLM中的数值预测
引入平滑最大均值差异(SMMD),一种损失函数,通过核匹配和基于图的平滑性将预测数值分布与目标对齐,提高了LLM在多个任务中的数值预测准确性。
CompactQE: 通过小型开放权重LLMs实现可解释的翻译质量评估
本文证明,小型开放权重LLMs(参数小于30B)能够实现具有竞争力的可解释翻译质量评估,包括MQM错误标注和修正,与更大的专有模型相媲美,同时保护数据隐私。