面向大语言模型的显著性感知正则化量化校准
摘要
本文提出了显著性感知正则化量化校准(SARQC),这是一个统一的框架,通过添加正则化项以保持权重接近度,从而改善大语言模型(LLM)的训练后量化(PTQ),提升泛化能力和性能。
查看缓存全文
缓存时间: 2026/05/08 08:34
# 面向大语言模型的显著性感知正则化量化校准 来源:https://arxiv.org/html/2605.05693 Yanlong Zhao¹, Xiaoyuan Cheng²¹¹footnotemark:1, Huihang Liu³¹¹footnotemark:1, Baihua He¹, Xinyu Zhang¹,⁴, Harrison Bo Hua Zhu⁵,⁶,⁷, Wenlong Chen⁶, Li Zeng⁸, Zhuo Sun³,⁶ ¹中国科学技术大学, ²伦敦大学学院, ³上海财经大学, ⁴中国科学院数学与系统科学研究院, ⁵哥本哈根大学, ⁶伦敦帝国理工学院, ⁷丹麦技术大学, ⁸北京大学 共同贡献者:Yanlong Zhao (https://arxiv.org/html/2605.05693v1/mailto:[email protected]), Xiaoyuan Cheng (https://arxiv.org/html/2605.05693v1/mailto:[email protected]) 和 Huihang Liu (https://arxiv.org/html/2605.05693v1/mailto:[email protected]) 通讯作者:Zhuo Sun (https://arxiv.org/html/2605.05693v1/mailto:[email protected]) ###### 摘要 后训练量化(Post-Training Quantization, PTQ)是一种在内存和延迟约束下部署大语言模型(LLMs)的有效方法。大多数现有的 PTQ 方法通过在预定义的校准数据集上最小化逐层重建误差来确定量化参数,通常通过尺度搜索或基于格拉姆(Gram)矩阵的方法进行优化。然而,从泛化风险的角度来看,仅基于有限或无代表性校准数据上的经验重建误差的现有 PTQ 校准目标可能会导致量化权重偏离原始权重。这可能导致泛化风险发散,从而降低下游性能。为了解决这一问题,我们提出了*显著性感知正则化量化校准*(Saliency-Aware Regularized Quantization Calibration, SARQC),这是一个统一的框架,通过引入显著性感知正则化项来增强标准 PTQ 目标。该正则化项鼓励量化权重在校准过程中保持接近原始权重,从而改善推理阶段的泛化能力。SARQC 可以无缝集成到现有的 PTQ 流水线中,在统一公式下增强了尺度搜索和基于格拉姆矩阵的方法。在密集型和混合专家(Mixture-of-Experts)大语言模型上的大量实验表明,SARQC 在困惑度(perplexity)和零样本准确率方面均有持续提升,且推理阶段无需额外的计算开销。 $\clubsuit$\clubsuit footnote text: Project Page: https://github.com/Riceormice/SARQC ## 1 引言 大语言模型(LLMs)的参数规模已达到数百亿甚至更多,在指令跟随、知识密集型问答、代码生成和多步推理等任务中表现出强大的能力(OpenAI et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib25); Jiang et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib31); Grattafiori et al., 2024 (https://arxiv.org/html/2605.05693#bib.bib43); Yang et al., 2025 (https://arxiv.org/html/2605.05693#bib.bib55))。然而,部署这些模型的成本依然高昂。巨大的参数规模导致高内存占用,而自回归解码往往受限于内存带宽,因为每生成一个 token 都需要反复从内存中加载权重。为了高效部署 LLMs,后训练量化(PTQ)已成为内存受限场景下广泛采用的技术。 现有的 PTQ 算法旨在将浮点(FP)LLM 转换为量化模型(Banner et al., 2019 (https://arxiv.org/html/2605.05693#bib.bib5); Gholami et al., 2021 (https://arxiv.org/html/2605.05693#bib.bib24))。这类压缩模型通常以低位整数格式(如 INT4)存储其权重。大多数 PTQ 流水线通过在小型校准数据集上最小化 FP 模型与量化模型之间逐层或逐块的输出重建误差,来确定量化参数(如尺度、零点、裁剪阈值和舍入决策)(Nagel et al., 2020 (https://arxiv.org/html/2605.05693#bib.bib49); Li et al., 2021 (https://arxiv.org/html/2605.05693#bib.bib35); Frantar et al., 2022 (https://arxiv.org/html/2605.05693#bib.bib19))。与通常涉及大量数据和训练成本的量化感知训练(QAT)(Liu et al., 2024 (https://arxiv.org/html/2605.05693#bib.bib39))相比,后训练量化提供了一种更高效的替代方案,仅使用少量校准集和极少的计算量即可对 LLMs 进行量化(Wei et al., 2022 (https://arxiv.org/html/2605.05693#bib.bib60); Xiao et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib65); Frantar et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib20); Lin et al., 2024 (https://arxiv.org/html/2605.05693#bib.bib38); Tian et al., 2025 (https://arxiv.org/html/2605.05693#bib.bib57))。 在本工作中,我们主要关注仅权重 PTQ 技术,即将 FP 权重量化为低位格式,同时保持激活值为浮点精度。这些方法显著降低了内存占用,并提高了内存受限服务场景下的吞吐量(Lin et al., 2024 (https://arxiv.org/html/2605.05693#bib.bib38); Liang et al., 2026 (https://arxiv.org/html/2605.05693#bib.bib54))。 > 参见图注 (a) > 参见图注 (b) > > **图 1:我们的动机阐释与验证。** > *(a) 概念阐释*:更小的 $\mathbb{E}_X[\|\widehat{\mathbf{W}}_l X - \mathbf{W}_l X\|_2^2]$ 通常意味着更好的下游性能。传统的校准仅最小化重建损失,这可能引起*权重漂移*并降低性能。最优解位于平衡*输出不匹配*和*权重漂移*的*甜点区*。 > *(b) 我们动机的实证证据*:在 LLaMA2-7B 上使用 SARQC-GBS(W4A16 格式),在原始 FP 权重上施加适度正则化时,可获得最佳下游准确率。此处报告的是第 4.1 节 (https://arxiv.org/html/2605.05693#S4.SS1) 描述的八个评估任务的平均准确率。$L_{\text{recon}}$ 和 $L_{\text{sar}}$ 分别是方程 8 (https://arxiv.org/html/2605.05693#S3.E8) 中定义的重建误差和显著性感知正则项。参见附录 F.2 (https://arxiv.org/html/2605.05693#A6.SS2) 中的图 4 (https://arxiv.org/html/2605.05693#A6.F4) 以查看权重漂移的可视化结果。更多细节请参见附录 F.1 (https://arxiv.org/html/2605.05693#A6.SS1)。 ### 动机 最近的仅权重 PTQ 方法通过在预定的(通常很小)校准集上最小化逐层重建误差来选择量化权重(Lin et al., 2024 (https://arxiv.org/html/2605.05693#bib.bib38); Frantar et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib20); Li et al., 2025 (https://arxiv.org/html/2605.05693#bib.bib36))。具体而言,对于一个具有输入激活 $\mathbf{X}_l$ 和 FP 权重 $\mathbf{W}_l$ 的线性层,典型的 PTQ 校准过程通过最小化 $\|\mathbf{W}_l \mathbf{X}_l - \widehat{\mathbf{W}}_l \mathbf{X}_l\|_F^2$ 来选择量化权重 $\widehat{\mathbf{W}}_l$。然而,基于重建的 PTQ 校准并未明确约束去量化权重保持接近原始 FP 权重,这可能导致不良的权重漂移。在推理期间,仅权重量化的 LLMs 仍依赖于去量化权重与浮点激活交互,因此与原始 FP 权重的较大偏差可能会降低下游性能。 如图 1 (https://arxiv.org/html/2605.05693#S1.F1) 和附录 F.2 (https://arxiv.org/html/2605.05693#A6.SS2) 中的图 4 (https://arxiv.org/html/2605.05693#A6.F4) 所示,仅最小化重建误差的校准即使在校准损失较小时,也可能引发不良的权重漂移。特别是,较小的重建误差并不能保证较小的权重漂移 $\|\mathbf{W}_l - \widehat{\mathbf{W}}_l\|_F^2$;事实上,这两个目标可能存在冲突。如定理 3.1 (https://arxiv.org/html/2605.05693#S3.Thmtheorem1) 后续所述,这可能导致模型处于泛化风险放大的状态。通过引入显式的差异正则化项,这种权衡变得更加明确和可控。随着正则化强度的增加,权重漂移减小而重建误差上升,最佳下游性能出现在这一权衡曲线的中间点,如图 1 (https://arxiv.org/html/2605.05693#S1.F1) 所示,这在推论 3.2 (https://arxiv.org/html/2605.05693#S3.Thmtheorem2) 中进行了形式化描述。 ### 我们的方法 受此观察启发,我们提出了*显著性感知正则化量化校准*(SARQC),这是一种通用的后训练量化校准框架,通过在标准逐层重建目标中增加针对权重漂移的显式正则化项来实现。原始 FP 模型作为自然的参考点,添加的正则化项约束量化解不要偏离原始点太远。这导致了更平衡的校准目标,更好地保留了原始 FP 模型的行为,并对有限或无代表性的校准数据更具鲁棒性。重要的是,SARQC 可以无缝集成到现有的 PTQ 算法中,并适用于两种主要的 PTQ 范式,即网格搜索方法(Xiao et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib65); Lin et al., 2024 (https://arxiv.org/html/2605.05693#bib.bib38))和基于格拉姆矩阵的方法(Frantar et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib20); Li et al., 2025 (https://arxiv.org/html/2605.05693#bib.bib36))。 ### 主要贡献 本工作的主要贡献如下: 1. 我们提出了*显著性感知正则化量化校准*(SARQC),这是一种针对大语言模型仅权重后训练量化(PTQ)的正则化校准方法,明确控制来自原始 FP 权重的权重漂移。 2. 我们从泛化风险和约束优化的角度提供了理论分析。 3. 通过大量实验,我们证明了所提出的方法广泛适用于各种 PTQ 范式,并在广泛的 LLM 家族和模型规模上 consistently 取得优越的性能。 ## 2 背景 在本节中,我们简要回顾 LLMs 的量化和后训练量化。更多预备知识请参见附录 B (https://arxiv.org/html/2605.05693#A2) 和附录 C (https://arxiv.org/html/2605.05693#A3)。 ### 量化与去量化 量化将高精度浮点值(如 BF16/FP16)映射到离散整数值(如 INT2/INT4),从而降低内存成本并提高内存受限场景下的吞吐量。对于本工作考虑的仅权重量化,浮点权重值 $w$ 量化如下: $$ w_{\text{INT-N}} = \text{round}\left(\frac{w_{\text{FP16}}}{\eta}\right), \quad \eta = \frac{\max\|w\|}{2^{N-1}-1} \quad (1) $$ 其中 $N$ 是位数(例如,对于 INT4,$N=4$),$\eta$ 是量化步长。相应的去量化过程重建量化值的浮点近似值 $\hat{w} = \eta \cdot w_{\text{INT-N}}$。在仅权重量化的 LLMs 推理过程中执行此类去量化操作。为简化符号,我们假设以零为中心的对称量化方案。非对称情况可以通过引入零点类似处理;更多细节请参见附录 C.1 (https://arxiv.org/html/2605.05693#A3.SS1)。 权重量化可以以各种粒度应用,包括逐张量、分组和逐通道量化;详见 Xiao et al. (2023) (https://arxiv.org/html/2605.05693#bib.bib65)。 ### LLMs 中 PTQ 的挑战 尽管量化在内存受限部署中颇具吸引力,但如上所述地天真应用可能导致下游任务性能显著下降。这是由于 LLMs 激活值和权重中的“离群值”引起的。这些“离群值”是(可能极端的)大值,可能占据低位格式的有限动态范围并降低量化保真度(Xie et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib1); Xiao et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib65); Lin et al., 2024 (https://arxiv.org/html/2605.05693#bib.bib38))。 为了缓解这些挑战,一类工作对权重和激活都应用额外的缩放因子(Xiao et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib65); Lin et al., 2024 (https://arxiv.org/html/2605.05693#bib.bib38))。即,对于一个具有权重 $\mathbf{W}_l \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}}$ 的线性层,给定缩放因子矩阵 $\widetilde{\mathbf{S}}_l \in \mathbb{R}^{d_{\text{in}} \times d_{\text{in}}}$ 和基于校准数据的输入 $\mathbf{X}_l \in \mathbb{R}^{d_{\text{in}} \times n}$,该层的输出可以重写为: $$ \mathbf{Y}_l := \mathbf{W}_l \mathbf{X}_l = \left(\mathbf{W}_l \widetilde{\mathbf{S}}_l\right) \left(\widetilde{\mathbf{S}}_l^{-1} \mathbf{X}_l\right) \quad (2) $$ 其中 $\widetilde{\mathbf{S}}_l^{-1}$ 表示 $\widetilde{\mathbf{S}}_l$ 的逆。此变换是函数保持的,因为在没有离散化误差的情况下,它使层输出保持不变。常见的选择是取 $\widetilde{\mathbf{S}}_l := \text{diag}(\tilde{s}_l)$,其中 $\tilde{s}_l \in \mathbb{R}^{d_{\text{in}}}$ 是从权重和激活的统计摘要中构造的逐通道缩放向量。最优量化操作 $Q$(包括 $\widetilde{\mathbf{S}}_l$ 和相关量化权重 $\widehat{\mathbf{W}}_l$)通过最小化 $\|\widehat{\mathbf{W}}_l \mathbf{X}_l - \mathbf{W}_l \mathbf{X}_l\|_F^2$ 来选择。例如,AWQ(Lin et al., 2024 (https://arxiv.org/html/2605.05693#bib.bib38))利用激活统计信息指导逐通道缩放因子 $\tilde{s}_l$,以更好地保留仅权重 PTQ 中的显著通道。这种方法通过对激活应用 $\text{diag}(\tilde{s}_l)^{-1}$ 来缓解激活离群值的影响,而缩放后的权重 $\mathbf{W}_l \text{diag}(\tilde{s}_l)$ 可以被吸收到离线权重中。在推理期间,逆缩放可以融合到相邻的操作符中,避免额外的运行时开销。 另一类工作应用正交或结构化旋转来在量化前跨维度重新分配离群值,旨在使激活和权重都更易于量化。例如,QuIP(Chee et al., 2023 (https://arxiv.org/html/2605.05693#bib.bib10))引入正交变换以减少离群值的影响,QuaRot(Ashkboos et al., 2024 (https://arxiv.org/html/2605.05693#bib.bib4))使用哈达玛风格变换来抑制离群值同时保留模型功能,SpinQuant(Liu et al., 2025 (https://arxiv.org/html/2605.05693#bib.bib41))进一步优化了旋转
相似文章
Tequila:一种面向大语言模型的无陷阱三元量化方法
本文介绍了Tequila,这是一种针对大语言模型的无陷阱量化方法,通过将陷入死区的权重重新利用为动态偏置,提高了三元量化的准确性和推理速度。
超越表面统计:通过内部表示实现LLM鲁棒共形预测
本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。
从信号退化到计算崩溃:揭示LLM量化的两种失效模式
研究者发现激进LLM量化存在两种截然不同的失效模式——信号退化与计算崩溃,并证明无需训练的修复手段仅能缓解前者,表明超低比特模型需进行结构性重建。
MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉
# MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉 来源:[https://arxiv.org/html/2604.16929](https://arxiv.org/html/2604.16929) Ruijun Huang1,Zhiqiao Kang1,Yuxuan Zhu1,Junxiong Li1,Jiahao Zhao1, Minghuan Tan1,Feng Jiang211footnotemark:1,Min Yang1 1 中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室 2 深圳大学人工智能研究院
BitCal-TTS:面向量化推理模型的比特校准测试时扩展
本文介绍了 BitCal-TTS,这是一种运行时控制器,通过在测试时扩展期间校准置信度信号,提高了量化推理模型的准确性并减少了过早终止的问题。