LC-QAT:基于线性约束向量量化的数据高效2比特LLM量化感知训练

arXiv cs.CL 论文

摘要

提出LC-QAT,一种用于大语言模型的2比特仅权重量化感知训练框架,通过学习仿射映射实现端到端训练,仅使用0.1%–10%的训练数据即达到最优结果。

arXiv:2606.10531v1 公告类型:新 摘要:量化感知训练(QAT)对于超低比特大语言模型(LLM)至关重要。当前的QAT方法主要基于标量量化(SQ),其优化高效但在2比特精度下性能严重下降。另一方面,向量量化(VQ)提供更高的表示能力,但其离散码本查找阻碍了端到端训练。我们提出LC-QAT,一种2比特仅权重的VQ-QAT框架,通过离散向量上的学习仿射映射来表示量化权重,从而获得高质量的PTQ初始化,并在训练前向过程中无需显式码本查找即可实现完全可微的端到端优化。这种强大的训练后初始化使LC-QAT具有极高的数据效率。在多种LLM上的实验表明,仅使用0.1%–10%的训练数据,LC-QAT即可持续优于最先进的QAT方法。我们的结果确立了LC-QAT作为极端低比特模型部署的实用且可扩展的解决方案。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:11

# LC-QAT:通过线性约束向量量化实现高数据效率的2比特LLM量化感知训练
来源:https://arxiv.org/html/2606.10531
Xingyu Yu†\^\{\\text\\{\\textdagger\\}\} Haiyan Zhao†\^\{\\text\\{\\textdagger\\}\} Fengxiang Wang Xu Han†\^\{\\text\\{\\textdagger\\}\}

###### 摘要

量化感知训练(QAT)对于极低比特大语言模型(LLMs)至关重要。当前的QAT方法主要基于标量量化(SQ),虽然优化高效,但在2比特精度下性能严重下降。另一方面,向量量化(VQ)提供了显著更高的表示能力,但其离散码本查找阻碍了端到端训练。我们提出LC-QAT,一个2比特权重量化VQ-QAT框架,通过对离散向量应用学习到的仿射映射来表示量化权重,从而获得高质量PTQ初始化,并支持完全可微分的端到端优化,无需在训练前向传播中进行显式码本查找。这种强后训练初始化使LC-QAT具有高度数据效率。在多种LLM上的实验表明,LC-QAT持续优于最先进的QAT方法,同时仅使用0.1%–10%的训练数据。我们的结果确立了LC-QAT作为一种实用且可扩展的极低比特模型部署方案。

Machine Learning, ICML

## 1 引言

大语言模型(LLMs)在各种任务中取得了显著成功,但其巨大的内存和计算需求给在资源受限设备上的部署带来了挑战。因此,模型量化(Frantar et al., 2022 (https://arxiv.org/html/2606.10531#bib.bib25); Egiazarian et al., 2024 (https://arxiv.org/html/2606.10531#bib.bib11))已成为实现高效推理的关键技术,尤其是在极低比特场景(如1-2比特)(Hao et al., 2025 (https://arxiv.org/html/2606.10531#bib.bib26); Chee et al., 2023 (https://arxiv.org/html/2606.10531#bib.bib10); Baalen et al., 2024 (https://arxiv.org/html/2606.10531#bib.bib9); Zhou et al., 2025 (https://arxiv.org/html/2606.10531#bib.bib41); Tseng et al., 2024b (https://arxiv.org/html/2606.10531#bib.bib40))。

现有的量化方法通常分为后训练量化(PTQ)(Frantar et al., 2022 (https://arxiv.org/html/2606.10531#bib.bib25); Egiazarian et al., 2024 (https://arxiv.org/html/2606.10531#bib.bib11))和量化感知训练(QAT)(Ma et al., 2025 (https://arxiv.org/html/2606.10531#bib.bib53); Liu et al., 2023 (https://arxiv.org/html/2606.10531#bib.bib55))。在激进的2比特设置下,QAT通过调整模型参数来补偿量化误差,始终优于PTQ(Liu et al., 2025 (https://arxiv.org/html/2606.10531#bib.bib15))。然而,大多数现有QAT框架依赖于标量量化(Ma et al., 2025 (https://arxiv.org/html/2606.10531#bib.bib53); Egiazarian et al., 2024 (https://arxiv.org/html/2606.10531#bib.bib11))。这些基于SQ的QAT方法通常独立地对每个权重进行量化和反量化,以在训练中纳入量化误差。虽然易于优化,但基于SQ的QAT在超低精度下遭受严重的信息损失,导致初始化较弱,且严重依赖大量训练数据来恢复。

相比之下,向量量化使用共享码本中的条目来表示权重组,并在2比特约束下提供显著更强的表示能力。通过将每组权重分配给 个可能的码字之一,基于VQ的方法比SQ保留了更多信息,并实现了更高的后量化精度(Egiazarian et al., 2024 (https://arxiv.org/html/2606.10531#bib.bib11); Baalen et al., 2024 (https://arxiv.org/html/2606.10531#bib.bib9); Zhou et al., 2025 (https://arxiv.org/html/2606.10531#bib.bib41))。然而,将VQ纳入端到端QAT仍然极具挑战性。核心困难在于量化过程中耗时的最近邻搜索和反量化过程中的离散码本查找。现有解决此问题的尝试依赖于昂贵的坐标下降或波束搜索过程(Malinovskii et al., 2024 (https://arxiv.org/html/2606.10531#bib.bib54)),导致模型参数更新效率低下且不同步。

在这项工作中,我们提出了LC-QAT,一个新颖的端到端向量量化感知训练框架,用于2比特权重量化,克服了这一根本限制。我们的关键思想是用线性约束参数化替换无约束码本。如图1 (https://arxiv.org/html/2606.10531#S1.F1)所示,权重矩阵中的每个码字通过对离散四值向量应用共享线性映射生成。这种重构将离散索引选择转化为简单的取整和裁剪操作,随后进行线性投影,使得梯度能够通过量化过程传播,而无需显式索引搜索。因此,LC-QAT使向量量化权重在标准反向传播下可训练。

参见图注

图1:具有线性约束参数化的LC-QAT训练流程。通过用SQ风格的取整/裁剪离散化后接仿射投影替换离散码本查找,LC-QAT使得VQ-QAT在前向传播中无需查找,并与标准端到端反向传播兼容。基于高质量的2比特初始化,LC-QAT实现了高效微调,同时显著降低了数据需求。在多个大规模LLM和基准测试上的实验表明,我们的方法仅使用0.1%–10%的训练数据即可匹配或超越最先进的基于SQ和VQ的QAT方法。

总之,我们的主要贡献如下:

- •我们提出了一种2比特VQ-QAT的无查找参数化方法,消除了训练中的显式码本查找,并通过标准反向传播实现端到端优化。
- •我们提供了经验证据,表明LC-QAT比基于SQ的2比特QAT起始于一个更有利的优化区域,这有助于解释其改进的可训练性和数据效率。
- •大量实验表明,LC-QAT在最终精度上优于先前的VQ-QAT方法,并且在数据效率上显著优于SQ-QAT方法,随着训练预算在多种基准上的增加,性能持续提升。

## 2 预备知识与初始化

在本节中,我们首先介绍神经网络权重的向量量化公式,然后描述提出的线性约束码本以及LC-QAT采用的初始化过程。最后,我们对由此产生的优化景观进行初步分析。

### 2.1 神经网络权重的向量量化

考虑线性层中的权重矩阵 。在向量量化中,矩阵沿预定义维度 被划分为大小为 的组。令 表示第 个权重组。共享码本

用于表示所有组,其中 表示码字数量。

对于每组 ,VQ通过求解最近邻问题

来分配索引,量化后的权重为

在本文考虑的2比特设置下,每个维度取4个离散值,导致 个可能的码字。与将每个权重限制为仅4个值的标量量化相比,VQ提供了显著更高的表示能力。

尽管具有强大的表达能力,但 中的离散分配本质上关于索引 不可微分。因此,标准的基于梯度的优化无法在训练中直接更新码本索引,这对端到端量化感知训练构成了根本性障碍。

### 2.2 线性约束码本的初始化

为了克服传统码本查找的不可微性,我们将 (Wang et al., 2026 (https://arxiv.org/html/2606.10531#bib.bib68)) 中的PTQ方法扩展到QAT,并使用权重矩阵内共享的线性变换来参数化码字。

具体地,每个码字生成为

其中 是离散四值向量, 和 是浮点参数。

该公式定义了一个结构化码本,其中所有码字位于由 和 决定的仿射子空间中。通过枚举 的所有可能值,所得码本隐式包含 个条目。

与无约束码本相比,提出的线性约束参数化消除了对最近邻搜索的需求。相反,离散向量 可以通过取整和裁剪操作获得,梯度可以通过 中的线性映射传播。提出的线性约束方法与基于格的方法(如Quip\# (Tseng et al., 2024a (https://arxiv.org/html/2606.10531#bib.bib20)) 和NestQuant (Savkin et al., 2025 (https://arxiv.org/html/2606.10531#bib.bib42)))的主要区别在于,前者可以从相同的线性变换生成所有码字。然而,Quip\#中的填充码字和NestQuant中的嵌套码本无法满足这一条件。虽然后者提供了更大的灵活性,但需要码本查找。

在 中, 和 初始化如下:

其中 表示全1向量, 是随机正交矩阵, 是居中常数, 是缩放因子。此初始化确保码本具有近似零均值、单位方差和弱维度间相关性。

我们采用LDLQ算法 (Chee et al., 2023 (https://arxiv.org/html/2606.10531#bib.bib10)) 生成初始量化模型,并按照QuIP\# (Tseng et al., 2024a (https://arxiv.org/html/2606.10531#bib.bib20)), QTIP (Tseng et al., 2024b (https://arxiv.org/html/2606.10531#bib.bib40)), YAQA (Tseng et al., 2025 (https://arxiv.org/html/2606.10531#bib.bib73)) 和NestQuant (Savkin et al., 2025 (https://arxiv.org/html/2606.10531#bib.bib42)) 使用Hadamard变换消除异常值。LDLQ执行逐列分组量化并顺序补偿重构误差。

### 2.3 初步优化分析

我们通过初始点附近的损失景观来经验分析所提出初始化的质量。

遵循Chen等人 (2025 (https://arxiv.org/html/2606.10531#bib.bib67)),我们将Qwen-3-1.7B模型的损失曲面投影到两个给定方向,并评估WikiText-2 (Merity et al., 2016 (https://arxiv.org/html/2606.10531#bib.bib70)) 上的交叉熵损失。图2 (https://arxiv.org/html/2606.10531#S2.F2.sf1) (a) 展示了LC-QAT和基于SQ的QAT的损失景观。结果显示,LC-QAT的初始化接近FP16基线,表明性能下降显著较低。相比之下,基于SQ的初始化明显偏离全局最小值。我们在附录A.3 (https://arxiv.org/html/2606.10531#A1.SS3) 中进一步验证了VQ和SQ初始模型的零样本QA精度。

图2 (https://arxiv.org/html/2606.10531#S2.F2.sf2) (b) 显示LC-QAT初始化位于低损失盆地,并展现出与全精度模型类似的鞍点结构。相比之下,图2 (https://arxiv.org/html/2606.10531#S2.F2.sf3) (c) 显示基于SQ的初始化明显偏离最优区域,且附近缺乏局部最小值。

这种现象可以归因于向量量化在后训练压缩期间保留了更多信息。因此,LC-QAT从参数空间中更有利的区域开始优化,从而降低了后续微调的优化难度,并提高了数据效率。

参见图注

(a) FP16模型的损失景观,以及LC-QAT和基于SQ的QAT模型的初始损失。

参见图注

(b) LC-QAT的损失

参见图注

(c) 基于SQ的QAT的损失

图2:(a) FP16 Qwen-3-1.7B模型的损失景观以及LC-QAT和基于SQ的QAT模型的初始点。损失通过WikiText-2数据集上的交叉熵衡量。LC-QAT接近局部最小值,而SQ模型仍远离最优区域。(b) LC-QAT模型的损失景观。曲面展现出明显的鞍点结构,训练起点 显著更接近局部最小值。(c) 基于SQ的QAT模型的损失景观。曲面具有更高的整体损失值,且缺乏明确定义的局部最小值,表明与LC-QAT相比优化景观更具挑战性。

## 3 方法

参见图注

图3:LC-QAT前向和反向传播的概览。在前向传播中,代理权重被离散化为整数权重以纳入量化误差。计算流程被重新设计以利用Int2-FP16 MatMul内核,这些内核在SQ模型中经过良好优化。在反向传播中,通过绕过传统的码本查找操作,LC-QAT通过近似梯度实现端到端优化。LC-QAT利用可微梯度估计器(DGE)促进整数权重的稳定梯度流。在本节中,我们提出LC-QAT框架,用于VQ LLMs的端到端训练。我们首先给出训练流程的概览。然后介绍前向传播和可微梯度估计器。最后,我们描述训练稳定性的改进。

### 3.1 LC-QAT概览

如图3 (https://arxiv.org/html/2606.10531#S3.F3)所示,LC-QAT使用离散整数变量和线性变换来表示量化权重。在训练期间,这些整数变量通过连续代理权重的离散化获得。梯度通过可微近似传播经过离散化操作。

具体地,LC-QAT维护一组浮点代理权重 。在前向传播中, 通过取整和裁剪转换为整数权重 。然后通过线性约束码本将整数权重解码为有效权重 。得到的权重用于计算输出和训练损失。

在反向传播期间,采用近似梯度估计器通过离散化操作传播梯度,实现对 的端到端优化。

### 3.2 LC-QAT的前向传播

给定代理权重 ,相应的整数权重计算为

其中 表示量化比特宽度, 表示逐元素裁剪。

相似文章

2-bit QAT 模型发布

Reddit r/LocalLLaMA

关于2位量化感知训练(QAT)在更大规模MoE模型上的潜力的讨论,比较其与4位QAT及三元LLM的性能,并探讨在消费级硬件上的可行性。

InfoQuant:为低比特大语言模型量化塑造激活分布

arXiv cs.LG

InfoQuant 提出了一种无需训练的方法——峰值抑制正交变换(PSOT),用于重塑低比特大语言模型量化中的激活分布,在 W4A4KV4 设置下保留了 97% 的浮点精度,并优于之前的 PTQ 方法。