# LiftQuant:基于维度提升与投影的连续比特宽度大语言模型量化
摘要
# LiftQuant 引入"先提升后投影"机制,实现大语言模型的连续(非整数)位宽量化,精准适配硬件内存预算。该框架将 70B 大语言模型压缩至 2.4 位以适配 24GB GPU,性能超越当前最先进的 2 位模型。
arXiv:2606.04050v1 公告类型:新论文
摘要:现有量化方法从根本上受限于固定的整数比特宽度(如 2 位、3 位),导致大型语言模型无法精确适配特定内存预算,形成"部署鸿沟"。为弥合这一差距,我们提出 LiftQuant——一种支持连续比特宽度控制的新框架,实现真正意义上的 Pareto 最优部署。其核心创新是"提升再投影"机制:将简单的 1 位格(lattice)从高维"提升"空间投影,以此近似低维权重向量。关键在于,有效比特宽度仅由提升维度与原始维度之比决定,而维度本身是一个灵活的结构参数,从而使比特宽度可以准连续地调节。该投影生成一种结构化但非均匀的码本,兼具向量量化(VQ)的高表达能力。相比 VQ,LiftQuant 的解码路径仅依赖线性变换和 1 位均匀量化器,保持了硬件友好的特性。这种灵活性意义重大:LiftQuant 能够将 70B 大型语言模型压缩至 2.4 位,精确适配 24GB 显存的 GPU,其性能显著超越同等设备上部署的最先进 2 位模型。我们的代码和检查点已开源,地址为 https://github.com/Heliulu/LiftQuant。
查看缓存全文
缓存时间: 2026/06/05 02:18
# LiftQuant:基于维度提升与投影的连续比特宽度大语言模型量化框架
来源:https://arxiv.org/html/2606.04050
XuanAng Liu、Juntao Liu、Taolue Feng、Ting Lu、Chunsheng Gan、Zhiyv Peng、Yuan Du、Huanrui Yang、Yijiang Liu、Li Du
###### 摘要
现有量化方法从根本上受限于固定的整数比特宽度(如 2 位、3 位),导致大语言模型无法精确适配特定内存预算,形成所谓的"部署鸿沟"。为弥合这一鸿沟,我们提出 LiftQuant——一种支持连续比特宽度控制的新颖框架,能够实现真正的 Pareto 最优部署。其核心创新在于"提升后投影"机制:将来自高维"提升"空间的简单 1 位格点投影到低维权重向量,从而对其进行近似表示。关键在于,等效比特宽度由提升维度与原始维度之比决定,而维度作为一个灵活的结构参数,使比特宽度可实现近似连续的调节。该投影生成结构化但非均匀的码本,具备向量量化(VQ)的强大表达能力。与 VQ 相比,LiftQuant 的解码路径仅依赖线性变换和 1 位均匀量化器,保持了对硬件友好的特性。这种灵活性具有变革意义:LiftQuant 能够将 70B 大语言模型压缩至 2.4 位以精确适配 24GB GPU,其性能显著超越同等设备上的最先进 2 位模型。我们的代码和模型权重已发布于 https://github.com/Heliulu/LiftQuant。
机器学习,ICML
## 1 引言
大语言模型(LLMs)在各类任务中展现出前所未有的能力,但其庞大的参数量给部署带来了严峻挑战。"内存墙"依然是主要瓶颈:运行最先进的模型(如 70B 参数规模)通常需要高端多 GPU 集群,使其难以在消费级硬件或边缘设备上部署。因此,仅权重量化已成为将这些模型压缩至可管理规模的标准做法。
然而,当前量化范式存在一个根本性的低效问题:整数比特宽度的刚性约束。无论是基于均匀量化(UQ)还是向量量化(VQ)的方法,都强迫用户在离散压缩级别(如 2 位、3 位或 4 位)之间做出选择。这在模型大小与硬件容量之间造成了显著的"部署鸿沟"。举例来说,在配备 24GB 显存的消费级 GPU 上部署 Llama-3-70B 模型时,3 位量化过大无法装入,而 2 位量化虽然足够小,却导致推理能力的灾难性下降。2 位与 3 位之间的硬件内存空间被白白浪费,模型的潜在性能也被粗粒度量化方案所限制。
参见图注
图 1:**24GB GPU 上的 Pareto 最优部署**。Llama-3-70B 在 WikiText-2 和 C4 上的困惑度与内存占用对比。QTIP 和 EfficientQAT 等先进整数量化方法或浪费内存或超出限制,而 LiftQuant 能够生成 2.4 位模型,充分利用可用显存,显著优于 2 位基线。注意,预留内存缓冲区(红色区域)是动态的,随部署场景而变化(如 KV 缓存长度与精度、批次大小、lm.head 精度)。LiftQuant 允许灵活调整比特宽度,以精确匹配剩余可用内存。
为弥合这一鸿沟,我们提出 LiftQuant——一种将刚性比特宽度选择转化为连续设计空间的新颖量化框架。据我们所知,LiftQuant 是首个为大语言模型支持任意小数比特宽度(如 2.4 位)的框架,能够在严格内存约束下实现真正的 Pareto 最优部署。我们的方法有别于传统标量或向量码本学习,而是采用"提升后投影"机制:将每个权重向量构建为高维空间中简单 1 位格点元素的可学习线性组合。该方法有效将量化率与编码格式解耦——等效比特宽度仅为高维提升空间与目标权重空间的维度之比。通过小幅调整提升维度的大小,LiftQuant 可以以细粒度精度调节压缩率,自然地产生连续的小数比特宽度,而无需改变底层量化算子。
这一范式转变提供了"两全其美"的解决方案。该投影生成结构化的非均匀量化,其表达能力可媲美向量码本,而解码过程仅依赖低复杂度线性变换和 1 位均匀量化器。我们的大量实验表明,LiftQuant 不仅能够媲美最先进的整数量化方法,更重要的是,在实际部署场景中主导了 Pareto 前沿。例如,LiftQuant 能够将 70B 模型压缩至 2.4 位以精确装入 24GB GPU(图 1),同时也支持将 32B 模型以 2.5 位部署在广泛普及的 12GB GPU 上。
我们的主要贡献总结如下:
- **连续比特宽度控制以实现 Pareto 最优**:我们提出 LiftQuant,这是一种通过将量化与整数网格解耦来实现连续比特宽度调节的新颖框架。这种灵活性使模型能够充分利用可用硬件内存,实现真正的 Pareto 最优部署。
- **高维非均匀性**:我们引入"提升后投影"机制,从高维空间程序化地生成结构化非均匀码本。该方法捕获了向量量化(VQ)的表达能力,使 LiftQuant 能够匹配或超越最先进 VQ 方法的精度。
- **统一的硬件友好推理架构**:我们在解码路径仅依赖低复杂度线性变换和 Int1 均匀量化器的前提下实现了高精度,提供了一个支持任意精度配置的统一算子,简化了工程部署。
## 2 相关工作
仅权重量化已成为在严格内存和延迟约束下部署大语言模型最有效的策略之一。
**均匀标量量化(UQ)** 是最广泛使用的方法,其中浮点权重向量 $w$ 被表示为 $w_q \cdot s$,$w_q$ 存储低位整数值,$s$ 为浮点缩放因子。由于大语言模型权重的非均匀值分布,近期 UQ 方法引入了轻量级预处理以使权重更适合量化。这些方法包括:用于保留重要通道的分组量化(如 AWQ(Lin et al., 2024))、低秩误差补偿(如 QLoRA(Dettmers et al., 2023)、(Liu et al., 2025))、以及用于重塑权重分布的矩阵变换(如 QuIP#(Tseng et al., 2024a)、Quarot(Ashkboos et al., 2024)、SpinQuant(Liu et al., 2024b)、FlatQuant(Sun et al., 2024))。
**非均匀量化方法** 通过创建专用码本来提升性能。这些方法可以是基于标量的,使用数据驱动的量化级别(如 NF4(Dettmers et al., 2023))或加性基向量(如 BCQ(Xu et al., 2018;Park et al., 2025)),但会忽略维度间的相关性。向量量化(VQ)通过将权重向量映射到可学习码本来解决这一问题,利用元素间的相关性在超低比特场景下实现更高精度(如 AQLM(Egiazarian et al., 2024)、VPTQ(Liu et al., 2024a)、QTIP(Tseng et al., 2024b))。然而,VQ 依赖大型且对硬件不友好的查找表,带来显著的解码开销。
**整数比特宽度的不灵活性**。尽管方法多样,但所有这些方法有一个共同的关键限制:依赖固定的整数比特宽度(如 2、3、4 位)。这种不灵活性使得模型无法最优地适配特定硬件内存预算。虽然存在一些变通方案,但本质上仍受到约束。例如,UQ 方法可以通过改变分组大小(如 EfficientQAT(Chen et al., 2024)中从 128 到 64)来粗粒度地调节等效比特宽度,但这只提供了有限的几个离散"档位",而非连续频谱。其他方法通过使用非 2 次幂码本实现特定小数比特宽度(如三值量化 $\sim$ 1.58 位(Wang et al., 2025)),但需要专用的非标准内核。最值得注意的是,Q-Palette(Lee and Song, 2025)最近提出了一系列小数位量化器。然而,它通过组合不同量化器(标量、向量、网格)的异构混合来实现小数位,这需要为每种配置维护一个复杂的专用内核库。相比之下,我们的 LiftQuant 通过单一、统一且对硬件友好的架构实现连续比特宽度控制。只需调整投影维度,即可实现任意比特宽度,而无需改变底层算子。
参见图注(a)$[\pm 1]^2 \to \mathbb{R}^1 = 2\ \text{bit}$
参见图注(b)$[\pm 1]^4 \to \mathbb{R}^2 = 2\ \text{bit}$
参见图注(c)$[\pm 1]^5 \to \mathbb{R}^2 = 2.5\ \text{bit}$
参见图注(d)$[\pm 1]^8 \to \mathbb{R}^3 = 2.67\ \text{bit}$
图 2:**LiftQuant 码字生成可视化**。我们的方法通过将简单均匀格点从高维"提升"空间投影到低维目标子空间,生成结构化的非均匀码本。
## 3 LiftQuant:基于提升投影的连续比特宽度控制
当前量化范式陷于表示容量与整数比特宽度之间的刚性耦合困境。无论使用标量网格(UQ)还是向量码本(VQ),等效比特率均由离散设计选择决定——例如网格点数量或码本大小——无法平滑调节。这种刚性导致了第 1 节及图 1 中讨论的"部署鸿沟",使模型无法最优利用可用硬件内存。此外,尽管 VQ 通过非均匀量化提供了更高精度,但其对查找表(LUT)的依赖引入了显著的延迟和工程复杂性,难以高效部署。
**核心洞见:将比特宽度与编码格式解耦**。我们的核心洞见在于,可以通过将量化过程转移到高维空间来将等效比特宽度与编码格式解耦。我们不在目标权重空间 $\mathbb{R}^d$ 中直接量化,而是将权重表示为来自高维"提升"空间 $\mathbb{R}^D$ 的简单 1 位均匀格点的投影。
关键在于,这种"提升后投影"机制将比特宽度从离散的架构常量转变为连续可调的比率 $D/d$。只需调整维度 $D$,即可实现任意所需的小数比特宽度(如 24/10 = 2.4 位),而无需改变底层的 1 位量化算子。如图 2 所示,这种线性投影自然地在目标空间中生成密集的类高斯码本,从而在保留简单矩阵乘法硬件效率的同时,捕获了 VQ 的表达能力。
基于上述原则,LiftQuant 分三个阶段运行。在第 3.1 节中,我们学习定义小数比特宽度和码本结构的全局投影矩阵 $\bm{M}$。在第 3.2 节中,我们引入一个轻量级的逐层白化变换 $\bm{T}$,将权重重塑为我们投影所需的独立同分布高斯分布。最后,在第 3.3 节中,我们详细介绍量化与解码流程,其中融合算子 $\bm{o} = \text{diag}(\bm{s})\bm{W}(\bm{M}\bm{T}\bm{a})$ 实现高效推理。
### 3.1 从提升空间到子空间的投影
我们的方法建立在高维几何的渐近性质之上。具体而言,中心极限定理(CLT)的一个推论指出:当维度增大时,高维超立方格点(即独立 Bernoulli 变量)向低维子空间的线性投影收敛至高斯分布(Diaconis and Freedman, 1984)。
形式上,对于权重向量 $\bm{w} \simeq \bm{M}\bm{w_q}$,其中 $\bm{w} \in \mathbb{R}^d$,$\bm{w_q} \in \{+1, -1\}^D$,每个元素 $w_i = \sum_{j=1}^{D} \bm{M}_{ij} \bm{y}_j$ 表示独立随机变量之和。我们将 $\bm{M}$ 称为**映射矩阵**。因此,生成的码本自然在目标空间中形成密集的类高斯分布。这为我们的方法提供了强有力的理论支撑:LiftQuant 并非简单地"学习"拟合大语言模型的高斯权重,而是在结构上通过设计生成高斯先验。
参见图注
图 3:**LiftQuant 反量化机制**。高维提升空间中的 1 位量化张量通过映射矩阵 $\bm{M}$ 进行投影,生成反量化后的权重张量。
**$\bm{M}$ 的优化**。虽然 CLT 保证了渐近高斯性,但实际部署需要有限且相对较小的提升维度 $D$ 以保持计算效率。在此场景下,向完美高斯分布的收敛是不完整的。为弥合这一差距,我们显式优化 $\bm{M}$ 以最小化标准高斯分布上的量化误差。我们将 $\bm{M}$ 的行初始化为正交归一向量,以鼓励不相关的投影。然后在 $\mathcal{W_N} \sim \mathcal{N}(0, \bm{I}_d)$ 上训练该矩阵:
$$\bm{M}^* = \arg\min_{\bm{M}} \; \mathbb{E}_{\bm{w} \sim \mathcal{N}} \left[ \min_{\bm{w}_q \in \{-1,+1\}^{d_s \cdot b}} \big\| \bm{w} - \bm{M}\bm{w}_q \big\| \right], \tag{1}$$
其中内层最小化表示最近邻搜索(量化过程)。训练过程中,我们对不可微的相似文章
用于大语言模型压缩的联合结构化剪枝与混合精度量化
一种新颖的端到端大语言模型压缩框架,联合优化结构化剪枝与混合精度量化,在超低位宽精度下,相比于现有最先进方法实现了显著的困惑度降低和加速效果。
通过联合优化架构与量化策略实现 LLM 压缩
来自 UiT 和奥斯陆大学的研究人员提出了一种可微分 NAS 框架,能够联合优化 LLM 压缩中的架构配置与混合精度量化策略。与先 NAS 后量化的顺序基线方法相比,该框架在七项推理任务中可实现最高 1.4 倍的推理加速,或最高 6% 的精度提升。
Qift: 移位友好的无零点W2训练后量化,用于旋转W2A4/KV4大语言模型推理
本文介绍了Qift,一种固定的无零点两位权重量化层级集,专为Hadamard旋转的大语言模型设计,通过利用旋转权重的近零中心高斯类分布,实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示,相比于标准W2量化,困惑度持续提升。
LC-QAT:基于线性约束向量量化的数据高效2比特LLM量化感知训练
提出LC-QAT,一种用于大语言模型的2比特仅权重量化感知训练框架,通过学习仿射映射实现端到端训练,仅使用0.1%–10%的训练数据即达到最优结果。
Mix-Quant: 量化预填充,精准解码的智能体大语言模型
Mix-Quant 提出了一种面向智能体大语言模型的阶段感知量化框架,在预填充阶段使用 NVFP4 量化以加速计算,同时在解码阶段保持 BF16 精度以维持准确性。该方法在智能体基准测试中实现了预填充速度提升最高 3 倍,且性能下降极小。