Qift: 移位友好的无零点W2训练后量化,用于旋转W2A4/KV4大语言模型推理
摘要
本文介绍了Qift,一种固定的无零点两位权重量化层级集,专为Hadamard旋转的大语言模型设计,通过利用旋转权重的近零中心高斯类分布,实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示,相比于标准W2量化,困惑度持续提升。
arXiv:2606.02823v1 公告类型:新
摘要:两位权重量化对于内存高效的大语言模型推理具有吸引力,但标准W2层级集{-2,-1,0,+1}在激进的W2A4/KV4设置下经常崩溃。我们研究了Hadamard旋转量化流水线中两位权重的标量层级集几何。传统的非对称W2相较于标准层级集有显著改进,表明W2A4失败不仅是位宽问题,也是重建层级问题。在LLaMA-2-7B和LLaMA-3.1-8B的每个224个线性模块中,预训练权重已经接近零中心,而Hadamard旋转主要将其标准化形状高斯化:超峰度和Q-Q误差下降了多个数量级。基于这种近似零中心的高斯类源模型,我们提出了Qift,一种用于旋转W2A4/KV4推理的固定无零点W2层级集。主层级集为{+/-0.5, +/-1.5},在半尺度重参数化下等价于{+/-1, +/-3};二次幂变体使用{+/-1, +/-4}用于符号与移位解码权重应用。Qift重新设计了固定的两位码到层级映射,并且是免训练、免学习码本、免组网格和免零点的,保留了标准的每通道缩放尺度。尺度不变比率分析确定了内/外质心比率的有效范围为0.25至0.33,解释了为什么镜像无零点(MNZ)、Lloyd、NF2和PoT-MNZ表现良好而{+/-1, +/-2}则不然。在两个模型上,无零点层级集在纯W2A4困惑度、L层混合W2/W4困惑度、下游准确率和GPTQ残差行为方面均相较于标准W2层级集持续改进。在L=16混合精度下,它们显著缩小了与W3A4的差距,同时保持一半的Transformer层为两位精度,为更复杂的学习W2码本提供了一种简单、源感知且易于部署的替代方案。
查看缓存全文
缓存时间: 2026/06/03 09:40
# Qift: 面向旋转W2A4/KV4大语言模型推理的移位友好型无零W2后训练量化 来源: https://arxiv.org/html/2606.02823 Chia-Chi Tsai 国立成功大学 [email protected] ###### 摘要 两比特权重量化对于内存高效的大语言模型(LLM)推理具有吸引力,但标准W2层级集合\\(\\{-2,-1,0,+1\\}\\)在激进的W2A4/KV4设置下经常崩溃。我们研究了Hadamard旋转量化流水线中两比特权重的标量层级集合几何特性。传统的非对称W2相较于标准层级集合有显著改进,表明W2A4失效不仅是位宽问题,更是重建层级问题。在LLaMA-2-7B和LLaMA-3.1-8B各自全部224个线性模块中,我们发现预训练权重已近乎零中心化,而Hadamard旋转主要使其标准化形状高斯化:超额峰度和Q-Q误差下降数个数量级,偏度也大幅减小,而每通道均值相对于每通道标准差仍接近零。 基于这种近似零中心的高斯型源模型,我们提出Qift,一种用于旋转W2A4/KV4推理的固定无零W2层级集合。主要层级集合为\\(\\{\\pm 0.5,\\pm 1.5\\}\\),在半尺度重参数化下等价于\\(\\{\\pm 1,\\pm 3\\}\\);一个2的幂次变体使用\\(\\{\\pm 1,\\pm 4\\}\\),用于符号移位解码权重的应用。Qift重新设计了固定的两比特码到层级映射,且无需训练、无需学习码本、无需分组网格、无需零点,保留了标准的每通道尺度。一个尺度不变比率分析确定了有效的内/外质心比率范围为0.25–0.33,解释了为什么镜像无零(MNZ)、Lloyd、NF2和PoT-MNZ表现良好,而\\(\\{\\pm 1,\\pm 2\\}\\)表现不佳。 在LLaMA-2-7B和LLaMA-3.1-8B上的实验表明,所提出的无零层级集合在纯W2A4困惑度、L层混合W2/W4困惑度、下游准确率和GPTQ残差行为上持续优于标准W2层级集合;如比率分析所示,这种改进需要适当的内/外比率,而非仅仅去掉零层级;比率过大的无零集合如\\(\\{\\pm 1,\\pm 2\\}\\)相比标准层级集合没有改进。在L=16混合精度下,无零层级集合显著缩小了与W3A4的差距,同时保持一半的Transformer层为两比特精度。固定的无零标量层级集合为旋转W2A4/KV4推理提供了一种简单、感知源且硬件一致的替代方案,取代更复杂的学习式W2码本。 ## 1 引言 解码阶段的大语言模型(LLM)推理高度受限于内存:在自回归解码过程中,吞吐量主要受限于从内存中移动权重和键值(KV)缓存的成本,而非算术运算。因此,权重和KV缓存的位宽直接限制了受限硬件上可达到的吞吐量,这使得低位宽量化成为高效推理的核心杠杆。基于旋转的后训练量化(PTQ)已使W4A4/KV4推理日益实用且近乎无损,而W3A4是一个激进但可行的操作点。更极端的W2A4/KV4场景——相对于FP16的8倍权重压缩目标——仍远未被充分探索,并且对量化器设计高度敏感。特别是,其标量重建层级集合在很大程度上继承了标准对称整数量化器,而非针对旋转后的权重分布设计。 现有的低位宽LLM量化方法结合了多种互补要素。平滑技术将激活异常值困难转移到权重中,旋转技术扩散通道级异常值能量,校准和补偿方法如GPTQ和GPTAQ减少剩余离散化误差,混合精度用额外比特保护敏感层,而仅权重量化保持激活为高精度以避免权重和激活量化误差的叠加。这些技术对于实用的低位宽推理至关重要,也构成了本文研究的旋转W2A4/KV4设置的基础。 然而,一旦权重降至两比特,另一种误差源便成为首要问题。只有四个重建层级时,旋转后权重分布密集的中心区域不再能被几乎免费地表示。异常值处理和补偿是必要的但已不再充分:它们相对于选定的W2层级集合进行操作,但并不决定这四个层级是否能很好地表示密集的旋转主体。因此,为了从实用的W4A4/KV4推进到更极端的W2A4/KV4场景,本文将W2重建层级集合本身作为一个一级设计变量来处理。 本文聚焦于旋转LLM量化流水线中两比特权重量化所使用的标量层级集合。在许多对称整数量化器中,b比特权重由一个带符号整数码表示: \\[ q = \\mathrm{clip}\\left(\\left\\lfloor\\frac{w}{s}\\right\\rceil, -2^{b-1}, 2^{b-1}-1\\right), \\quad \\hat{w} = s q, \\tag{1} \\] 其中\\(s\\)是一个每输出通道的尺度。对于\\(b=2\\),这给出了标准W2重建层级集合: \\[ \\mathcal{G}_{\\mathrm{sym}} = \\{-2, -1, 0, +1\\}. \\tag{2} \\] 等价地,四个重建层级为\\(s \\mathcal{G}_{\\mathrm{sym}}\\)。实际中,\\(s\\)可通过最大范围或基于裁剪的MSE搜索来选择,但标量重建几何仍由\\(\\mathcal{G}_{\\mathrm{sym}}\\)决定。 我们使用“重建层级集合”来指代W2量化器使用的四个标量值,而“网格”仅作为非正式同义词。在标量量化术语中,中平量化器在重建层级中包含零,而中升量化器将零置于两个重建层级之间。标准的带符号整数W2网格,记为SYM-INT,属于中平风格:它简单,但将仅有的四个重建层级之一恰好花费在零上,这对于两比特量化器来说并非中性选择。 常规的非对称W2量化直接表明网格(而不仅仅是位宽)是问题所在:简单地将标准SYM-INT网格替换为非对称W2量化器即可大幅降低纯W2A4困惑度(在LLaMA-2-7B上,KV4和GPTQ下,从53.849降至33.533;在LLaMA-3.1-8B上,从3005.556降至113.747)。我们将此视为证据——而非核心结果——即四个重建层级的放置是W2A4失败的主导因素,并仅以此激励一个原则性的、感知源的网格设计。 从量化角度来看,张量分布决定了少量重建层级表示值的效率。一个紧凑且近似对称的源更易量化,因为大多数值位于中心附近,量化器可以将层级分配到高密度区域。相反,偏斜或重尾的源会将范围浪费在罕见的极值上,降低密集中心区域的有效精度。因此,类高斯本身并非最终目标;它是居中、对称、低异常值源的一个有用参考。 这引出了本文的核心问题:经过Hadamard旋转后,两比特权重量化器应使用怎样的标量层级集合?我们展示旋转后的权重可更好地建模为近似零中心且在标准化形状上更类高斯。对于这样的源,一个四层级标量量化器应将两个内部质心置于零附近,两个外部质心置于尾部,而非将一个质心恰好花费在零上。 我们将所提出的设计命名为Qift,即带移位友好型无零W2网格的量化。主要的实用层级集合是镜像无零(MNZ): \\[ \\mathcal{G}_{\\mathrm{MNZ}} = \\{-1.5, -0.5, +0.5, +1.5\\}, \\tag{3} \\] 这是一个均匀的四层级中升层级集合,在半尺度重参数化下等价于奇数整数层级\\(\\{\\pm 1, \\pm 3\\}\\)。我们还研究了一个2的幂次变体PoT-MNZ: \\[ \\mathcal{G}_{\\mathrm{pot}} = \\{-4, -1, +1, +4\\}, \\tag{4} \\] 它保持了镜像无零结构但并非均匀中升网格;其2的幂次幅度支持符号移位解码权重的应用。两种情况下,每通道尺度可在尾声阶段单独应用,如同标准量化线性层。 所提出的网格刻意保持最小化:它们全局使用相同的四个重建层级,仅保留标准的每通道尺度,不引入量化感知训练、学习分区、逐层或分组网格分配(我们称之为无分组网格)、学习码本或非对称零点。因此,Qift将W2量化视为一个精度感知的层级集合设计问题,同时保持为标准W2网格的即插即用替代方案,而非一个新的学习量化器。 ##### 贡献。 我们的贡献总结如下。 - • 我们引入Qift,作为旋转W2A4/KV4推理的一个模块化重建层级重新设计。它将固定的W2层级集合隔离为设计干预,保持周围的旋转、缩放和PTQ补偿流水线不变,且无需量化感知训练、学习码本、分组网格分配或零点元数据。 - • 我们提出镜像无零(MNZ),一个用于近似零中心类高斯旋转权重的固定无零W2标量层级集合。MNZ提供了四层级高斯Lloyd-Max结构的一个简单整数近似,以及一个用于符号移位解码权重应用的2的幂次PoT-MNZ变体。 - • 我们在两个LLaMA模型上验证Qift。所提出的层级集合在纯W2A4、混合W2/W4和下游任务中持续优于标准W2网格,而消融实验表明收益来自有效的内/外质心比率,而非仅仅去除零。 ## 2 相关工作 我们按主要更改的组件来组织先前的低位宽LLM量化工作。一些方法变换量化器所见的张量分布;另一些改进离散化后的校准或误差补偿;第三类则改变量化器本身——其重建层级、分区或码本。表1 (https://arxiv.org/html/2606.02823#S2.T1) 总结了这一视角并定位了Qift。 ##### 等价变换。 一条主要的工作线通过对权重和激活应用数学等价的变换来改善量化,使得得到的张量更易量化。SmoothQuant [4 (https://arxiv.org/html/2606.02823#bib.bib4)] 通过逐通道缩放将激活异常值困难迁移到权重中,而基于旋转的方法使用正交或学习变换减少异常值:QuaRot [3 (https://arxiv.org/html/2606.02823#bib.bib3)] 使用Hadamard旋转实现端到端W4A4/KV4推理,SpinQuant [6 (https://arxiv.org/html/2606.02823#bib.bib6)] 学习旋转矩阵,FlatQuant [7 (https://arxiv.org/html/2606.02823#bib.bib7)] 学习平坦化权重和激活统计的仿射变换。这些方法使张量更有利于量化,但保持标量整数重建层级固定。Qift是互补的:它假设这样一个旋转流水线,并重新设计变换后使用的W2重建层级。 ##### 校准与误差补偿。 另一条工作线使用校准数据减少离散化的影响,而非改变重建层级。GPTQ [1 (https://arxiv.org/html/2606.02823#bib.bib1)] 使用Hessian近似补偿权重量化误差,GPTAQ [2 (https://arxiv.org/html/2606.02823#bib.bib2)] 添加激活感知的非对称校准。AWQ [11 (https://arxiv.org/html/2606.02823#bib.bib11)] 使用激活统计识别并保护显著权重,OmniQuant [12 (https://arxiv.org/html/2606.02823#bib.bib12)] 为后训练量化学习等价变换和裁剪参数。这些方法改进校准或补偿过程;Qift则重新设计固定的W2重建层级集合,并可与此类流水线结合,正如我们在GPTQ/GPTAQ实验中所做的那样。 ##### 量化器与层级集合设计。 第三条工作线改变量化器本身——其重建层级、分区或码本。RCP [8 (https://arxiv.org/html/2606.02823#bib.bib8)] 是最接近的先前工作,因为它也针对W2A4/KV4:它整合了旋转、裁剪和一个使用量化感知训练(QAT)训练的可学习非均匀W2量化器。NF4 [5 (https://arxiv.org/html/2606.02823#bib.bib5)] 使用正态分布动机设计4比特数据类型,在概念上接近我们的高斯Lloyd-Max [14 (https://arxiv.org/html/2606.02823#bib.bib14), 15 (https://arxiv.org/html/2606.02823#bib.bib15)] 和NF2参考。QuIP# [9 (https://arxiv.org/html/2606.02823#bib.bib9)] 和AQLM [10 (https://arxiv.org/html/2606.02823#bib.bib10)] 通过格子或加性向量码本超越了标量量化,LeanQuant [13 (https://arxiv.org/html/2606.02823#bib.bib13)] 学习损失误差感知的自适应网格。Qift在这个设计空间中采取了一个不同的点:它保持量化器为标量、固定、无需训练且无零点,并重新设计四个W2重建层级本身。与RCP的对比是直接的——RCP通过QAT学习非均匀W2分区,而Qift使用固定的、感知源的、后训练的无零标量层级集合。 ##### 仅权重压缩 vs. W2A4/KV4推理。 许多极端低位宽方法,包括QuIP# [9 (https://arxiv.org/html/2606.02823#bib.bib9)] 和AQLM [10 (https://arxiv.org/html/2606.02823#bib.bib10)],主要针对仅权重压缩,其主要收益是减少参数存储和权重内存流量。相比之下,本文研究旋转W2A4/KV4推理设置,其中W2层级必须与四比特激活和KV缓存量化交互。这使得标量W2层级集合设计比仅权重压缩更具约束性。所提出的无零层级集合保持量化器固定且标量,同时避免了学习码本查找和非对称零点元数据。 表1:相关LLM量化技术分类及Qift的位置。该表按方法主要更改的组件分组;并非跨论文精度排行榜。表2:W2量化选择的设计层面定位。该表比较解码和元数据属性,而非报告跨论文精度。CB-free = 无学习码本;ZP-free = 无零点;Group-free = 重建层级、学习质心或查找表不按权重分组分配(仍使用标准每通道缩放)。总体而言,现有方法主要改进张量分布、校准或补偿过程,或量化器的表达能力。Qift聚焦于一个较小但未被充分探索的设计变量:旋转W2A4/KV4 PTQ流水线内部使用的固定四层级W2重建层级集合。表2 (https://arxiv.org/html/2606.02823#S2.T2) 通过解码和元数据属性(是否有码本、无零点、无分组)比较这些方法,并将Qift置于固定、标量、无零的角落。
相似文章
QAM-W:基于哈达玛旋转和激活感知缩放的LLM权重联合二维码本量化
介绍了QAM-W,一种针对LLM权重的联合二维码本量化方法,采用哈达玛旋转和激活感知缩放,在每权重5–6比特下实现接近BF16的困惑度,并以减少32%的权重比特达到与SmoothQuant W8A8相当的质量。
InfoQuant:为低比特大语言模型量化塑造激活分布
InfoQuant 提出了一种无需训练的方法——峰值抑制正交变换(PSOT),用于重塑低比特大语言模型量化中的激活分布,在 W4A4KV4 设置下保留了 97% 的浮点精度,并优于之前的 PTQ 方法。
基于平坦度的理论最优量化
介绍了平坦度度量与双向对角量化(BDQ)用于大型语言模型的训练后量化,实现了接近无损的4比特权重和激活量化,并在极低比特设置下取得了显著改进。
# LiftQuant:基于维度提升与投影的连续比特宽度大语言模型量化
# LiftQuant 引入"先提升后投影"机制,实现大语言模型的连续(非整数)位宽量化,精准适配硬件内存预算。该框架将 70B 大语言模型压缩至 2.4 位以适配 24GB GPU,性能超越当前最先进的 2 位模型。
Mix-Quant: 量化预填充,精准解码的智能体大语言模型
Mix-Quant 提出了一种面向智能体大语言模型的阶段感知量化框架,在预填充阶段使用 NVFP4 量化以加速计算,同时在解码阶段保持 BF16 精度以维持准确性。该方法在智能体基准测试中实现了预填充速度提升最高 3 倍,且性能下降极小。