QAM-W:基于哈达玛旋转和激活感知缩放的LLM权重联合二维码本量化
摘要
介绍了QAM-W,一种针对LLM权重的联合二维码本量化方法,采用哈达玛旋转和激活感知缩放,在每权重5–6比特下实现接近BF16的困惑度,并以减少32%的权重比特达到与SmoothQuant W8A8相当的质量。
arXiv:2605.26339v1 Announce Type: new
摘要:标量后训练量化器会丢弃权重行内的成对坐标结构。我们提出了QAM-W(权重的正交幅度调制),一种恢复该结构的编解码器:每行经过L2归一化、块哈达玛旋转、配对为二维坐标,并使用针对单位圆高斯分布训练的单个Lloyd-Max码本进行量化,同时结合激活感知的每通道缩放。在一项涵盖四个系列五个LLM(1.1B–13B参数)及八种量化配置的跨模型研究中,激活感知变体在约5.5 bpw下,每个模型的BF16 WikiText-2困惑度偏差均在±0.4%以内,并以减少32%的权重比特匹配SmoothQuant W8A8质量包络。联合二维编码在相同比特率下比极坐标(幅度×相位)编码在ΔPPL上提升2–15个百分点,并且成对KL(与BF16对比)在37组(方法,模型)上跟踪ΔPPL%的Spearman ρ=0.99,与从编解码器失真到KL散度的单调复合边界一致。3.5 bpw变体在容忍量化的架构上具有竞争力。在严格4 bpw下,旋转码本前沿方法QTIP优于QAM-W;本文的贡献在于质量保持的5–6 bpw波段。
查看缓存全文
缓存时间: 2026/05/27 09:08
# 联合2D码本量化用于LLM权重:基于哈达玛旋转与激活感知缩放 来源: https://arxiv.org/html/2605.26339 Preetam Sharma 独立研究员 preetam@manifoldlab\.ai & Kacper Dobek 波兹南理工大学计算机科学研究所, 波兹南, 波兰 kacper\.dobek@cs\.put\.poznan\.pl ###### 摘要 标量训练后量化器丢弃了权重行内的成对坐标结构。我们提出 QAM-W(权重的正交幅度调制),一种恢复该结构的编解码器:每行经过 L2 归一化、块哈达玛旋转、配对为 2D 坐标,并针对在单位圆高斯上训练的单一 Lloyd-Max 码本进行量化,同时采用激活感知的逐通道缩放。在一项涵盖四个系列五种 LLM(1.1B–13B 参数)的跨模型研究中,激活感知变体在约 ≈5.5 bpw 时,每个模型的 BF16 WikiText-2 困惑度偏差保持在 ±0.4% 以内,达到与 SmoothQuant W8A8 相当的品质水平,同时权重比特数减少 32%。联合 2D 编码在相同比特率下优于极性(幅值×相位)编码 2–15 个百分点的 ΔPPL,且配对 KL 散度与 BF16 对比的 ΔPPL% 在 37 个(方法,模型)条目上的 Spearman ρ=0.99,与从编解码器失真到 KL 散度的单调组合界一致。3.5 bpw 变体在容忍量化的架构上具有竞争力。在严格的 4 bpw 下,旋转-码本前沿方法 QTIP 表现优于 QAM-W;本贡献在于保持品质的 5–6 bpw 波段。 QAM-W:联合2D码本量化用于LLM权重:基于哈达玛旋转与激活感知缩放 Preetam Sharma 独立研究员 preetam@manifoldlab\.ai Kacper Dobek 波兹南理工大学计算机科学研究所, 波兹南, 波兰 kacper\.dobek@cs\.put\.poznan\.pl ## 1 引言 当前大多数训练后量化器是标量的:每个权重独立映射到一个小整数索引,带有每组或每通道的缩放因子。标量编码虽简单,但对于坐标相关的信源,会在率失真上留下松弛空间。在权重行内,坐标通常是相关的;经过正交旋转后,它们近似于二维圆高斯分布。以联合方式量化成对坐标——作为平面上的点而非两个独立标量——恢复了标量码本丢弃的成对结构。 本工作的实证主张是有界的:*在约 ≈5–6 bpw 的品质保持区间内*,一个激活感知的联合 2D 编解码器在五个跨越 1.1B–13B 参数的四个系列 LLM 上,保持 BF16 困惑度的偏差在 ±0.4% 以内,达到 SmoothQuant (Xiao et al., 2023) W8A8 的品质,同时权重比特数减少约 32%。在严格的 4 bpw 下,QTIP (Tseng et al., 2024b) 优于 QAM-W(见第 5.2 节);本贡献在于 5–6 bpw 波段。 基于旋转的方法如 QuIP (Chee et al., 2023) 和 QuIP# (Tseng et al., 2024a) 应用非相干旋转以在标量或格编码之前均匀化坐标幅值。激活感知方法如 AWQ (Lin et al., 2024) 利用每通道激活缩放,但未触及联合坐标结构。本工作提出的编解码器结合了这三个思想:确定性块哈达玛旋转、针对在单位圆高斯上训练的单一联合 2D Lloyd-Max 码本 (Lloyd, 1982) 的编码,以及由层输出迹恒等式驱动的 AWQ 风格逐通道缩放。 在整个过程中,报告的比特每权重 (bpw) 指权重存储和内存带宽占用。当前流水线在矩阵乘法前将数据反量化至 BF16;延迟声明需要融合内核,不在本文范围内(见局限性部分)。 ##### 贡献: - • 编解码器与分析。一个基于行范数因子化、块哈达玛旋转、联合 2D Lloyd-Max 编解码器用于 LLM 权重,并辅以激活感知缩放,由从编解码器失真到 KL 散度的单调组合界支持(第 3 和 4 节)。 - • 跨模型研究。在五个 LLM 上使用八种量化配置,在一套统一的困惑度、配对 KL 和六任务评估协议下进行(第 5.1 和 5.2 节)。 - • KL 作为排序诊断。在 37 个(方法,模型)条目上,配对 KL 和 ΔPPL% 在 Spearman ρ=0.99 下秩相关。 ## 2 相关工作 ##### 标量训练后量化。就近舍入 (RTN) 量化 (Krishnamoorthi, 2018) 配合逐组缩放是最简单的基线。GPTQ (Frantar et al., 2023) 利用近似二阶信息逐列补偿量化误差。AWQ (Lin et al., 2024) 通过逐通道缩放保护高激活通道;AutoRound (Cheng et al., 2023) 使用 SignSGD 优化舍入;HQQ (Badri and Shaji, 2023) 将舍入视为无校准数据的半二次问题。SmoothQuant (Xiao et al., 2023) 通过对角缩放变换将量化难度从激活重新分配到权重,针对联合 W8A8。OmniQuant (Shao et al., 2024) 联合学习裁剪和缩放变换。LLM.int8() (Dettmers et al., 2022) 将异常激活通道保留在 16 位混合精度中。SqueezeLLM (Kim et al., 2024) 将非均匀标量码本与稠密-稀疏分解结合;QLoRA 的 NF4 (Dettmers et al., 2023) 将量化级别置于高斯分布上。 ##### 旋转与向量量化。QuIP (Chee et al., 2023) 和 QuIP# (Tseng et al., 2024a) 应用随机或结构化正交旋转以在量化前解相关权重坐标。QuaRot (Ashkboos et al., 2024) 将旋转扩展到残差流以实现端到端 4 位推理;SpinQuant (Liu et al., 2025) 用学习旋转替代固定旋转。QAM-W 共享旋转原理,但选择确定性块哈达玛变换,该变换本身无需校准。在本工作中未进行与学习旋转系列的等 bpw 比较。在 VQ 方面,AQLM (Egiazarian et al., 2024) 使用加法码本并低于 2.5 bpw。QTIP (Tseng et al., 2024b) 结合 E8 格栅格与哈达玛非相干性,是最强已发表的旋转-码本方法;它和 QAM-W 处于不同的工作点,QTIP 在严格 4 bpw 时更强,而 QAM-W 在 5–6 bpw 波段更强(第 5.2 节)。VPTQ (Liu et al., 2024) 堆叠残差码本低至 ~2 bpw;GPTVQ (van Baalen et al., 2024) 显示从更高码本维度获得的率失真增益在 d=8 附近饱和,这使 QAM-W 的 d=2 选择处于该频谱的小端,属于有意设计。 ##### 并行工作。PolarQuant (Vicentino, 2026) 将 Walsh-Hadamard 旋转与*标量* (d=1) Lloyd-Max 码本结合,共享 QAM-W 的前两个流水线阶段但在码本维度上不同。d=1 与 d=2 的消融是最优先的后续工作。 ##### 信号处理起源。正交幅度调制 (QAM) 起源于数字通信 (Proakis and Salehi, 2008);QAM-W 将此几何观点应用于权重压缩。码本训练遵循 Lloyd-Max 传统 (Lloyd, 1982; Max, 1960) 并扩展到 2D 信源,可视为 Deep Compression (Han et al., 2016) 中 k 均值权重聚类的哈达玛旋转推广。 ## 3 QAM-W 编解码器流水线 本节将编解码器描述为编码器/解码器对。旋转和极性基线的数学性质在附录 A 中单独讨论。 ### 3.1 编码器 QAM-W 逐行量化权重矩阵 W ∈ R^{d_out × d_in}。对于每行 w,编码器执行以下步骤: 1. 1. 分离缩放与方向。将行范数 r = ||w||_2 作为独立元数据记录,当 r > 0 时将行归一化为 u = w/r。若 r = 0,则该行编码为零行。 2. 2. 旋转方向。应用确定性符号掩码块哈达玛旋转,得到 y = R_fwd u。 3. 3. 配对坐标。将相邻旋转坐标分组为复数值 z_k = y_{2k} + i y_{2k+1},其中 k = 0, ..., d/2 - 1。 4. 4. 归一化每个对。将对除以校准后的缩放因子 σ_k。 5. 5. 量化。使用极性基线码本或联合 2D QAM-W 码本编码每个归一化对。 6. 6. 打包。将码本索引存储到位打包的字节流中。 ### 3.2 解码器 解码器逆转编码器步骤:解包码本索引,查找对应质心,用 σ_k 重新缩放每个对,将配对重新组装成旋转实向量,应用逆旋转 R_inv,然后乘以存储的行范数 r。基准测试为行范数元数据分配每行 16 位;完全序列化的 f16 行范数会引入一个小的径向量化项,但这不属于附录 A 中方向性分析的一部分。 ### 3.3 旋转选择 编码器使用的旋转是带确定性符号掩码的块哈达玛变换。它可通过蝶形算法廉价实现,且不需要存储稠密矩阵。实现将块大小 b 选为整除行维度 d_in 的最大 2 的幂,上限为 b_max = 1024。对于本实验中的权重矩阵,d_in = 2048 使用 b = 1024,d_in = 5632 使用 b = 512。旋转的精确等距性质在引理 1 中得到证明。 ### 3.4 对校准 旋转后,相邻坐标经验上建模为近似圆高斯对,具有每对特定的缩放因子 σ_k。在理想化模型下,如果对 k 中的两个坐标是零均值且等方差 σ_k^2 且零协方差的高斯变量,则幅度 |z_k| 服从瑞利分布,且 E|z_k| = σ_k √(π/2)。因此校准通过以下方式估计 σ_k: σ̂_k = mean(|z_k|) / √(π/2) (1) 取自每个权重矩阵最多 1024 个单元归一化行。 ### 3.5 极性基线 极性基线独立量化幅度和相位。幅度 |z_k|/σ_k 使用单位瑞利密度 f(r) = r e^{-r^2/2} 的 Na = 2^{B_a} 级 Lloyd-Max 码本量化。相位 arg(z_k) 舍入到 Np = 2^{B_p} 个均匀分箱之一。每对的总预算为 B = B_a + B_p 比特。该基线的成对失真模型在定理 1 中分析。 ### 3.6 联合 2D QAM QAM-W 的主要变体用单个 2D 码本 C = {c_0, ..., c_{2^B - 1}} ⊂ R^2 替代两个独立的极性码本。码本通过 Lloyd 迭代在单位圆高斯分布 f(x,y) = (1/(2π)) exp(-(x^2 + y^2)/2) (2) 上训练。编码将每个归一化对 z_k/σ_k 映射到其在欧氏距离下最近的码本条目。解码是表查找,后乘以 σ_k。当前实验每对使用 B = 11 位,与 5+6 极性配置在名义对负载上匹配。原生字节对齐和流布局在极性和联合 2D 实现间可能不同;因此比较是基于等比特每对,而非字节相同存储。 选择 d=2 在解码端也是刻意的:重建是对一个包含 2^B 个条目的表进行单次查找,在 B ≤ 11 时最多占用 16 KB,保持在 L1 缓存中。这在结构上比加法方法(如 AQLM)的多码本查找和向量加法,或 QTIP 的顺序格解码更简单。鉴于率失真增益在 d≈8 附近饱和(第 2 节),d=2 刻意牺牲了部分渐近上限,以换取一个仅需一次缓存驻留表读取的解码路径。 ### 3.7 比特率计算 每个权重的比特率包括每对 B 位用于码本索引,以及每行 16 位用于行范数元数据。由于每对覆盖两个标量坐标, bpw = B/2 + 16/d_in。 (3) 对于 d_in = 2048 且 B = 11,这在字节对齐开销前约为 5.51 bpw。报告的比特率包括实现所使用的行级打包和对齐。 ### 3.8 QAM-W-3.5 低比特变体 为探索低于 4 bpw 的区间,QAM-W 实例化为每对 B=7 位,得到 2^7=128 条目的 2D Lloyd-Max 码本,同样在单位圆高斯上训练。激活感知逐通道缩放(附录 B)仍然适用。对于 d_in = 2048,每对预算加上行范数元数据得到 bpw ≈ 3.51;AWQ 感知变体对于 α=0.3 增加约 0.003 bpw 的每通道缩放元数据。此配置在第 5.3.1 节中分析。 ## 4 分析 QAM-W 的设计基于四个分析结果。我们在此陈述它们,并将正式陈述、证明及支持性实证检查推迟到附录 A、B 和 C。 ##### 旋转是无失真的。符号掩码块哈达玛旋转是实算术中的精确等距(引理 1):它不引入重建误差,仅重新分布能量。相似文章
Qift: 移位友好的无零点W2训练后量化,用于旋转W2A4/KV4大语言模型推理
本文介绍了Qift,一种固定的无零点两位权重量化层级集,专为Hadamard旋转的大语言模型设计,通过利用旋转权重的近零中心高斯类分布,实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示,相比于标准W2量化,困惑度持续提升。
InfoQuant:为低比特大语言模型量化塑造激活分布
InfoQuant 提出了一种无需训练的方法——峰值抑制正交变换(PSOT),用于重塑低比特大语言模型量化中的激活分布,在 W4A4KV4 设置下保留了 97% 的浮点精度,并优于之前的 PTQ 方法。
Mix-Quant: 量化预填充,精准解码的智能体大语言模型
Mix-Quant 提出了一种面向智能体大语言模型的阶段感知量化框架,在预填充阶段使用 NVFP4 量化以加速计算,同时在解码阶段保持 BF16 精度以维持准确性。该方法在智能体基准测试中实现了预填充速度提升最高 3 倍,且性能下降极小。
# LiftQuant:基于维度提升与投影的连续比特宽度大语言模型量化
# LiftQuant 引入"先提升后投影"机制,实现大语言模型的连续(非整数)位宽量化,精准适配硬件内存预算。该框架将 70B 大语言模型压缩至 2.4 位以适配 24GB GPU,性能超越当前最先进的 2 位模型。
BitsMoE: 基于谱能引导的MoE大语言模型高效量化比特分配
BitsMoE提出了一种基于谱能引导的比特分配框架,用于量化混合专家大语言模型,在超低位宽量化下实现了显著的精度提升和加速。