QAM-W：基于哈达玛旋转和激活感知缩放的LLM权重联合二维码本量化

arXiv cs.LG 2026/05/27 04:00 论文

摘要

介绍了QAM-W，一种针对LLM权重的联合二维码本量化方法，采用哈达玛旋转和激活感知缩放，在每权重5–6比特下实现接近BF16的困惑度，并以减少32%的权重比特达到与SmoothQuant W8A8相当的质量。

arXiv:2605.26339v1 Announce Type: new 摘要：标量后训练量化器会丢弃权重行内的成对坐标结构。我们提出了QAM-W（权重的正交幅度调制），一种恢复该结构的编解码器：每行经过L2归一化、块哈达玛旋转、配对为二维坐标，并使用针对单位圆高斯分布训练的单个Lloyd-Max码本进行量化，同时结合激活感知的每通道缩放。在一项涵盖四个系列五个LLM（1.1B–13B参数）及八种量化配置的跨模型研究中，激活感知变体在约5.5 bpw下，每个模型的BF16 WikiText-2困惑度偏差均在±0.4%以内，并以减少32%的权重比特匹配SmoothQuant W8A8质量包络。联合二维编码在相同比特率下比极坐标（幅度×相位）编码在ΔPPL上提升2–15个百分点，并且成对KL（与BF16对比）在37组（方法，模型）上跟踪ΔPPL%的Spearman ρ=0.99，与从编解码器失真到KL散度的单调复合边界一致。3.5 bpw变体在容忍量化的架构上具有竞争力。在严格4 bpw下，旋转码本前沿方法QTIP优于QAM-W；本文的贡献在于质量保持的5–6 bpw波段。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:08

# 联合2D码本量化用于LLM权重：基于哈达玛旋转与激活感知缩放 来源: https://arxiv.org/html/2605.26339 Preetam Sharma 独立研究员 preetam@manifoldlab\.ai & Kacper Dobek 波兹南理工大学计算机科学研究所, 波兹南, 波兰 kacper\.dobek@cs\.put\.poznan\.pl ###### 摘要 标量训练后量化器丢弃了权重行内的成对坐标结构。我们提出 QAM-W（权重的正交幅度调制），一种恢复该结构的编解码器：每行经过 L2 归一化、块哈达玛旋转、配对为 2D 坐标，并针对在单位圆高斯上训练的单一 Lloyd-Max 码本进行量化，同时采用激活感知的逐通道缩放。在一项涵盖四个系列五种 LLM（1.1B–13B 参数）的跨模型研究中，激活感知变体在约 ≈5.5 bpw 时，每个模型的 BF16 WikiText-2 困惑度偏差保持在 ±0.4% 以内，达到与 SmoothQuant W8A8 相当的品质水平，同时权重比特数减少 32%。联合 2D 编码在相同比特率下优于极性（幅值×相位）编码 2–15 个百分点的 ΔPPL，且配对 KL 散度与 BF16 对比的 ΔPPL% 在 37 个（方法，模型）条目上的 Spearman ρ=0.99，与从编解码器失真到 KL 散度的单调组合界一致。3.5 bpw 变体在容忍量化的架构上具有竞争力。在严格的 4 bpw 下，旋转-码本前沿方法 QTIP 表现优于 QAM-W；本贡献在于保持品质的 5–6 bpw 波段。 QAM-W：联合2D码本量化用于LLM权重：基于哈达玛旋转与激活感知缩放 Preetam Sharma 独立研究员 preetam@manifoldlab\.ai Kacper Dobek 波兹南理工大学计算机科学研究所, 波兹南, 波兰 kacper\.dobek@cs\.put\.poznan\.pl ## 1 引言 当前大多数训练后量化器是标量的：每个权重独立映射到一个小整数索引，带有每组或每通道的缩放因子。标量编码虽简单，但对于坐标相关的信源，会在率失真上留下松弛空间。在权重行内，坐标通常是相关的；经过正交旋转后，它们近似于二维圆高斯分布。以联合方式量化成对坐标——作为平面上的点而非两个独立标量——恢复了标量码本丢弃的成对结构。 本工作的实证主张是有界的：*在约 ≈5–6 bpw 的品质保持区间内*，一个激活感知的联合 2D 编解码器在五个跨越 1.1B–13B 参数的四个系列 LLM 上，保持 BF16 困惑度的偏差在 ±0.4% 以内，达到 SmoothQuant (Xiao et al., 2023) W8A8 的品质，同时权重比特数减少约 32%。在严格的 4 bpw 下，QTIP (Tseng et al., 2024b) 优于 QAM-W（见第 5.2 节）；本贡献在于 5–6 bpw 波段。 基于旋转的方法如 QuIP (Chee et al., 2023) 和 QuIP# (Tseng et al., 2024a) 应用非相干旋转以在标量或格编码之前均匀化坐标幅值。激活感知方法如 AWQ (Lin et al., 2024) 利用每通道激活缩放，但未触及联合坐标结构。本工作提出的编解码器结合了这三个思想：确定性块哈达玛旋转、针对在单位圆高斯上训练的单一联合 2D Lloyd-Max 码本 (Lloyd, 1982) 的编码，以及由层输出迹恒等式驱动的 AWQ 风格逐通道缩放。 在整个过程中，报告的比特每权重 (bpw) 指权重存储和内存带宽占用。当前流水线在矩阵乘法前将数据反量化至 BF16；延迟声明需要融合内核，不在本文范围内（见局限性部分）。 ##### 贡献： - • 编解码器与分析。一个基于行范数因子化、块哈达玛旋转、联合 2D Lloyd-Max 编解码器用于 LLM 权重，并辅以激活感知缩放，由从编解码器失真到 KL 散度的单调组合界支持（第 3 和 4 节）。 - • 跨模型研究。在五个 LLM 上使用八种量化配置，在一套统一的困惑度、配对 KL 和六任务评估协议下进行（第 5.1 和 5.2 节）。 - • KL 作为排序诊断。在 37 个（方法，模型）条目上，配对 KL 和 ΔPPL% 在 Spearman ρ=0.99 下秩相关。 ## 2 相关工作 ##### 标量训练后量化。就近舍入 (RTN) 量化 (Krishnamoorthi, 2018) 配合逐组缩放是最简单的基线。GPTQ (Frantar et al., 2023) 利用近似二阶信息逐列补偿量化误差。AWQ (Lin et al., 2024) 通过逐通道缩放保护高激活通道；AutoRound (Cheng et al., 2023) 使用 SignSGD 优化舍入；HQQ (Badri and Shaji, 2023) 将舍入视为无校准数据的半二次问题。SmoothQuant (Xiao et al., 2023) 通过对角缩放变换将量化难度从激活重新分配到权重，针对联合 W8A8。OmniQuant (Shao et al., 2024) 联合学习裁剪和缩放变换。LLM.int8() (Dettmers et al., 2022) 将异常激活通道保留在 16 位混合精度中。SqueezeLLM (Kim et al., 2024) 将非均匀标量码本与稠密-稀疏分解结合；QLoRA 的 NF4 (Dettmers et al., 2023) 将量化级别置于高斯分布上。 ##### 旋转与向量量化。QuIP (Chee et al., 2023) 和 QuIP# (Tseng et al., 2024a) 应用随机或结构化正交旋转以在量化前解相关权重坐标。QuaRot (Ashkboos et al., 2024) 将旋转扩展到残差流以实现端到端 4 位推理；SpinQuant (Liu et al., 2025) 用学习旋转替代固定旋转。QAM-W 共享旋转原理，但选择确定性块哈达玛变换，该变换本身无需校准。在本工作中未进行与学习旋转系列的等 bpw 比较。在 VQ 方面，AQLM (Egiazarian et al., 2024) 使用加法码本并低于 2.5 bpw。QTIP (Tseng et al., 2024b) 结合 E8 格栅格与哈达玛非相干性，是最强已发表的旋转-码本方法；它和 QAM-W 处于不同的工作点，QTIP 在严格 4 bpw 时更强，而 QAM-W 在 5–6 bpw 波段更强（第 5.2 节）。VPTQ (Liu et al., 2024) 堆叠残差码本低至 ~2 bpw；GPTVQ (van Baalen et al., 2024) 显示从更高码本维度获得的率失真增益在 d=8 附近饱和，这使 QAM-W 的 d=2 选择处于该频谱的小端，属于有意设计。 ##### 并行工作。PolarQuant (Vicentino, 2026) 将 Walsh-Hadamard 旋转与*标量* (d=1) Lloyd-Max 码本结合，共享 QAM-W 的前两个流水线阶段但在码本维度上不同。d=1 与 d=2 的消融是最优先的后续工作。 ##### 信号处理起源。正交幅度调制 (QAM) 起源于数字通信 (Proakis and Salehi, 2008)；QAM-W 将此几何观点应用于权重压缩。码本训练遵循 Lloyd-Max 传统 (Lloyd, 1982; Max, 1960) 并扩展到 2D 信源，可视为 Deep Compression (Han et al., 2016) 中 k 均值权重聚类的哈达玛旋转推广。 ## 3 QAM-W 编解码器流水线 本节将编解码器描述为编码器/解码器对。旋转和极性基线的数学性质在附录 A 中单独讨论。 ### 3.1 编码器 QAM-W 逐行量化权重矩阵 W ∈ R^{d_out × d_in}。对于每行 w，编码器执行以下步骤： 1. 1. 分离缩放与方向。将行范数 r = ||w||_2 作为独立元数据记录，当 r > 0 时将行归一化为 u = w/r。若 r = 0，则该行编码为零行。 2. 2. 旋转方向。应用确定性符号掩码块哈达玛旋转，得到 y = R_fwd u。 3. 3. 配对坐标。将相邻旋转坐标分组为复数值 z_k = y_{2k} + i y_{2k+1}，其中 k = 0, ..., d/2 - 1。 4. 4. 归一化每个对。将对除以校准后的缩放因子 σ_k。 5. 5. 量化。使用极性基线码本或联合 2D QAM-W 码本编码每个归一化对。 6. 6. 打包。将码本索引存储到位打包的字节流中。 ### 3.2 解码器 解码器逆转编码器步骤：解包码本索引，查找对应质心，用 σ_k 重新缩放每个对，将配对重新组装成旋转实向量，应用逆旋转 R_inv，然后乘以存储的行范数 r。基准测试为行范数元数据分配每行 16 位；完全序列化的 f16 行范数会引入一个小的径向量化项，但这不属于附录 A 中方向性分析的一部分。 ### 3.3 旋转选择 编码器使用的旋转是带确定性符号掩码的块哈达玛变换。它可通过蝶形算法廉价实现，且不需要存储稠密矩阵。实现将块大小 b 选为整除行维度 d_in 的最大 2 的幂，上限为 b_max = 1024。对于本实验中的权重矩阵，d_in = 2048 使用 b = 1024，d_in = 5632 使用 b = 512。旋转的精确等距性质在引理 1 中得到证明。 ### 3.4 对校准 旋转后，相邻坐标经验上建模为近似圆高斯对，具有每对特定的缩放因子 σ_k。在理想化模型下，如果对 k 中的两个坐标是零均值且等方差 σ_k^2 且零协方差的高斯变量，则幅度 |z_k| 服从瑞利分布，且 E|z_k| = σ_k √(π/2)。因此校准通过以下方式估计 σ_k： σ̂_k = mean(|z_k|) / √(π/2) (1) 取自每个权重矩阵最多 1024 个单元归一化行。 ### 3.5 极性基线 极性基线独立量化幅度和相位。幅度 |z_k|/σ_k 使用单位瑞利密度 f(r) = r e^{-r^2/2} 的 Na = 2^{B_a} 级 Lloyd-Max 码本量化。相位 arg(z_k) 舍入到 Np = 2^{B_p} 个均匀分箱之一。每对的总预算为 B = B_a + B_p 比特。该基线的成对失真模型在定理 1 中分析。 ### 3.6 联合 2D QAM QAM-W 的主要变体用单个 2D 码本 C = {c_0, ..., c_{2^B - 1}} ⊂ R^2 替代两个独立的极性码本。码本通过 Lloyd 迭代在单位圆高斯分布 f(x,y) = (1/(2π)) exp(-(x^2 + y^2)/2) (2) 上训练。编码将每个归一化对 z_k/σ_k 映射到其在欧氏距离下最近的码本条目。解码是表查找，后乘以 σ_k。当前实验每对使用 B = 11 位，与 5+6 极性配置在名义对负载上匹配。原生字节对齐和流布局在极性和联合 2D 实现间可能不同；因此比较是基于等比特每对，而非字节相同存储。 选择 d=2 在解码端也是刻意的：重建是对一个包含 2^B 个条目的表进行单次查找，在 B ≤ 11 时最多占用 16 KB，保持在 L1 缓存中。这在结构上比加法方法（如 AQLM）的多码本查找和向量加法，或 QTIP 的顺序格解码更简单。鉴于率失真增益在 d≈8 附近饱和（第 2 节），d=2 刻意牺牲了部分渐近上限，以换取一个仅需一次缓存驻留表读取的解码路径。 ### 3.7 比特率计算 每个权重的比特率包括每对 B 位用于码本索引，以及每行 16 位用于行范数元数据。由于每对覆盖两个标量坐标， bpw = B/2 + 16/d_in。 (3) 对于 d_in = 2048 且 B = 11，这在字节对齐开销前约为 5.51 bpw。报告的比特率包括实现所使用的行级打包和对齐。 ### 3.8 QAM-W-3.5 低比特变体 为探索低于 4 bpw 的区间，QAM-W 实例化为每对 B=7 位，得到 2^7=128 条目的 2D Lloyd-Max 码本，同样在单位圆高斯上训练。激活感知逐通道缩放（附录 B）仍然适用。对于 d_in = 2048，每对预算加上行范数元数据得到 bpw ≈ 3.51；AWQ 感知变体对于 α=0.3 增加约 0.003 bpw 的每通道缩放元数据。此配置在第 5.3.1 节中分析。 ## 4 分析 QAM-W 的设计基于四个分析结果。我们在此陈述它们，并将正式陈述、证明及支持性实证检查推迟到附录 A、B 和 C。 ##### 旋转是无失真的。符号掩码块哈达玛旋转是实算术中的精确等距（引理 1）：它不引入重建误差，仅重新分布能量。

QAM-W：基于哈达玛旋转和激活感知缩放的LLM权重联合二维码本量化

相似文章

Qift: 移位友好的无零点W2训练后量化，用于旋转W2A4/KV4大语言模型推理

LC-QAT：基于线性约束向量量化的数据高效2比特LLM量化感知训练

可训练的平滑旋转变换与学习到的通道缩放用于LLM量化

InfoQuant：为低比特大语言模型量化塑造激活分布

CAT-Q: 用于LLM的高效且准确的三值量化

提交意见反馈