ScaleSweep：通过块缩放初始化实现LLM的NVFP4训练后量化精度提升

arXiv cs.LG 2026/06/09 04:00 论文

摘要

ScaleSweep提出了一种针对LLM的NVFP4训练后量化的新型块缩放初始化方法，通过遍历可行的块缩放候选值来提高精度。在Llama和Qwen模型上的实验表明，在激进量化下，该方法保留了超过93%的全精度性能。

arXiv:2606.07618v1 公告类型：新版摘要：NVFP4是一种近期推出的硬件支持的FP4格式，通过细粒度块缩放提升了4位量化的保真度。然而，现有的NVFP4缩放初始化方法仍然主要依赖AbsMax初始化，这在与最优解之间存在明显差距。为解决这一问题，我们提出了ScaleSweep，一种简单高效的缩放优化方法，通过遍历可行的块缩放候选值并选择最小化目标函数的候选值。我们进一步对NVFP4量化进行了理论分析，推导出了在原始张量与量化重建张量之间的均方误差（MSE）和加权均方误差（WMSE）下所需扫过范围的上下界。所提出的界限在保留最优候选值的同时大幅缩减了扫过空间，与基线量化算子相比，开销可忽略不计。在Llama和Qwen模型上的实验表明，ScaleSweep在现有初始化方法基础上持续提升了量化性能，并进一步缩小了与全精度的差距。特别是在对权重、激活、KV缓存和查询状态进行激进的端到端量化时，ScaleSweep保留了超过93%的全精度性能。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:51

# ScaleSweep：通过块缩放初始化实现 LLM 的精确 NVFP4 训练后量化
来源：https://arxiv.org/html/2606.07618
Li Lin, Xiaojun Wan, 北京大学王选计算机技术研究所, [email protected], [email protected]

###### 摘要

NVFP4 是近期推出的一种硬件支持的 FP4 格式，通过细粒度的块缩放（block scale）提升了 4 比特量化的保真度。然而，现有的 NVFP4 缩放初始化方法仍主要依赖 AbsMax 初始化，与最优解之间存在明显差距。为解决此问题，我们提出 ScaleSweep，一种简单高效的缩放优化方法，该方法扫描可行的块缩放候选值，并选择使目标损失最小的候选值。我们进一步对 NVFP4 量化进行了理论分析，并推导了在原始张量和量化重建张量之间的均方误差（MSE）与加权均方误差（WMSE）下，所需扫描范围的上下界。所提出的界限在保留最优候选值的同时显著缩小了扫描空间，使其相比基线量化算子仅增加极小的开销。在 Llama 和 Qwen 模型上的实验表明，ScaleSweep 在量化性能上持续优于现有初始化方法，并进一步缩小了与全精度的差距。特别是在对权重、激活、KV 缓存和查询状态进行激进的端到端量化时，ScaleSweep 保留了超过 93% 的全精度性能。

## 1 引言

近年来，大型语言模型（LLM）的进展显著增加了部署时的内存占用、带宽需求和计算成本。因此，训练后量化（PTQ）[Krishnamoorthi, 2018](https://arxiv.org/html/2606.07618#bib.bib28) 已成为高效推理的关键方法，无需重新训练或全面微调即可实现模型压缩 [Frantar et al., 2023](https://arxiv.org/html/2606.07618#bib.bib4); [Xiao et al., 2023](https://arxiv.org/html/2606.07618#bib.bib11); [Ashkboos et al., 2024](https://arxiv.org/html/2606.07618#bib.bib5); [Liu et al., 2025](https://arxiv.org/html/2606.07618#bib.bib6); [Hu et al., 2025](https://arxiv.org/html/2606.07618#bib.bib7)。在低精度量化方案中，NVFP4 尤为突出，它结合了 FP4 E2M1 格式、FP8 微块缩放以及张量级全局缩放，并得到 NVIDIA Blackwell GPU 的原生支持 [Alvarez et al., 2025](https://arxiv.org/html/2606.07618#bib.bib9)。这种组合在减少内存和带宽需求的同时，相比纯整数格式保留了更大的数值灵活性 [Chen et al., 2025](https://arxiv.org/html/2606.07618#bib.bib31); [Egiazarian et al., 2026](https://arxiv.org/html/2606.07618#bib.bib8)。NVFP4 的 FP8 微块缩放设计使得在激进压缩下实现实际低比特 LLM 推理成为可能，这使得缩放优化在细粒度低精度量化中变得愈发关键。

尽管 NVFP4 具有诸多优势，但现有 PTQ 方法在该格式下表现出不同行为。某些方法，如 GPTQ [Frantar et al., 2023](https://arxiv.org/html/2606.07618#bib.bib4) 和 SmoothQuant [Xiao et al., 2023](https://arxiv.org/html/2606.07618#bib.bib11)，仍适用于 NVFP4，而基于旋转的方法 [Ashkboos et al., 2024](https://arxiv.org/html/2606.07618#bib.bib5); [Liu et al., 2025](https://arxiv.org/html/2606.07618#bib.bib6) 可能会降低性能 [Egiazarian et al., 2026](https://arxiv.org/html/2606.07618#bib.bib8)。这种差异源于 NVFP4 与传统 INT4 量化的两个关键区别：微块缩放的使用以及 FP4 数据类型。针对 INT 量化，已有多种缩放初始化技术被提出 [Zhang and Shrivastava, 2025](https://arxiv.org/html/2606.07618#bib.bib29); [Lin et al., 2026](https://arxiv.org/html/2606.07618#bib.bib30)，但由于 NVFP4 的两级缩放结构，这些技术无法直接适用。现有的 NVFP4 初始化方法仍主要依赖基于 AbsMax 的启发式方法，包括 4/6 策略 [Cook et al., 2026](https://arxiv.org/html/2606.07618#bib.bib3)，其与最优解之间存在明显差距。这些特性使得 NVFP4 中的缩放优化和误差分布从根本上不同于 INT4 和单级 FP 量化，从而需要针对 NVFP4 的专用缩放优化方法。

见图注
图 1：在不同 NVFP4 块大小下，使用 AbsMax、4/6、ScaleSweep 和 FP8 量化的最优 FP32 缩放时，原始张量与量化重建张量之间的归一化 MSE 和 WMSE 及其与最优值的相对差距。定义见第 3 节。

现有的 NVFP4 缩放初始化策略（如 AbsMax 和 4/6）依赖基于最大可表示 FP4 值的简单启发式方法。然而，如图 1 所示，与 FP8 量化的最优 FP32 块缩放¹¹¹对于 MSE 和 WMSE 目标，最优 FP32 块缩放均能以较低计算复杂度精确求解。详情见附录 C。相比，在不同块大小下仍存在明显差距。这一观察表明，FP8 块缩放选择仍有很大改进空间。由于可表示的 FP8 缩放数量非常有限，穷举缩放扫描在计算上变得可行。为此，我们提出 ScaleSweep，一种专为具有 FP8 块缩放的 FP4 量化设计的缩放扫描方法。针对 FP4 量化，我们进一步提供了在 MSE 和 WMSE 目标下的块缩放优化理论分析。特别是，通过理论分析和计算机辅助分析，我们推导了最优 FP8 块缩放的理论上下界，从而将可行扫描范围缩小到 FP8 比特模式空间中的紧凑局部邻域，实现了高效的缩放扫描。

我们在日益严峻的量化设置下评估 ScaleSweep，包括权重-激活量化、权重-激活量化加 KV 缓存量化，以及权重-激活量化加 KV 缓存和查询状态量化。在所有设置下，ScaleSweep 通常比 NVFP4 的现有初始化方法实现更强的恢复效果。我们的主要贡献总结如下：

* •我们分析了具有 FP8 块缩放的 FP4 量化，并推导了在 MSE 和 WMSE 目标下最优块缩放的下界和上界。
* •基于推导的界限，我们提出 ScaleSweep，一种 NVFP4 专用的校准方法，它将 FP8 块缩放优化限制在比特模式空间中的紧凑区间内，实现了 RTN 和 GPTQ 流水线的高效缩放选择。
* •我们在 Llama 和 Qwen 模型上，针对权重-激活、KV 缓存和查询状态量化设置验证了 ScaleSweep 的有效性。ScaleSweep 普遍优于现有初始化方法，在最激进的设置下恢复了 BF16 性能的 93%–95%，同时与 vLLM 中的默认 NVFP4 量化算子相比，仅引入了可忽略的算子开销。

## 2 相关工作

##### 整数量化。
针对整数量化的训练后量化已被广泛研究，用于高效的大型语言模型（LLM）推理。GPTQ [Frantar et al., 2023](https://arxiv.org/html/2606.07618#bib.bib4) 通过利用近似二阶信息进行逐层重建，改进了低比特量化；而 SmoothQuant [Xiao et al., 2023](https://arxiv.org/html/2606.07618#bib.bib11) 通过权重与激活之间的平滑变换来缓解激活异常值。最近的工作进一步通过在量化前重塑张量分布来改进低比特量化。QuaRot [Ashkboos et al., 2024](https://arxiv.org/html/2606.07618#bib.bib5) 应用随机哈达玛变换以消除激活异常值，并支持旋转后 LLM 的 4 比特推理；SpinQuant [Liu et al., 2025](https://arxiv.org/html/2606.07618#bib.bib6) 学习旋转变换以更好地将张量与低比特量化网格对齐；OSTQuant [Hu et al., 2025](https://arxiv.org/html/2606.07618#bib.bib7) 结合正交变换和缩放变换，通过改进分布拟合来优化量化。这些方法共同表明，减少异常值和平滑不利于量化的分布是实现精确低比特 INT PTQ 的核心，其中哈达玛变换、旋转和正交变换已成为越来越重要的技术。

##### FP4 量化。
FP4 量化近期已成为高效低精度 LLM 推理的一个重要方向，特别是随着 NVIDIA 的 NVFP4 格式的推出 [Alvarez et al., 2025](https://arxiv.org/html/2606.07618#bib.bib9)。近期研究开始探索预训练和训练后设置下的 FP4 量化。NVIDIA 的 NVFP4 预训练工作证明了使用 NVFP4 精度训练大型语言模型的可行性 [NVIDIA et al., 2026](https://arxiv.org/html/2606.07618#bib.bib2)，而 TetraJet-v2 [Chen et al., 2026](https://arxiv.org/html/2606.07618#bib.bib10) 通过解决低精度训练期间的权重振荡和异常值问题，进一步提高了 NVFP4 训练精度。在缩放初始化方面，4/6 [Cook et al., 2026](https://arxiv.org/html/2606.07618#bib.bib3) 扩展了 AbsMax 缩放，额外评估一种将块最大值映射到 4 而非 6 的缩放，并选择误差较低的量化。MR-GPTQ [Egiazarian et al., 2026](https://arxiv.org/html/2606.07618#bib.bib8) 表明，直接应用诸如 QuaRot 和 SpinQuant 等旋转变换会在 NVFP4 量化下降低性能，并提出在 GPTQ 基础上使用微旋转，以适配硬件支持的 FP4 格式。这些结果表明，FP4 量化需要针对浮点码本和微缩放结构定制技术，特别是在缩放选择和格式感知重建方面，而非直接复用 INT4 量化方法。

## 3 预备知识

### 3.1 符号说明

令 \([N]\) 表示索引集合 \(\{0,1,2,\dots,N-1\}\)。对于大小为 \(n\) 的原始张量 \(x\) 和重建张量 \(\hat{x}\)，均方误差 (MSE) 和归一化均方误差 (NMSE) 分别定义为 \(\mathrm{MSE}(x,\hat{x}) = \|x-\hat{x}\|_2^2 / n\) 和 \(\mathrm{NMSE}(x,\hat{x}) = \|x-\hat{x}\|_2^2 / \|x\|_2^2\)。给定逐元素权重张量 \(w\)，加权均方误差 (WMSE) 和归一化加权均方误差 (NWMSE) 分别定义为 \(\mathrm{WMSE}(x,\hat{x},w) = \left(\sum_i w_i (x_i - \hat{x}_i)^2\right) / \left(\sum_i w_i\right)\) 和 \(\mathrm{NWMSE}(x,\hat{x},w) = \left(\sum_i w_i (x_i - \hat{x}_i)^2\right) / \left(\sum_i w_i x_i^2\right)\)。

对于数值格式 \(\mathcal{F}\)，令 \(\mathcal{G}_{\mathcal{F}}\) 表示其可表示值集合。特别地，\(\mathcal{G}_{\mathrm{FP4}}\)、\(\mathcal{G}_{\mathrm{FP8}}\) 和 \(\mathcal{G}_{\mathrm{FP32}}\) 分别表示 FP4 E2M1、FP8 E4M3 和 FP32 的可表示值集合，其中 \(\mathcal{G}_{\mathrm{FP4}}\) 和 \(\mathcal{G}_{\mathrm{FP8}}\) 也称为量化网格。对于 \(x \in \mathbb{R}\)，令 \(\lfloor x \rceil_{\mathcal{F}}\) 表示将 \(x\) 舍入到 \(\mathcal{G}_{\mathcal{F}}\) 中最近的值，\(\lfloor x \rfloor_{\mathcal{F}}\) 表示向下舍入到 \(\mathcal{G}_{\mathcal{F}}\) 中不超过 \(x\) 的最大值，\(\lceil x \rceil_{\mathcal{F}}\) 表示向上舍入到 \(\mathcal{G}_{\mathcal{F}}\) 中不小于 \(x\) 的最小值。

对于带有缩放 \(s\) 的 FP4 量化，定义缩放格式 \(\mathrm{FP4}(s)\) 为按 \(s\) 缩放的标准 FP4 格式。其可表示值集合为
\[
\mathcal{G}_{\mathrm{FP4}(s)} = \{ s \cdot v \mid v \in \mathcal{G}_{\mathrm{FP4}} \}. \tag{1}
\]
令 \(\mathbf{w} \in \mathbb{R}_{\ge 0}^n\) 表示非负权重。缩放为 \(s\) 时的加权量化损失为
\[
\mathcal{L}(s; \mathbf{x}, \mathbf{w}) = \sum_{i=0}^{n-1} w_i \left( x_i - \lfloor x_i \rceil_{\mathrm{FP4}(s)} \right)^2. \tag{2}
\]
当 \(\mathbf{w} = \mathbf{1}\) 时，目标退化为非加权损失
\[
\mathcal{L}(s; \mathbf{x}) = \sum_{i=0}^{n-1} \left( x_i - \lfloor x_i \rceil_{\mathrm{FP4}(s)} \right)^2. \tag{3}
\]
为简洁起见，在上下文清晰时两种形式均用 \(\mathcal{L}\) 表示。

### 3.2 NVFP4 量化

NVFP4 将 FP4 值与两级缩放相结合，以在低比特宽度约束下提高量化保真度。NVFP4 中使用的 FP4 格式遵循 OCP 微缩放格式规范 [Open Compute Project, 2023](https://arxiv.org/html/2606.07618#bib.bib1)，可表示值为
\[
\mathcal{G}_{\mathrm{FP4}} = \{0, \pm 0.5, \pm 1, \pm 1.5, \pm 2, \pm 3, \pm 4, \pm 6\}. \tag{4}
\]

给定输入张量 \(\mathbf{x} \in \mathbb{R}^N\)，NVFP4 将其表示为 \((\mathbf{q}, \mathbf{s}, S)\)，其中 \(\mathbf{q} \in \mathcal{G}_{\mathrm{FP4}}^N\) 表示 FP4 值，\(\mathbf{s} \in \mathcal{G}_{\mathrm{FP8}}^{N/16}\) 表示每 16 个元素共享的 FP8 E4M3 微块缩放，\(S \in \mathcal{G}_{\mathrm{FP32}}\) 表示全局 FP32 缩放。重建张量 \(\hat{\mathbf{x}}\) 计算为
\[
\hat{x}_i = q_i \cdot s_{\lfloor i/16 \rfloor} \cdot S. \tag{5}
\]

对于 NVFP4 量化，广泛采用的初始化策略是 AbsMax [NVIDIA et al., 2026](https://arxiv.org/html/2606.07618#bib.bib2)：
\[
\begin{aligned}
S &= \frac{\max_i |x_i|}{448 \cdot 6}, \tag{6} \\
s_k &= \left\lfloor \frac{\max_{\lfloor i/16 \rfloor = k} |x_i|}{S \cdot 6} \right\rceil_{\mathrm{FP8}}, \quad k \in [N/16], \tag{7} \\
q_i &= \left\lfloor \frac{x_i}{S \cdot s_{\lfloor i/16 \rfloor}} \right\rceil_{\mathrm{FP4}}, \quad i \in [N], \tag{8}
\end{aligned}
\]
其中 \(448\) 和 \(6\) 分别是 FP8 E4M3 和 FP4 E2M1 的最大可表示幅度。

## 4 方法

### 4.1 优化目标

##### MSE 目标
对于权重张量 \(W \in \mathbb{R}^{d_{\mathrm{in}} \times d_{\mathrm{out}}}\)，NVFP4 量化的重建保真度自然由 MSE 目标衡量。由此产生的优化目标为
\[
\mathcal{L}_{\mathrm{NVFP4}}^{\mathrm{MSE}}(s, S; W)

ScaleSweep：通过块缩放初始化实现LLM的NVFP4训练后量化精度提升

相似文章

可训练的平滑旋转变换与学习到的通道缩放用于LLM量化

SigmaScale：基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

这是我的 llama.cpp NVFP4/MXFP6 GGUF 量化工具

Mix-Quant: 量化预填充，精准解码的智能体大语言模型

Qift: 移位友好的无零点W2训练后量化，用于旋转W2A4/KV4大语言模型推理

提交意见反馈