ScaleSweep:通过块缩放初始化实现LLM的NVFP4训练后量化精度提升

arXiv cs.LG 论文

摘要

ScaleSweep提出了一种针对LLM的NVFP4训练后量化的新型块缩放初始化方法,通过遍历可行的块缩放候选值来提高精度。在Llama和Qwen模型上的实验表明,在激进量化下,该方法保留了超过93%的全精度性能。

arXiv:2606.07618v1 公告类型:新版 摘要:NVFP4是一种近期推出的硬件支持的FP4格式,通过细粒度块缩放提升了4位量化的保真度。然而,现有的NVFP4缩放初始化方法仍然主要依赖AbsMax初始化,这在与最优解之间存在明显差距。为解决这一问题,我们提出了ScaleSweep,一种简单高效的缩放优化方法,通过遍历可行的块缩放候选值并选择最小化目标函数的候选值。我们进一步对NVFP4量化进行了理论分析,推导出了在原始张量与量化重建张量之间的均方误差(MSE)和加权均方误差(WMSE)下所需扫过范围的上下界。所提出的界限在保留最优候选值的同时大幅缩减了扫过空间,与基线量化算子相比,开销可忽略不计。在Llama和Qwen模型上的实验表明,ScaleSweep在现有初始化方法基础上持续提升了量化性能,并进一步缩小了与全精度的差距。特别是在对权重、激活、KV缓存和查询状态进行激进的端到端量化时,ScaleSweep保留了超过93%的全精度性能。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:51

# ScaleSweep:通过块缩放初始化实现 LLM 的精确 NVFP4 训练后量化
来源:https://arxiv.org/html/2606.07618
Li Lin, Xiaojun Wan, 北京大学王选计算机技术研究所, [email protected], [email protected]

###### 摘要

NVFP4 是近期推出的一种硬件支持的 FP4 格式,通过细粒度的块缩放(block scale)提升了 4 比特量化的保真度。然而,现有的 NVFP4 缩放初始化方法仍主要依赖 AbsMax 初始化,与最优解之间存在明显差距。为解决此问题,我们提出 ScaleSweep,一种简单高效的缩放优化方法,该方法扫描可行的块缩放候选值,并选择使目标损失最小的候选值。我们进一步对 NVFP4 量化进行了理论分析,并推导了在原始张量和量化重建张量之间的均方误差(MSE)与加权均方误差(WMSE)下,所需扫描范围的上下界。所提出的界限在保留最优候选值的同时显著缩小了扫描空间,使其相比基线量化算子仅增加极小的开销。在 Llama 和 Qwen 模型上的实验表明,ScaleSweep 在量化性能上持续优于现有初始化方法,并进一步缩小了与全精度的差距。特别是在对权重、激活、KV 缓存和查询状态进行激进的端到端量化时,ScaleSweep 保留了超过 93% 的全精度性能。

## 1 引言

近年来,大型语言模型(LLM)的进展显著增加了部署时的内存占用、带宽需求和计算成本。因此,训练后量化(PTQ)[Krishnamoorthi, 2018](https://arxiv.org/html/2606.07618#bib.bib28) 已成为高效推理的关键方法,无需重新训练或全面微调即可实现模型压缩 [Frantar et al., 2023](https://arxiv.org/html/2606.07618#bib.bib4); [Xiao et al., 2023](https://arxiv.org/html/2606.07618#bib.bib11); [Ashkboos et al., 2024](https://arxiv.org/html/2606.07618#bib.bib5); [Liu et al., 2025](https://arxiv.org/html/2606.07618#bib.bib6); [Hu et al., 2025](https://arxiv.org/html/2606.07618#bib.bib7)。在低精度量化方案中,NVFP4 尤为突出,它结合了 FP4 E2M1 格式、FP8 微块缩放以及张量级全局缩放,并得到 NVIDIA Blackwell GPU 的原生支持 [Alvarez et al., 2025](https://arxiv.org/html/2606.07618#bib.bib9)。这种组合在减少内存和带宽需求的同时,相比纯整数格式保留了更大的数值灵活性 [Chen et al., 2025](https://arxiv.org/html/2606.07618#bib.bib31); [Egiazarian et al., 2026](https://arxiv.org/html/2606.07618#bib.bib8)。NVFP4 的 FP8 微块缩放设计使得在激进压缩下实现实际低比特 LLM 推理成为可能,这使得缩放优化在细粒度低精度量化中变得愈发关键。

尽管 NVFP4 具有诸多优势,但现有 PTQ 方法在该格式下表现出不同行为。某些方法,如 GPTQ [Frantar et al., 2023](https://arxiv.org/html/2606.07618#bib.bib4) 和 SmoothQuant [Xiao et al., 2023](https://arxiv.org/html/2606.07618#bib.bib11),仍适用于 NVFP4,而基于旋转的方法 [Ashkboos et al., 2024](https://arxiv.org/html/2606.07618#bib.bib5); [Liu et al., 2025](https://arxiv.org/html/2606.07618#bib.bib6) 可能会降低性能 [Egiazarian et al., 2026](https://arxiv.org/html/2606.07618#bib.bib8)。这种差异源于 NVFP4 与传统 INT4 量化的两个关键区别:微块缩放的使用以及 FP4 数据类型。针对 INT 量化,已有多种缩放初始化技术被提出 [Zhang and Shrivastava, 2025](https://arxiv.org/html/2606.07618#bib.bib29); [Lin et al., 2026](https://arxiv.org/html/2606.07618#bib.bib30),但由于 NVFP4 的两级缩放结构,这些技术无法直接适用。现有的 NVFP4 初始化方法仍主要依赖基于 AbsMax 的启发式方法,包括 4/6 策略 [Cook et al., 2026](https://arxiv.org/html/2606.07618#bib.bib3),其与最优解之间存在明显差距。这些特性使得 NVFP4 中的缩放优化和误差分布从根本上不同于 INT4 和单级 FP 量化,从而需要针对 NVFP4 的专用缩放优化方法。

见图注
图 1:在不同 NVFP4 块大小下,使用 AbsMax、4/6、ScaleSweep 和 FP8 量化的最优 FP32 缩放时,原始张量与量化重建张量之间的归一化 MSE 和 WMSE 及其与最优值的相对差距。定义见第 3 节。

现有的 NVFP4 缩放初始化策略(如 AbsMax 和 4/6)依赖基于最大可表示 FP4 值的简单启发式方法。然而,如图 1 所示,与 FP8 量化的最优 FP32 块缩放¹¹¹对于 MSE 和 WMSE 目标,最优 FP32 块缩放均能以较低计算复杂度精确求解。详情见附录 C。相比,在不同块大小下仍存在明显差距。这一观察表明,FP8 块缩放选择仍有很大改进空间。由于可表示的 FP8 缩放数量非常有限,穷举缩放扫描在计算上变得可行。为此,我们提出 ScaleSweep,一种专为具有 FP8 块缩放的 FP4 量化设计的缩放扫描方法。针对 FP4 量化,我们进一步提供了在 MSE 和 WMSE 目标下的块缩放优化理论分析。特别是,通过理论分析和计算机辅助分析,我们推导了最优 FP8 块缩放的理论上下界,从而将可行扫描范围缩小到 FP8 比特模式空间中的紧凑局部邻域,实现了高效的缩放扫描。

我们在日益严峻的量化设置下评估 ScaleSweep,包括权重-激活量化、权重-激活量化加 KV 缓存量化,以及权重-激活量化加 KV 缓存和查询状态量化。在所有设置下,ScaleSweep 通常比 NVFP4 的现有初始化方法实现更强的恢复效果。我们的主要贡献总结如下:

* •我们分析了具有 FP8 块缩放的 FP4 量化,并推导了在 MSE 和 WMSE 目标下最优块缩放的下界和上界。
* •基于推导的界限,我们提出 ScaleSweep,一种 NVFP4 专用的校准方法,它将 FP8 块缩放优化限制在比特模式空间中的紧凑区间内,实现了 RTN 和 GPTQ 流水线的高效缩放选择。
* •我们在 Llama 和 Qwen 模型上,针对权重-激活、KV 缓存和查询状态量化设置验证了 ScaleSweep 的有效性。ScaleSweep 普遍优于现有初始化方法,在最激进的设置下恢复了 BF16 性能的 93%–95%,同时与 vLLM 中的默认 NVFP4 量化算子相比,仅引入了可忽略的算子开销。

## 2 相关工作

##### 整数量化。
针对整数量化的训练后量化已被广泛研究,用于高效的大型语言模型(LLM)推理。GPTQ [Frantar et al., 2023](https://arxiv.org/html/2606.07618#bib.bib4) 通过利用近似二阶信息进行逐层重建,改进了低比特量化;而 SmoothQuant [Xiao et al., 2023](https://arxiv.org/html/2606.07618#bib.bib11) 通过权重与激活之间的平滑变换来缓解激活异常值。最近的工作进一步通过在量化前重塑张量分布来改进低比特量化。QuaRot [Ashkboos et al., 2024](https://arxiv.org/html/2606.07618#bib.bib5) 应用随机哈达玛变换以消除激活异常值,并支持旋转后 LLM 的 4 比特推理;SpinQuant [Liu et al., 2025](https://arxiv.org/html/2606.07618#bib.bib6) 学习旋转变换以更好地将张量与低比特量化网格对齐;OSTQuant [Hu et al., 2025](https://arxiv.org/html/2606.07618#bib.bib7) 结合正交变换和缩放变换,通过改进分布拟合来优化量化。这些方法共同表明,减少异常值和平滑不利于量化的分布是实现精确低比特 INT PTQ 的核心,其中哈达玛变换、旋转和正交变换已成为越来越重要的技术。

##### FP4 量化。
FP4 量化近期已成为高效低精度 LLM 推理的一个重要方向,特别是随着 NVIDIA 的 NVFP4 格式的推出 [Alvarez et al., 2025](https://arxiv.org/html/2606.07618#bib.bib9)。近期研究开始探索预训练和训练后设置下的 FP4 量化。NVIDIA 的 NVFP4 预训练工作证明了使用 NVFP4 精度训练大型语言模型的可行性 [NVIDIA et al., 2026](https://arxiv.org/html/2606.07618#bib.bib2),而 TetraJet-v2 [Chen et al., 2026](https://arxiv.org/html/2606.07618#bib.bib10) 通过解决低精度训练期间的权重振荡和异常值问题,进一步提高了 NVFP4 训练精度。在缩放初始化方面,4/6 [Cook et al., 2026](https://arxiv.org/html/2606.07618#bib.bib3) 扩展了 AbsMax 缩放,额外评估一种将块最大值映射到 4 而非 6 的缩放,并选择误差较低的量化。MR-GPTQ [Egiazarian et al., 2026](https://arxiv.org/html/2606.07618#bib.bib8) 表明,直接应用诸如 QuaRot 和 SpinQuant 等旋转变换会在 NVFP4 量化下降低性能,并提出在 GPTQ 基础上使用微旋转,以适配硬件支持的 FP4 格式。这些结果表明,FP4 量化需要针对浮点码本和微缩放结构定制技术,特别是在缩放选择和格式感知重建方面,而非直接复用 INT4 量化方法。

## 3 预备知识

### 3.1 符号说明

令 \([N]\) 表示索引集合 \(\{0,1,2,\dots,N-1\}\)。对于大小为 \(n\) 的原始张量 \(x\) 和重建张量 \(\hat{x}\),均方误差 (MSE) 和归一化均方误差 (NMSE) 分别定义为 \(\mathrm{MSE}(x,\hat{x}) = \|x-\hat{x}\|_2^2 / n\) 和 \(\mathrm{NMSE}(x,\hat{x}) = \|x-\hat{x}\|_2^2 / \|x\|_2^2\)。给定逐元素权重张量 \(w\),加权均方误差 (WMSE) 和归一化加权均方误差 (NWMSE) 分别定义为 \(\mathrm{WMSE}(x,\hat{x},w) = \left(\sum_i w_i (x_i - \hat{x}_i)^2\right) / \left(\sum_i w_i\right)\) 和 \(\mathrm{NWMSE}(x,\hat{x},w) = \left(\sum_i w_i (x_i - \hat{x}_i)^2\right) / \left(\sum_i w_i x_i^2\right)\)。

对于数值格式 \(\mathcal{F}\),令 \(\mathcal{G}_{\mathcal{F}}\) 表示其可表示值集合。特别地,\(\mathcal{G}_{\mathrm{FP4}}\)、\(\mathcal{G}_{\mathrm{FP8}}\) 和 \(\mathcal{G}_{\mathrm{FP32}}\) 分别表示 FP4 E2M1、FP8 E4M3 和 FP32 的可表示值集合,其中 \(\mathcal{G}_{\mathrm{FP4}}\) 和 \(\mathcal{G}_{\mathrm{FP8}}\) 也称为量化网格。对于 \(x \in \mathbb{R}\),令 \(\lfloor x \rceil_{\mathcal{F}}\) 表示将 \(x\) 舍入到 \(\mathcal{G}_{\mathcal{F}}\) 中最近的值,\(\lfloor x \rfloor_{\mathcal{F}}\) 表示向下舍入到 \(\mathcal{G}_{\mathcal{F}}\) 中不超过 \(x\) 的最大值,\(\lceil x \rceil_{\mathcal{F}}\) 表示向上舍入到 \(\mathcal{G}_{\mathcal{F}}\) 中不小于 \(x\) 的最小值。

对于带有缩放 \(s\) 的 FP4 量化,定义缩放格式 \(\mathrm{FP4}(s)\) 为按 \(s\) 缩放的标准 FP4 格式。其可表示值集合为
\[
\mathcal{G}_{\mathrm{FP4}(s)} = \{ s \cdot v \mid v \in \mathcal{G}_{\mathrm{FP4}} \}. \tag{1}
\]
令 \(\mathbf{w} \in \mathbb{R}_{\ge 0}^n\) 表示非负权重。缩放为 \(s\) 时的加权量化损失为
\[
\mathcal{L}(s; \mathbf{x}, \mathbf{w}) = \sum_{i=0}^{n-1} w_i \left( x_i - \lfloor x_i \rceil_{\mathrm{FP4}(s)} \right)^2. \tag{2}
\]
当 \(\mathbf{w} = \mathbf{1}\) 时,目标退化为非加权损失
\[
\mathcal{L}(s; \mathbf{x}) = \sum_{i=0}^{n-1} \left( x_i - \lfloor x_i \rceil_{\mathrm{FP4}(s)} \right)^2. \tag{3}
\]
为简洁起见,在上下文清晰时两种形式均用 \(\mathcal{L}\) 表示。

### 3.2 NVFP4 量化

NVFP4 将 FP4 值与两级缩放相结合,以在低比特宽度约束下提高量化保真度。NVFP4 中使用的 FP4 格式遵循 OCP 微缩放格式规范 [Open Compute Project, 2023](https://arxiv.org/html/2606.07618#bib.bib1),可表示值为
\[
\mathcal{G}_{\mathrm{FP4}} = \{0, \pm 0.5, \pm 1, \pm 1.5, \pm 2, \pm 3, \pm 4, \pm 6\}. \tag{4}
\]

给定输入张量 \(\mathbf{x} \in \mathbb{R}^N\),NVFP4 将其表示为 \((\mathbf{q}, \mathbf{s}, S)\),其中 \(\mathbf{q} \in \mathcal{G}_{\mathrm{FP4}}^N\) 表示 FP4 值,\(\mathbf{s} \in \mathcal{G}_{\mathrm{FP8}}^{N/16}\) 表示每 16 个元素共享的 FP8 E4M3 微块缩放,\(S \in \mathcal{G}_{\mathrm{FP32}}\) 表示全局 FP32 缩放。重建张量 \(\hat{\mathbf{x}}\) 计算为
\[
\hat{x}_i = q_i \cdot s_{\lfloor i/16 \rfloor} \cdot S. \tag{5}
\]

对于 NVFP4 量化,广泛采用的初始化策略是 AbsMax [NVIDIA et al., 2026](https://arxiv.org/html/2606.07618#bib.bib2):
\[
\begin{aligned}
S &= \frac{\max_i |x_i|}{448 \cdot 6}, \tag{6} \\
s_k &= \left\lfloor \frac{\max_{\lfloor i/16 \rfloor = k} |x_i|}{S \cdot 6} \right\rceil_{\mathrm{FP8}}, \quad k \in [N/16], \tag{7} \\
q_i &= \left\lfloor \frac{x_i}{S \cdot s_{\lfloor i/16 \rfloor}} \right\rceil_{\mathrm{FP4}}, \quad i \in [N], \tag{8}
\end{aligned}
\]
其中 \(448\) 和 \(6\) 分别是 FP8 E4M3 和 FP4 E2M1 的最大可表示幅度。

## 4 方法

### 4.1 优化目标

##### MSE 目标
对于权重张量 \(W \in \mathbb{R}^{d_{\mathrm{in}} \times d_{\mathrm{out}}}\),NVFP4 量化的重建保真度自然由 MSE 目标衡量。由此产生的优化目标为
\[
\mathcal{L}_{\mathrm{NVFP4}}^{\mathrm{MSE}}(s, S; W)

相似文章

这是我的 llama.cpp NVFP4/MXFP6 GGUF 量化工具

Reddit r/LocalLLaMA

作者介绍了一款开源的 GGUF 量化工具,用于 llama.cpp,能够创建 NVFP4 和 MXFP6 量化模型,并采用 RSF、张量提升、动态量化等先进技术,质量优于现有方法(如 ModelOpt)。

Mix-Quant: 量化预填充,精准解码的智能体大语言模型

arXiv cs.CL

Mix-Quant 提出了一种面向智能体大语言模型的阶段感知量化框架,在预填充阶段使用 NVFP4 量化以加速计算,同时在解码阶段保持 BF16 精度以维持准确性。该方法在智能体基准测试中实现了预填充速度提升最高 3 倍,且性能下降极小。