Quant.npu:通过全静态量化实现端侧大语言模型的高效移动NPU推理
摘要
Quant.npu 提出了一种面向移动 NPU 的全静态量化框架,利用可学习参数和旋转矩阵,无需运行时重新计算即可实现高效的低比特大语言模型推理,延迟最高降低 15.1%。
arXiv:2605.20295v1 公告类型:新
摘要:大语言模型(LLM)越来越多地部署在移动设备上,而神经处理单元(NPU)要求全静态量化才能实现最优推理效率。然而,现有的训练后量化(PTQ)方法主要依赖动态激活量化,无法满足 NPU 硬件约束。为弥补高精度 PTQ 与受 NPU 约束的推理之间的差距,我们提出了 Quant.npu,一个纯整数全静态量化框架。该框架整合了可学习量化参数和旋转矩阵,无需在运行时重新计算量化参数即可实现低比特激活-权重量化。关键的是,我们发现量化参数的初始化与选择性优化对优化稳定性至关重要,因为不当的初始化和简单的联合优化会导致梯度不稳定,破坏旋转矩阵的优化。为此,我们提出了一种针对不同激活分布的自适应旋转和位宽感知初始化方法,以及一种针对旋转与未旋转张量的分布感知选择性优化(两阶段量化流水线)。此外,我们引入了一种基于敏感度的自适应混合精度方案,以平衡精度与推理效率。在真实移动 NPU 上的大量实验表明,Quant.npu 在实现与最先进方法相当精度的同时,推理延迟最高降低 15.1%。
查看缓存全文
缓存时间: 2026/05/21 06:22
# Quant.npu:通过全静态量化实现移动端NPU上高效的大语言模型推理 来源:https://arxiv.org/html/2605.20295
Jinghe Zhang, Daliang Xu, Chenghua Wang, Weikai Xie, Tao Qi, Yun Ma, Mengwei Xu, Gang Huang
###### 摘要
大语言模型(LLMs)正越来越多地部署在移动设备上,而神经网络处理单元(NPU)要求全静态量化以获得最佳推理效率。然而,现有的训练后量化(PTQ)方法主要依赖动态激活量化,这与NPU的硬件约束不兼容。为了弥合高保真PTQ与NPU约束推理之间的差距,我们提出了Quant.npu,一个纯整数全静态量化框架。它结合了可学习的量化参数和旋转矩阵,实现了低位宽的激活-权重量化,而无需在运行时重新计算量化参数。关键的是,我们识别出量化参数的初始化和选择性优化对优化稳定性至关重要,因为不恰当的初始化和简单的联合优化会引入梯度不稳定性,从而破坏旋转矩阵的优化。为此,我们提出了一种基于旋转和位宽感知的初始化方法,以适应不同的激活分布,以及一种分布感知的选择性优化(两阶段量化流水线),专门针对旋转和未旋转的张量。此外,我们引入了一种敏感性引导的自适应混合精度方案,以平衡准确性与推理效率。在真实移动NPU上的广泛实验表明,Quant.npu在实现与最先进方法相当的准确率的同时,最多可将推理延迟降低15.1%。
## 1. 引言
端侧LLM推理已成为关键研究方向,主要得益于其在保护数据隐私和实现低延迟、无网络操作方面的固有优势[shafee2025privacy](https://arxiv.org/html/2605.20295#bib.bib33); [pamadi2025edge](https://arxiv.org/html/2605.20295#bib.bib25)。为了在移动设备上实现节能执行,制造商将NPU(专用于LLM的硬件)集成到其系统级芯片(SoC)中。例如,高通的Hexagon NPU拥有专用矩阵单元用于高吞吐量GEMM,向量单元用于逐元素处理,以及专用直接内存访问(DMA)引擎以最大化内存带宽利用率。这些架构增强带来了相比移动GPU超过10倍的性能和4倍的能效提升[xu2024fastondevicellminference](https://arxiv.org/html/2605.20295#bib.bib41)。然而,这些效率提升也带来了特定的架构约束:(i) 偏好整数运算:NPU优先考虑高吞吐量整数矩阵乘法,因为整数单元相比浮点单元具有更优的面积和能效[xu2024fastondevicellminference](https://arxiv.org/html/2605.20295#bib.bib41)。(ii) 要求静态量化:NPU是为静态量化而架构的[qualcomm_applyencodings_2026](https://arxiv.org/html/2605.20295#bib.bib28),以避免动态规约操作(例如,即时计算最小值/最大值)的高计算开销。例如,对128元素INT8向量执行树规约至少需要7个向量指令周期,这形成了瓶颈。(iii) 细粒度量化效率低下:NPU通常基于脉动阵列内核,倾向于粗粒度量化[qualcomm_applyencodings_2026](https://arxiv.org/html/2605.20295#bib.bib28)。细粒度方法(例如,逐块)会引入频繁的反量化开销,中断流水线并降低吞吐量。在Hexagon NPU上,标准的W4A8逐张量推理比W4A16逐块推理快大约20%。然而,当前主流量化范式[frantar2023gptqaccurateposttrainingquantization](https://arxiv.org/html/2605.20295#bib.bib13); [xiao2024smoothquantaccurateefficientposttraining](https://arxiv.org/html/2605.20295#bib.bib40); [liu2025spinquantllmquantizationlearned](https://arxiv.org/html/2605.20295#bib.bib21); [sun2025flatquantflatnessmattersllm](https://arxiv.org/html/2605.20295#bib.bib36)主要针对GPU和动态量化设计,从根本上难以与移动NPU对齐。虽然训练后量化方法尝试通过二阶优化[frantar2023gptqaccurateposttrainingquantization](https://arxiv.org/html/2605.20295#bib.bib13)和通道式离群值抑制[xiao2024smoothquantaccurateefficientposttraining](https://arxiv.org/html/2605.20295#bib.bib40)来减轻精度损失,但其全静态变体仍然极易受到LLM中固有的极端激活离群值影响,导致严重的精度下降。为了解决这个问题,最近的基于旋转的方法[liu2025spinquantllmquantizationlearned](https://arxiv.org/html/2605.20295#bib.bib21); [sun2025flatquantflatnessmattersllm](https://arxiv.org/html/2605.20295#bib.bib36)采用可学习旋转来平滑激活分布并减轻离群值的影响。然而,这些方法通常假设部署时支持动态激活量化,并在优化过程中使用动态量化模拟。这一假设与移动NPU的静态编译约束相冲突,当模型转换到静态设置时,通常会导致严重的精度崩坏。为了解决这个问题,本文将全静态量化与可学习的量化参数和旋转矩阵相结合,弥合了优化与部署之间的差距,以防止性能下降。然而,实现这一点并非易事。静态量化与动态量化的主要区别在于量化参数估计的准确性。不恰当的设置会引入显著的量化误差,导致优化过程收敛缓慢或失败。我们的初步实验(第3节)确认,这些设置对收敛稳定性至关重要:(i) 激活量化参数的初始化:初始值决定了裁剪范围。次优的初始化要么导致过度裁剪失真(如果范围太窄),要么浪费位宽分辨率(如果范围太宽),从而形成不良的优化景观并导致收敛不足。(ii) 可学习量化参数的选择性:我们观察到,联合优化每个张量的量化参数可能会适得其反。
**我们的解决方案**。为了应对这些挑战,我们提出了Quant.npu,一个算法-系统协同设计的全静态量化系统,专为实际高效的NPU上LLM推理而定制。它包含三项关键技术:(i) 旋转与位宽感知的初始化:我们证明,典型的初始化策略(例如,最大-最小 vs. 均值)的收敛精度会根据目标位宽和是否存在旋转而变化。我们的方法相应地调整初始化,以确保稳定的起始点。(ii) 分布感知的选择性优化(两阶段量化流水线):我们有效地解耦了旋转分布和未旋转分布的优化。由于未旋转分布更难优化且增加复杂度,我们区别对待它们。(iii) 逐层自适应混合精度策略:由量化敏感性度量引导,我们选择性地为敏感组件分配更高位宽(例如,16位)。这使得Quant.npu能够在必要的地方使用高精度,同时减少推理延迟开销。
我们在真实移动NPU(高通SM8650)上使用4个移动规模(1-3B)的LLM,在3个真实场景和6个精度数据集上评估Quant.npu。为了确保零推理开销,我们只引入两个旋转矩阵(\(R_1, R_2\)),它们离线融合到权重矩阵中,如图2所示。为了充分利用硬件能力,Quant.npu对激活采用逐张量量化,对权重采用逐通道量化。在相同推理延迟下,我们的方法在下游任务上始终比现有方法获得更高的准确率。此外,与最先进方法相比(这些方法比我们的方法慢最多15.1%),Quant.npu仅带来微小的性能差距,平均准确率下降2.58%,PPL增加1.23。
我们的主要贡献总结如下:
- **识别**:我们发现全静态量化的优化稳定性对初始化和可学习量化参数的选择高度敏感。
- **框架**:我们提出了一个移动NPU友好的量化框架,包含新颖的旋转与位宽感知初始化和分布感知选择性优化,以在静态NPU约束下有效对齐优化过程和部署。
- **性能**:我们的方法实现了与最先进方法相当的准确率,同时延迟最多降低15.1%。
 第21层\(W_o\)的动态激活尺度波动。
 不同优化设置下的损失收敛曲线。
 第一阶段中不同组件对精度和时间的影响。
图1:尺度对训练的影响。
图1(a)显示了优化过程中动态激活尺度的巨大波动。图1(b)表明量化参数的可学习性和初始化对收敛至关重要。在图1(c)中,“A”、“OA”和“W”分别表示线性层的输入激活、输出激活和权重。“KV”指Key和Value矩阵。
## 2. 背景
### 2.1 移动NPU上的LLM推理
现代SoC越来越多地集成NPU以加速LLM推理[10592049](https://arxiv.org/html/2605.20295#bib.bib31),通过优化整数运算,相比标准浮点运算提供2.0倍的加速(附录表3)。为了进一步最大化效率,像高通NPU这样的硬件架构倾向于粗粒度量化方案(逐张量激活和逐通道权重)而非细粒度的逐块替代方案,可额外获得1.2倍的加速。然而,这种高效的粗粒度方案相比如LPBQ[aimet_lpbq_2026](https://arxiv.org/html/2605.20295#bib.bib29)等逐块方法会导致显著的精度下降(例如,SmolLM2-1.7B上损失7.2%)。为了调和这一权衡,Quant.npu采用硬件友好的粗粒度配置以加速推理,同时保持模型性能。
### 2.2 量化
量化[gholami2021surveyquantizationmethodsefficient](https://arxiv.org/html/2605.20295#bib.bib14); [frantar2023gptqaccurateposttrainingquantization](https://arxiv.org/html/2605.20295#bib.bib13)通过降低数值精度来减少内存占用和延迟。对于全精度张量\(X_{FP}\),均匀仿射量化定义为\(X_Q = \alpha(\lfloor X_{FP}/\alpha + \beta \rceil - \beta)\),其中\(\alpha\)是缩放因子,\(\beta\)是零点。对称方案设置\(\alpha = \max(|X_{FP}|) / (2^{N-1} - 1)\)且\(\beta = 0\),而非对称方案定义\(\alpha = (\max(X_{FP}) - \min(X_{FP})) / (2^{N} - 1)\)且\(\beta = \text{round}(-\min(X_{FP})/\alpha)\),其中\(N\)是位宽。然而,LLM由于激活分布存在显著离群值[dettmers2022llmint88bitmatrixmultiplication](https://arxiv.org/html/2605.20295#bib.bib9); [xiao2024smoothquantaccurateefficientposttraining](https://arxiv.org/html/2605.20295#bib.bib40)而带来挑战,这导致性能显著下降。
基于旋转的量化
先前工作[ashkboos2024quarotoutlierfree4bitinference](https://arxiv.org/html/2605.20295#bib.bib2); [liu2025spinquantllmquantizationlearned](https://arxiv.org/html/2605.20295#bib.bib21)已证明哈达玛矩阵(\(H \in \{+1, -1\}^{n \times n}\))在缓解离群值方面特别有效,因为它们可以将极值重新分配到所有通道上,从而抑制其影响。由于正交性(\(H^\top H = I\)),以下等式始终成立:\(Y = XW^\top = (XH)(H^\top W^\top)\)。这一特性使得激活和权重可以在不改变模型端到端推理输出的情况下进行旋转。先前工作[liu2025spinquantllmquantizationlearned](https://arxiv.org/html/2605.20295#bib.bib21)探索了四种类型的哈达玛矩阵用于激活(图2):\(R_1\)(跨层共享),\(R_2\)(应用于Value),\(R_3\)(应用于Query和Key),以及\(R_4\)(应用于下投影)。其中,\(R_1\)和\(R_2\)可以离线融合到权重(\(WH\))中,消除运行时开销。它进一步使用Cayley优化改进\(R_1\)和\(R_2\),在保持正交性的同时发现更优的旋转矩阵。相比之下,\(R_3\)和\(R_4\)在推理时需要在线浮点矩阵乘法,引入约2倍的计算开销。
## 3. 动机
静态参数与旋转矩阵的联合优化。现有基于优化的方法通常依赖动态量化来模拟误差。然而,如图1(a)所示,第21层\(W_o\)的动态激活尺度在优化过程中波动显著(例如,方差为0.58)。这种不稳定性表明动态模拟无法捕捉静态量化误差。因此,直接将优化后的模型转换为静态量化用于NPU推理会导致显著的精度下降(例如,SmolLM2-1.7B-Instruct模型下降15.61%)。相反,在优化前固定量化参数可以防止这种不匹配,但严重阻碍了收敛,导致性能次优,如图1(b)所示(例如,损失方差为0.3)。这是因为随着旋转矩阵的优化,量化参数的最优范围持续变化。因此,旋转矩阵与量化参数之间的强耦合意味着在联合优化之前进行静态校准是不充分的。
初始化对收敛的影响。我们的实验进一步揭示,量化参数初始化对优化至关重要。如图1(b)所示,糟糕的初始化会显著减慢收敛速度,导致结果较差(例如,最终损失方差为0.8)甚至发散。
可学习量化参数的选择性。量化的LLM包含大量静态量化参数。与直觉相反,图1(c)显示增加可学习量化参数的数量并不会提升性能。具体而言,联合优化线性层的输入激活、输出激活、权重和KV张量导致...相似文章
通过联合优化架构与量化策略实现 LLM 压缩
来自 UiT 和奥斯陆大学的研究人员提出了一种可微分 NAS 框架,能够联合优化 LLM 压缩中的架构配置与混合精度量化策略。与先 NAS 后量化的顺序基线方法相比,该框架在七项推理任务中可实现最高 1.4 倍的推理加速,或最高 6% 的精度提升。
Mix-Quant: 量化预填充,精准解码的智能体大语言模型
Mix-Quant 提出了一种面向智能体大语言模型的阶段感知量化框架,在预填充阶段使用 NVFP4 量化以加速计算,同时在解码阶段保持 BF16 精度以维持准确性。该方法在智能体基准测试中实现了预填充速度提升最高 3 倍,且性能下降极小。
量化MTP KV缓存 = 免费午餐?
在llama.cpp中将Qwen模型的多令牌预测(MTP)KV缓存量化为q8_0,可以减少VRAM使用,同时不影响推理速度或接受率,实际上为内存受限的配置提供了'免费午餐'。
InfoQuant:为低比特大语言模型量化塑造激活分布
InfoQuant 提出了一种无需训练的方法——峰值抑制正交变换(PSOT),用于重塑低比特大语言模型量化中的激活分布,在 W4A4KV4 设置下保留了 97% 的浮点精度,并优于之前的 PTQ 方法。
Qift: 移位友好的无零点W2训练后量化,用于旋转W2A4/KV4大语言模型推理
本文介绍了Qift,一种固定的无零点两位权重量化层级集,专为Hadamard旋转的大语言模型设计,通过利用旋转权重的近零中心高斯类分布,实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示,相比于标准W2量化,困惑度持续提升。