QuIDE:通过主动优化掌握量化智能权衡

arXiv cs.LG 论文

摘要

本文介绍了 QuIDE 框架,该框架利用智能指数来评估量化神经网络在压缩、准确性和延迟之间的权衡。研究证明,最佳位宽因任务而异:对于大型语言模型(LLM)和简单任务,4-bit 是最理想的;而对于复杂的卷积神经网络(CNN),8-bit 则更为合适。

arXiv:2605.10959v1 公告类型:new 摘要:目前尚无统一的指标来评估量化神经网络的效率。我们提出了 QuIDE,其核心是智能指数 I = (C x P)/log_2(T+1),该指数将压缩-准确性-延迟的权衡转化为单一分数。在六种设置下的实验——SimpleCNN(MNIST、CIFAR)、ResNet-18(ImageNet-1K)和 Llama-3-8B——显示出任务依赖的帕累托拐点。对于 MNIST 和大型 LLM,4-bit 量化是最优的;而对于复杂的 CNN 任务(ImageNet 上的 ResNet-18),8-bit 是最佳选择,在此类任务中,4-bit 训练后量化(PTQ)会导致准确性灾难性下降。带准确性阈值的变体 I' 能够正确标记这些原始 I 值会给予奖励但实际不可行的配置。QuIDE 提供了一种可复现的评估协议以及一个即插即用的混合精度搜索适应度函数。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:22

# QuIDE:通过主动优化掌握量化智能的权衡

来源:https://arxiv.org/html/2605.10959
江先涛 上海海事大学信息工程学院 上海 201306,中国 [email protected]

###### 摘要

目前尚缺乏统一的标准来评估量化神经网络的效率。我们提出了QuIDE框架,其核心是**智能指数**(Intelligence Index)$I=(C\times P)/\log_2(T+1)$,将压缩率、精度和延迟之间的权衡整合为单一分数。在六种设置下的实验——SimpleCNN(MNIST, CIFAR)、ResNet-18(ImageNet-1K)和 Llama-3-8B——揭示了**依赖任务的帕累托拐点(Pareto Knee)**。对于MNIST和大型LLM,4位量化是最优选择;而对于复杂的CNN任务(如ImageNet上的ResNet-18),8位量化是最佳平衡点,因为4位训练后量化(PTQ)会导致精度灾难性下降。带精度门控的变体$I'$能够正确标记这些原始$I$会错误奖励的不可行配置。QuIDE提供了一套可复现的评估协议,以及可直接用于混合精度搜索的适应度函数。

## 1 引言

在边缘设备上部署深度神经网络需要模型压缩,而量化是其中最为有效的技术之一 Gholami et al. (2022) (https://arxiv.org/html/2605.10959#bib.bib1)。选择合适的位宽意味着要在三个相互竞争的目标之间取得平衡:压缩比、预测精度和推理延迟 Deng et al. (2020) (https://arxiv.org/html/2605.10959#bib.bib3)。目前尚无标准方法来处理这种权衡。

当前的评估实践通常将这些维度分开或两两对待。精度与模型大小曲线 Wang et al. (2020) (https://arxiv.org/html/2605.10959#bib.bib7) 和延迟基准测试 Kim et al. (2021) (https://arxiv.org/html/2605.10959#bib.bib9) 通常是孤立报告的。MLPerf Tiny Banbury et al. (2021) (https://arxiv.org/html/2605.10959#bib.bib19) 虽然并列列出了精度、延迟和能耗,但最终判断仍留给用户。结果是,位宽选择变成了一种主观的读图练习。一个具有 $16\times$ 压缩比的2位模型是否优于一个保留近乎完整精度的8位模型?答案完全取决于如何权衡存储空间与任务性能,且目前不存在正式的框架来使这种权衡保持一致。

我们提出了**量化智能与部署效率(Quantized Intelligence and Deployment Efficiency, QuIDE)**框架。其核心是**智能指数**:

$$ I = \frac{C \times P}{\log_2(T+1)} $$

该指数将三维的压缩-精度-延迟权衡压缩为单一标量。仅在精度得以保持时,压缩增益才算数($C\times P$ 为乘法关系),且延迟受到边际权重递减的惩罚($\log_2$ 衰减)。在所有三个维度上实现更高效率的模型将获得更高的分数。

我们通过针对六种条件进行PTQ实验来验证QuIDE:SimpleCNN(MNIST, CIFAR-10, CIFAR-100)、ResNet-18(CIFAR-10, ImageNet-1K)以及 Llama-3-8B。结果揭示了**依赖任务的帕累托拐点**。对于简单任务(MNIST)和大量参数的大语言模型(LLMs),4位量化是最优的。对于复杂视觉任务(ImageNet)上的深度CNN,4位PTQ会导致精度灾难性下降,使8位成为实际的最佳平衡点。带精度门控的变体$I'$对于检测这一点至关重要:原始指数$I$可能会因极端压缩而膨胀,即使模型已无法正常工作,而$I'$则会抑制此类配置。我们的贡献如下:

- **智能指数** $I=(C\times P)/\log_2(T+1)$ 及其带精度门控的变体 $I'$,这是一种统一压缩-精度-延迟评估的综合指标。
- **QuIDE框架**,一种标准化协议,用于测量从CNN到80亿参数LLM等不同规模的量化模型效率。
- **经验发现**:在六种条件下存在**依赖复杂度的帕累托拐点**:4位量化适用于简单任务和大型LLM,而复杂视觉任务(如ImageNet)上的深度CNN需要8位量化。我们证明 $I'$ 对于过滤掉 $I$ 会错误奖励的不可行配置是必要的。

## 2 相关工作

**量化技术**。模型量化通过降低数值精度来加速推理并最小化空间开销。策略范围从无需重新训练即可在小数据子集上进行校准的训练后量化(PTQ) Wu et al. (2020) (https://arxiv.org/html/2605.10959#bib.bib6); Nagelet et al. (2020) (https://arxiv.org/html/2605.10959#bib.bib18); Cai et al. (2020) (https://arxiv.org/html/2605.10959#bib.bib2),到将精度约束集成到优化循环中的量化感知训练(QAT) Gholami et al. (2022) (https://arxiv.org/html/2605.10959#bib.bib1); Esser et al. (2020) (https://arxiv.org/html/2605.10959#bib.bib16)。诸如BRECQ Lie et al. (2021) (https://arxiv.org/html/2605.10959#bib.bib13) 等专家PTQ方法使用块级重建来逐层最小化输出误差,而AdaRound Nagelet et al. (2020) (https://arxiv.org/html/2605.10959#bib.bib18) 则学习舍入决策以减少累积量化误差。二值化和三值化网络以牺牲表示能力为代价实现极端压缩 Qiu et al. (2020) (https://arxiv.org/html/2605.10959#bib.bib4)。对于大型语言模型,GPTQ Frantar et al. (2023) (https://arxiv.org/html/2605.10959#bib.bib17) 利用二阶信息进行一次性权重量化。QuIDE与算法无关:它评估任何量化模型的效率,无论其生成算法如何。

**混合精度量化**。为不同层分配不同的位宽,相对于均匀量化可以显著提高精度-压缩权衡。HAQ Wang et al. (2019) (https://arxiv.org/html/2605.10959#bib.bib12) 训练一个DDPG智能体以在硬件延迟约束下搜索每层位宽。HAWQ Dong et al. (2019) (https://arxiv.org/html/2605.10959#bib.bib15) 利用海森矩阵特征值敏感性对层的可量化性进行排名,以指导混合精度分配。APQ Wang et al. (2020) (https://arxiv.org/html/2605.10959#bib.bib7) 联合搜索架构、剪枝和量化。这些方法表明,层间异构性对于达到帕累托前沿至关重要,但它们各自需要特定于任务的奖励信号。QuIDE贡献了一个互补工具:智能指数 $I'$ 提供了一个单一的、基于硬件的标量,可以在不重新设计奖励机制的情况下,作为任何此类搜索范式中的统一适应度函数。

**效率指标与帕累托优化**。评估模型效率需要在参数量、内存占用和延迟之间取得平衡 Shuvo et al. (2022) (https://arxiv.org/html/2605.10959#bib.bib5)。如MLPerf Tiny Banbury et al. (2021) (https://arxiv.org/html/2605.10959#bib.bib19) 等基准测试分别报告这些指标,将综合判断委托给实践者。多目标神经架构搜索(NAS)方法导航精度-延迟或精度-大小前沿 Wang et al. (2020) (https://arxiv.org/html/2605.10959#bib.bib7),但未指定最终工作点的选择。现有的标量化方案依赖于任意权重。QuIDE通过引入智能指数填补了这一空白,该指数是一个由信息论驱动的标量,将压缩、精度和延迟统一为单一的排序标准,并将 $I'$ 操作化为进化混合精度搜索(MPS)中现成的适应度函数。

### 2.1 信息论视角与指标设计

信息瓶颈原理 Tishby and Zaslavsky (2015) (https://arxiv.org/html/2605.10959#bib.bib10) 将表征学习框定为在保留与任务相关信息的同时压缩输入。最小描述长度(MDL)框架 Grünwald (2007) (https://arxiv.org/html/2605.10959#bib.bib11) 认为,最佳模型应使模型本身及其所编码数据的总描述长度最小化。量化是这些思想的硬件约束实例:更低的位宽意味着更短的描述,而精度衡量信息的保留程度。智能指数通过将空间效用定义为 $U(b)=C(b)\times P(b)$——即单位描述成本下的保留信息量——正式化了这种联系。

在实践中,指标设计还必须考虑硬件约束。先前的量化感知NAS方法 Wang et al. (2019) (https://arxiv.org/html/2605.10959#bib.bib12); Dong et al. (2019) (https://arxiv.org/html/2605.10959#bib.bib15) 优化精度和延迟的加权和,将权重设定留给特定于任务的调整。智能指数用基于部署物理特性的形状替代了任意权重——压缩随位宽比例缩放,延迟遵循收益递减剖面——因此该指标可以在不同架构间迁移而无需重新调整。

## 3 方法论

我们正式定义 $I$ 和 $I'$,然后描述测量协议。

### 3.1 问题 formulation

设 $\mathcal{M}_{FP}$ 为一个全精度模型,参数 $\boldsymbol{\theta}_{FP}\in\mathbb{R}^{d}$ 以32位浮点数存储。量化产生模型 $\mathcal{M}^{(b)}$,其参数 $\boldsymbol{\theta}_{Q}^{(b)}$ 具有 $b$ 位精度。我们沿以下三个维度评估效率:

- **压缩率 ($C$)**:内存比 $C^{(b)}=32/b$(对于均匀量化)。
- **预测精度 ($P$)**:在保留测试集 $D_{test}$ 上的分类准确率。
- **计算成本 ($T$)**:在固定硬件平台上每次前向传播的平均推理延迟。

目标是找到能平衡这些目标的 $b^*$。现有指标无法提供一致的方法来同时比较所有三个维度上的配置。

### 3.2 设计原理与智能指数的公式推导

我们从三个设计选择中推导 $I$,每个选择都基于信息论或系统工程,并在第3.4节 (https://arxiv.org/html/2605.10959#S3.SS4) 中针对替代公式进行验证。

**空间效用(压缩率 $\times$ 精度)**:受最小描述长度(MDL)框架启发,量化的核心目标是在保留预测信息的同时最小化网络的描述长度。对于经历位宽为 $b$ 的均匀量化的模型,压缩因子为 $C^{(b)}=32/b$。我们将空间效用 $U(b)$ 定义为压缩比与预测精度的乘积:

$$ U(b) = C^{(b)} \times P^{(b)} \quad (1) $$

其中 $P^{(b)}$ 表示以 $[0,1]$ 范围内的分数表示的特定任务准确率。选择乘法形式是为了确保即使压缩率很高,零准确率的模型其效用也为零——这是加法公式无法保证的特性。这一设计选择在第3.4节 (https://arxiv.org/html/2605.10959#S3.SS4) 中通过实证验证,我们将 $U(b)$ 与加法替代方案进行了对比。因此,量 $U(b)$ 代表了每个标准化内存占用单位的有效预测载荷。

**时间惩罚(对数延迟衰减)**:在边缘计算中,推理延迟 $T$ 是实时应用的主要物理约束。合适的惩罚函数 $f(T)$ 应满足:$f(0)=0$,$f'(T)>0$(单调性),以及 $f''(T)<0$(边际成本递减——随着基线延迟增加,额外毫秒的相对严重性降低)。在满足这些公理的函数族中,对数函数 $f(T)=\log_2(T+1)$ 提供了三个实用优势:(i) 它是次可加的,因此组合两个延迟源的惩罚小于它们的总和;(ii) 其增长率明显慢于线性,反映了经验观察:随着位宽降低,内存带宽成为瓶颈而非算术精度时,延迟改善表现出收益递减;(iii) 它在典型边缘延迟范围内产生可解释的有界值。我们注意,选择 $\log_2$ 而非其他底数是一种缩放惯例;配置的排序对底数不变。将时间常数归一化为1 ms建立惩罚为 $f(T)=\log_2(T+1)$,我们在全文中采用此定义。

**复合标量化**:将空间效用和时间惩罚结合为比率,得到**智能指数**:

$$ I^{(b)} = \frac{U(b)}{f(T^{(b)})} = \frac{C^{(b)} \times P^{(b)}}{\log_2(T^{(b)}+1)} \quad (2) $$

较高的 $I$ 意味着更好的效率。这并非三目标权衡的唯一可能标量化方式,但它有良好的动机支撑,我们在第3.4节 (https://arxiv.org/html/2605.10959#S3.SS4) 中针对替代方案进行了验证。

**带精度门控的 refined 指数 ($I'$)**:原始指数 $I$ 可能会因低位宽下的极端压缩而膨胀,即使精度下降到接近随机水平。为了防止奖励此类病态配置,我们引入了精度门控机制:一个最低生存阈值 $P_{thresh}$,低于该阈值的模型被视为无法工作。改进后的指数 $I'$ 通过移位ReLU应用硬惩罚:

$$ I'_{(b)} = \frac{C^{(b)} \times \max(P^{(b)} - P_{thresh}, 0)}{\log_2(T^{(b)}+1)} \quad (3) $$

对于 $P^{(b)} > P_{thresh}$ 的配置,指数根据准确率超出生存底线的幅度给予奖励;对于 $P^{(b)} \leq P_{thresh}$ 的配置,指数坍缩为零,将其从可行的帕累托前沿中移除。

我们通过双组件规则正式化 $P_{thresh}$:

$$ P_{thresh} = \max\left(\frac{1}{K}, \; P_{FP} - \delta\right) \quad (4) $$

其中 $K$ 是类别数量(因此 $1/K$ 是随机猜测准确率),$P_{FP}$ 是全精度模型准确率,$\delta$ 是特定于任务的容忍参数,编码目标应用可接受的精度降级程度。较小的 $\delta$ 强制接近无损部署(例如,安全关键的LLM推理),而较大的 $\delta$ 在可以容忍一定精度损失时适应激进压缩。

本作品中使用的 $\delta$ 值为:MNIST $\delta=0.19$(容忍从99.2%下降19个百分点),CIFAR-10 $\delta=0.30$,CIFAR-100 $\delta=0.43$(接近随机底线),ImageNet-1K $\delta=0.60$,ResNet-18/CIFAR-10 $\delta=0.45$,以及 Llama-3-8B $\delta=0.07$(严格容忍)。我们注意到,附录A (https://arxiv.org/html/2605.10959#A1) 中的消融实验分析了 $I'$ 对 $P_{thresh}$ 选择的敏感性,且对于未发生坍缩的位宽,可行配置的排序在广泛的 $\delta$ 值范围内保持稳定。

### 3.3 QuIDE 测量

**模型架构与训练**。为了将数值量化的影响与次要的架构复杂性隔离开来,我们采用了一个简化但具有代表性的卷积神经网络(CNN)作为实验基线。该架构由四层序列组成:两个卷积层,分别具有32和64个滤波器($3\times3$ 核,ReLU激活函数),每个卷积层后接一个 $2\times2$ 最大池化操作,...

相似文章

如果显存允许,尽量跑更大的量化模型

Reddit r/LocalLLaMA

有用户反馈,把高度压缩的 IQ4_XS 换成更大的 IQ4_NL_XL 后,Qwen 3.6 的 Agent 编程准确率大幅提升;虽然 tok/s 下降,但只要 VRAM 够,强烈建议优先选更大的量化。

基于卷积的深度学习模型量化后的进化微调

arXiv cs.LG

本文提出了一种基于神经进化的微调方法,以提高量化深度学习模型的精度。研究表明,仅使用最近邻舍入是次优的,而在 VGG 和 ResNet 等架构上对权重进行进化变异可获得更好的结果。

Ternary Bonsai:1.58 比特下的顶级智能

Hacker News Top

一种使用三值权重(-1、0、1)的高效 AI 模型架构,仅需 1.58 比特/参数即可实现具有竞争力的性能,可部署在极度受限的设备上。