BitsMoE: 基于谱能引导的MoE大语言模型高效量化比特分配
摘要
BitsMoE提出了一种基于谱能引导的比特分配框架,用于量化混合专家大语言模型,在超低位宽量化下实现了显著的精度提升和加速。
arXiv:2606.00079v1 Announce Type: new
摘要:混合专家(MoE)大语言模型通过稀疏专家激活减少了每个token的计算量,但其部署仍然需要大量内存,因为所有专家权重必须常驻内存。现有的MoE压缩方法在超低位宽场景下表现不佳:剪枝会不可逆地移除模型容量,而粗粒度量化则无法根据异构专家和权重方向的重要性来分配比特。我们提出BitsMoE,一种面向MoE大语言模型量化的谱能引导比特分配框架。BitsMoE通过SVD将每个MoE层分解为共享基和专家特定谱因子,保留共享基不进行量化以保持跨专家的公共结构,并将专家特定因子作为细粒度量化单元。为确定每个单元的比特宽度,BitsMoE将谱域混合精度量化建模为激活感知重构代理,并求解一个整数线性规划,在固定比特预算下最小化估计重构损失。在多个MoE大语言模型上的实验表明,BitsMoE在超低位宽场景下显著降低了下游任务的精度下降。在Qwen3-30B-A3B-Base上进行2比特量化时,与GPTQ相比,BitsMoE将量化速度提升12.3倍,平均准确率提高27.83个百分点,解码速度提升1.76倍。我们的模型和代码已开源在 https://github.com/zjiayu064/BitsMoE。
查看缓存全文
缓存时间: 2026/06/02 15:39
# BitsMoE: 面向MoE大模型量化的高效频谱能量引导比特分配
来源: https://arxiv.org/html/2606.00079
Jiayu Zhao¹,², Zihan Teng¹,², Minhao Fan², Tianrui Ma², Wentao Ren³, Song Chen¹, Weichen Liu²
¹中国科学技术大学微电子学院
²南洋理工大学计算与数据科学学院
³南洋理工大学电气与电子工程学院
本研究是在南洋理工大学访问期间完成。
通讯作者: Weichen Liu。
###### 摘要
混合专家模型通过稀疏激活专家来降低单token计算量,但其部署仍受内存瓶颈限制——所有专家权重必须常驻内存。现有MoE压缩方法在超低位宽场景下表现不足:剪枝不可逆地移除模型容量,而粗粒度量化未能根据专家和权重方向的重要性差异来分配比特。本文提出 **BitsMoE**,一种基于频谱能量引导的MoE大模型量化框架。BitsMoE通过SVD将每个MoE层分解为共享基和专家特定的频谱因子:共享基保留不量化,以保持跨专家的公共结构;专家特定频谱因子则作为细粒度量化单元。为确定每个单元的位宽,BitsMoE将频谱维度的混合精度量化建模为激活感知重构代理,并求解一个整数线性规划(ILP),在固定比特预算下最小化估计重构损失。在多个MoE大模型上的实验表明,BitsMoE在超低位宽下显著降低了下游任务精度损失。在Qwen3-30B-A3B-Base的2比特量化下,BitsMoE相比GPTQ加速量化12.3倍,平均准确率提升27.83个百分点,解码速度提升1.76倍。我们的模型和代码已开源在 https://github.com/zjiayu064/BitsMoE。
---
## 1 引言
自然语言处理的最新进展主要由大语言模型驱动,其中混合专家模型已成为一种高效的稀疏扩展范式,并在多个基准上取得了强劲性能 [5][23][45][11][46]。然而,典型的系统无论运行时是否激活,都使所有专家常驻内存,这使得内存占用成为关键部署瓶颈。例如,Qwen3-30B-A3B-Base [45] 每token仅激活30亿参数,但仍需存储全部300亿参数。稀疏计算与稠密内存驻留之间的差距使MoE部署成本高昂,也催生了MoE大模型压缩的需求 [28]。
现有方法主要遵循两种范式:**剪枝**和**量化**,它们从不同角度减少内存占用和推理成本。尽管取得了进展,现有的MoE压缩方法在激进压缩下仍显不足。
- **剪枝方法**通过移除冗余专家或压缩专家权重来减小模型尺寸 [16][25][47],但硬结构剪枝不可逆地丢弃模型容量,在严格内存预算下灵活性受限。
- 相比之下,**量化方法**以低精度表示专家权重,从而保留MoE架构和路由机制 [8][21][12][9][43][48]。但现有方法通常以层、专家或线性块等粗粒度分配位宽,这种粗粒度分配无法捕捉MoE模型内在的异质性,导致超低位宽量化下性能严重下降。
虽然量化比剪枝更好地保留了MoE容量,但均匀超低位宽量化忽视了专家权重的异质重要性。因此,在严格内存预算下,有限的比特应自适应分配而非均匀分配,尤其在接近2比特时,现有MoE量化方法急剧退化。这种退化反映了粗粒度比特分配与MoE结构之间的错配:专家共享输入-输出特征空间,存在冗余的跨专家方向,但不同细粒度权重方向的敏感性差异显著。因此,粗粒度分配可能过度压缩共享或敏感方向,而在较不重要方向上浪费比特。
这引发了一个基本问题:*MoE量化如何利用校准数据识别异质重要性,并在固定预算下以细粒度分配比特?*
---

**图1:BitsMoE 概览。**
阶段1(第3.2节):每个MoE层通过SVD分解为共享基和专家特定频谱因子。
阶段2(第3.3节):在固定比特预算下,通过ILP为频谱分量分配位宽。
阶段3:推理时,输入投影到共享基上,并使用量化后的频谱因子计算被路由的专家。
---
我们通过将MoE量化为频谱分量上的固定预算比特分配来解决该问题。为了定义这种分配单元,**BitsMoE** 将每个MoE层通过SVD分解为共享基和专家特定频谱因子。共享基保留不量化,以保持跨专家的公共结构;专家特定因子则作为混合精度量化的细粒度单元。然后我们构建一个激活感知重构代理,以估计将每个位宽分配给每个频谱分量所导致的损失,并将由此产生的分配问题转化为一个整数线性规划,在固定比特预算下最小化估计重构损失。这一设计使BitsMoE成为一个频谱维度的混合精度框架,而非SVD秩约减方法或粗粒度MoE量化器。如图1所示,其共享频谱空间以未量化的基保留了跨专家的公共结构,并将专家特定频谱分量作为分配单元。因此,BitsMoE不同于先前的基于SVD的MoE压缩器 [25][47][16](它们主要利用分解来降低秩并丢弃频谱分量),也不同于先前的基于ILP的混合精度MoE方法 [12][22](它们在层、专家或线性块级别分配比特)。相反,BitsMoE将更多比特分配给具有更大激活感知重构成本的频谱分量。详细定位见附录A。
我们的贡献总结如下:
1. **容量保持的频谱量化**。我们提出一种MoE层的共享频谱参数化方法,保留跨专家结构,并将专家特定频谱分量作为细粒度量化单元。
2. **固定预算下重要性对齐的比特分配**。我们将MoE量化建模为频谱维度的比特分配,并设计激活感知重构代理。ILP根据频谱能量、激活重要性和比特相关量化畸变来分配比特。
3. **准确高效的MoE部署**。我们提出BitsMoE,一个端到端框架,集成了共享基分解、自适应比特分配和高效推理。在多个MoE大模型上的实验表明,BitsMoE在超低位宽量化下提高了下游准确率和推理效率。
---
## 2 相关工作
### 2.1 混合专家大语言模型
MoE架构已在近期大语言模型中得到广泛应用 [23][27][44][31]。通过将网络划分为多个专家,并为每个输入路由到稀疏子集,MoE减少了每token计算量,同时提升了可扩展性 [35][13]。例如,Mixtral [23] 将每个前馈块替换为多个专家,并采用top-k路由,每token仅激活两个专家,同时保留较大的总容量。尽管有这些优势,MoE大模型仍因专家复制而面临较大的参数量占用 [18]。此外,不平衡的路由导致专家级别冗余和高度倾斜的专家利用率,从而造成专家重要性的巨大差异,增加了有效压缩的难度 [29]。
### 2.2 MoE大语言模型剪枝与压缩
基于SVD的低秩分解已被广泛用作稠密大模型的结构化压缩工具 [20][7][49][41]。对于MoE大模型,近期方法进一步利用专家级别冗余进行剪枝和结构化分解。MoE-I2 [47] 将非均匀的专家间剪枝与重要性感知的专家内低秩分解相结合,在任务无关框架中压缩MoE大模型。MoE-SVD [25] 选择性地分解敏感性较低的专家层,并通过频率引导的V矩阵共享和U矩阵裁剪来减少跨专家冗余。D2-MoE [16] 将专家权重分解为Fisher加权的共享基和专家特定增量权重,共享基通过半动态剪枝压缩,增量权重通过截断感知SVD压缩。
### 2.3 MoE大语言模型的后训练量化
后训练量化已成为无需重新训练即可压缩大模型的广泛使用的范式。本文聚焦于标量权重量化,这是大模型压缩中研究广泛的一类代表性PTQ方法 [26][42][34][2]。其中,GPTQ [14] 使用基于Hessian的误差补偿进行顺序权重量化,而HQQ [3] 将低位宽量化公式化为无需校准的半二次优化问题。对于MoE大模型,MoEQuant [8] 通过构建专家平衡的校准样本并将token-专家亲和度纳入量化过程来改进PTQ。MiLo [21] 为极度量化的MoE模型添加自适应低秩补偿器和高效的INT3内核,以在提高推理效率的同时恢复准确率。MxMoE [12] 根据块敏感性、专家激活模式和硬件约束分配位宽,并生成优化的Group GEMM内核用于高效MoE推理。
---
## 3 方法
### 3.1 BitsMoE
我们提出 **BitsMoE**,一种面向MoE大模型的高效混合精度量化框架。其设计源于在严格内存预算下MoE专家权重的两个特性。首先,同一MoE层内的专家操作在共享的输入输出特征空间上,这表明跨专家的频谱冗余可以通过共享基来捕捉,而无需独立量化每个专家。其次,频谱分量在重构贡献和路由条件重要性上存在差异,这使得均匀或粗粒度的位宽分配在超低位宽下效率低下。因此,BitsMoE引入了两个关键设计。它首先为每个投影类型提取跨专家的共享频谱基,同时使用归一化的专家特定频谱分量表示每个专家。然后,它将频谱维度的混合精度比特分配公式化为一个ILP,在固定比特预算下最小化激活感知重构代理。图1提供了BitsMoE框架的概览,表6总结了本节使用的符号。第3.2节和第3.3节将详细阐述共享基分解和基于ILP的比特分配。
### 3.2 共享基频谱分解
在一个MoE层内,所有专家共享相同的输入和输出特征空间,但实现不同的参数化线性变换。因此,可以通过SVD为MoE层中每个投影类型获得一个共享基。我们将投影类型记为 \( \mathcal{H} \coloneqq \{\mathtt{gate\_proj}, \mathtt{up\_proj}, \mathtt{down\_proj}\} \),其中 \( \mathcal{H}_{\mathrm{in}} \coloneqq \{\mathtt{gate\_proj}, \mathtt{up\_proj}\} \),\( h_{\mathrm{dn}} \coloneqq \mathtt{down\_proj} \)。对于 \( h \in \mathcal{H}_{\mathrm{in}} \),我们沿输出通道维度拼接专家权重,并分解为:
\[
\boldsymbol{W}_{\mathrm{cat}}^{(h)} \coloneqq \begin{bmatrix} \boldsymbol{W}_{1}^{(h)} \\ \vdots \\ \boldsymbol{W}_{E}^{(h)} \end{bmatrix} = \boldsymbol{U}_{\mathrm{cat}}^{(h)} \boldsymbol{\Sigma}^{(h)} \boldsymbol{\Phi}_{h}^{\top} = \widetilde{\boldsymbol{P}}_{\mathrm{cat}}^{(h)} \boldsymbol{\Phi}_{h}^{\top}, \quad \widetilde{\boldsymbol{P}}_{\mathrm{cat}}^{(h)} \coloneqq \boldsymbol{U}_{\mathrm{cat}}^{(h)} \boldsymbol{\Sigma}^{(h)} = \begin{bmatrix} \widetilde{\boldsymbol{P}}_{1}^{(h)} \\ \vdots \\ \widetilde{\boldsymbol{P}}_{E}^{(h)} \end{bmatrix}. \tag{1}
\]
###### 定义 3.1(频谱分量与能量矩阵)
令 \( \boldsymbol{\phi}_{h,k} \) 为 \( \boldsymbol{\Phi}_{h} \) 的第 \( k \) 列,令 \( \widetilde{\boldsymbol{p}}_{e,h,k} \coloneqq \widetilde{\boldsymbol{P}}_{e}^{(h)}[:, k] \)。对应的共享基分量为 \( \widetilde{\boldsymbol{p}}_{e,h,k} \boldsymbol{\phi}_{h,k}^{\top} \)。其频谱能量和相关的对角
---
(注:由于原文此处数学公式截断,后续内容按原文保留)相似文章
GEMQ:面向MoE大语言模型的全局专家级混合精度量化方法
提出GEMQ,一种面向MoE大语言模型的全局专家级混合精度量化方法,利用线性规划和路由器微调来减少内存占用并加速推理,同时将精度损失降至最低。
Mix-Quant: 量化预填充,精准解码的智能体大语言模型
Mix-Quant 提出了一种面向智能体大语言模型的阶段感知量化框架,在预填充阶段使用 NVFP4 量化以加速计算,同时在解码阶段保持 BF16 精度以维持准确性。该方法在智能体基准测试中实现了预填充速度提升最高 3 倍,且性能下降极小。
dMoE: 具有可学习块专家的扩散大语言模型
dMoE 提出了用于扩散大语言模型的块级专家路由,将唯一激活的专家数量从 69.5 降至 14.6,同时保留了 99.11% 的性能,并实现了 76-80% 的内存减少和 1.14-1.66 倍的加速。
Mix-MoE:通过混合专家混合提升大语言模型的多语言机器翻译
Mix-MoE提出了一种混合专家混合框架,通过专门的专家组和傅里叶变换增强的路由机制来缓解多语言机器翻译中的参数干扰,相比基线方法取得了显著改进。
InfoQuant:为低比特大语言模型量化塑造激活分布
InfoQuant 提出了一种无需训练的方法——峰值抑制正交变换(PSOT),用于重塑低比特大语言模型量化中的激活分布,在 W4A4KV4 设置下保留了 97% 的浮点精度,并优于之前的 PTQ 方法。