BitsMoE: 基于谱能引导的MoE大语言模型高效量化比特分配

arXiv cs.LG 2026/06/02 04:00 论文

quantization moe llm low-bit mixed-precision spectral-analysis efficient-deployment

摘要

BitsMoE提出了一种基于谱能引导的比特分配框架，用于量化混合专家大语言模型，在超低位宽量化下实现了显著的精度提升和加速。

arXiv:2606.00079v1 Announce Type: new 摘要：混合专家（MoE）大语言模型通过稀疏专家激活减少了每个token的计算量，但其部署仍然需要大量内存，因为所有专家权重必须常驻内存。现有的MoE压缩方法在超低位宽场景下表现不佳：剪枝会不可逆地移除模型容量，而粗粒度量化则无法根据异构专家和权重方向的重要性来分配比特。我们提出BitsMoE，一种面向MoE大语言模型量化的谱能引导比特分配框架。BitsMoE通过SVD将每个MoE层分解为共享基和专家特定谱因子，保留共享基不进行量化以保持跨专家的公共结构，并将专家特定因子作为细粒度量化单元。为确定每个单元的比特宽度，BitsMoE将谱域混合精度量化建模为激活感知重构代理，并求解一个整数线性规划，在固定比特预算下最小化估计重构损失。在多个MoE大语言模型上的实验表明，BitsMoE在超低位宽场景下显著降低了下游任务的精度下降。在Qwen3-30B-A3B-Base上进行2比特量化时，与GPTQ相比，BitsMoE将量化速度提升12.3倍，平均准确率提高27.83个百分点，解码速度提升1.76倍。我们的模型和代码已开源在 https://github.com/zjiayu064/BitsMoE。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:39

# BitsMoE: 面向MoE大模型量化的高效频谱能量引导比特分配

来源: https://arxiv.org/html/2606.00079

Jiayu Zhao¹,², Zihan Teng¹,², Minhao Fan², Tianrui Ma², Wentao Ren³, Song Chen¹, Weichen Liu²

¹中国科学技术大学微电子学院  
²南洋理工大学计算与数据科学学院  
³南洋理工大学电气与电子工程学院  

本研究是在南洋理工大学访问期间完成。  
通讯作者: Weichen Liu。

###### 摘要

混合专家模型通过稀疏激活专家来降低单token计算量，但其部署仍受内存瓶颈限制——所有专家权重必须常驻内存。现有MoE压缩方法在超低位宽场景下表现不足：剪枝不可逆地移除模型容量，而粗粒度量化未能根据专家和权重方向的重要性差异来分配比特。本文提出 **BitsMoE**，一种基于频谱能量引导的MoE大模型量化框架。BitsMoE通过SVD将每个MoE层分解为共享基和专家特定的频谱因子：共享基保留不量化，以保持跨专家的公共结构；专家特定频谱因子则作为细粒度量化单元。为确定每个单元的位宽，BitsMoE将频谱维度的混合精度量化建模为激活感知重构代理，并求解一个整数线性规划（ILP），在固定比特预算下最小化估计重构损失。在多个MoE大模型上的实验表明，BitsMoE在超低位宽下显著降低了下游任务精度损失。在Qwen3-30B-A3B-Base的2比特量化下，BitsMoE相比GPTQ加速量化12.3倍，平均准确率提升27.83个百分点，解码速度提升1.76倍。我们的模型和代码已开源在 https://github.com/zjiayu064/BitsMoE。

---

## 1 引言

自然语言处理的最新进展主要由大语言模型驱动，其中混合专家模型已成为一种高效的稀疏扩展范式，并在多个基准上取得了强劲性能 [5][23][45][11][46]。然而，典型的系统无论运行时是否激活，都使所有专家常驻内存，这使得内存占用成为关键部署瓶颈。例如，Qwen3-30B-A3B-Base [45] 每token仅激活30亿参数，但仍需存储全部300亿参数。稀疏计算与稠密内存驻留之间的差距使MoE部署成本高昂，也催生了MoE大模型压缩的需求 [28]。

现有方法主要遵循两种范式：**剪枝**和**量化**，它们从不同角度减少内存占用和推理成本。尽管取得了进展，现有的MoE压缩方法在激进压缩下仍显不足。

- **剪枝方法**通过移除冗余专家或压缩专家权重来减小模型尺寸 [16][25][47]，但硬结构剪枝不可逆地丢弃模型容量，在严格内存预算下灵活性受限。
- 相比之下，**量化方法**以低精度表示专家权重，从而保留MoE架构和路由机制 [8][21][12][9][43][48]。但现有方法通常以层、专家或线性块等粗粒度分配位宽，这种粗粒度分配无法捕捉MoE模型内在的异质性，导致超低位宽量化下性能严重下降。

虽然量化比剪枝更好地保留了MoE容量，但均匀超低位宽量化忽视了专家权重的异质重要性。因此，在严格内存预算下，有限的比特应自适应分配而非均匀分配，尤其在接近2比特时，现有MoE量化方法急剧退化。这种退化反映了粗粒度比特分配与MoE结构之间的错配：专家共享输入-输出特征空间，存在冗余的跨专家方向，但不同细粒度权重方向的敏感性差异显著。因此，粗粒度分配可能过度压缩共享或敏感方向，而在较不重要方向上浪费比特。

这引发了一个基本问题：*MoE量化如何利用校准数据识别异质重要性，并在固定预算下以细粒度分配比特？*

---

![图1](图1说明)

**图1：BitsMoE 概览。**  
阶段1（第3.2节）：每个MoE层通过SVD分解为共享基和专家特定频谱因子。  
阶段2（第3.3节）：在固定比特预算下，通过ILP为频谱分量分配位宽。  
阶段3：推理时，输入投影到共享基上，并使用量化后的频谱因子计算被路由的专家。

---

我们通过将MoE量化为频谱分量上的固定预算比特分配来解决该问题。为了定义这种分配单元，**BitsMoE** 将每个MoE层通过SVD分解为共享基和专家特定频谱因子。共享基保留不量化，以保持跨专家的公共结构；专家特定因子则作为混合精度量化的细粒度单元。然后我们构建一个激活感知重构代理，以估计将每个位宽分配给每个频谱分量所导致的损失，并将由此产生的分配问题转化为一个整数线性规划，在固定比特预算下最小化估计重构损失。这一设计使BitsMoE成为一个频谱维度的混合精度框架，而非SVD秩约减方法或粗粒度MoE量化器。如图1所示，其共享频谱空间以未量化的基保留了跨专家的公共结构，并将专家特定频谱分量作为分配单元。因此，BitsMoE不同于先前的基于SVD的MoE压缩器 [25][47][16]（它们主要利用分解来降低秩并丢弃频谱分量），也不同于先前的基于ILP的混合精度MoE方法 [12][22]（它们在层、专家或线性块级别分配比特）。相反，BitsMoE将更多比特分配给具有更大激活感知重构成本的频谱分量。详细定位见附录A。

我们的贡献总结如下：

1. **容量保持的频谱量化**。我们提出一种MoE层的共享频谱参数化方法，保留跨专家结构，并将专家特定频谱分量作为细粒度量化单元。
2. **固定预算下重要性对齐的比特分配**。我们将MoE量化建模为频谱维度的比特分配，并设计激活感知重构代理。ILP根据频谱能量、激活重要性和比特相关量化畸变来分配比特。
3. **准确高效的MoE部署**。我们提出BitsMoE，一个端到端框架，集成了共享基分解、自适应比特分配和高效推理。在多个MoE大模型上的实验表明，BitsMoE在超低位宽量化下提高了下游准确率和推理效率。

---

## 2 相关工作

### 2.1 混合专家大语言模型

MoE架构已在近期大语言模型中得到广泛应用 [23][27][44][31]。通过将网络划分为多个专家，并为每个输入路由到稀疏子集，MoE减少了每token计算量，同时提升了可扩展性 [35][13]。例如，Mixtral [23] 将每个前馈块替换为多个专家，并采用top-k路由，每token仅激活两个专家，同时保留较大的总容量。尽管有这些优势，MoE大模型仍因专家复制而面临较大的参数量占用 [18]。此外，不平衡的路由导致专家级别冗余和高度倾斜的专家利用率，从而造成专家重要性的巨大差异，增加了有效压缩的难度 [29]。

### 2.2 MoE大语言模型剪枝与压缩

基于SVD的低秩分解已被广泛用作稠密大模型的结构化压缩工具 [20][7][49][41]。对于MoE大模型，近期方法进一步利用专家级别冗余进行剪枝和结构化分解。MoE-I2 [47] 将非均匀的专家间剪枝与重要性感知的专家内低秩分解相结合，在任务无关框架中压缩MoE大模型。MoE-SVD [25] 选择性地分解敏感性较低的专家层，并通过频率引导的V矩阵共享和U矩阵裁剪来减少跨专家冗余。D2-MoE [16] 将专家权重分解为Fisher加权的共享基和专家特定增量权重，共享基通过半动态剪枝压缩，增量权重通过截断感知SVD压缩。

### 2.3 MoE大语言模型的后训练量化

后训练量化已成为无需重新训练即可压缩大模型的广泛使用的范式。本文聚焦于标量权重量化，这是大模型压缩中研究广泛的一类代表性PTQ方法 [26][42][34][2]。其中，GPTQ [14] 使用基于Hessian的误差补偿进行顺序权重量化，而HQQ [3] 将低位宽量化公式化为无需校准的半二次优化问题。对于MoE大模型，MoEQuant [8] 通过构建专家平衡的校准样本并将token-专家亲和度纳入量化过程来改进PTQ。MiLo [21] 为极度量化的MoE模型添加自适应低秩补偿器和高效的INT3内核，以在提高推理效率的同时恢复准确率。MxMoE [12] 根据块敏感性、专家激活模式和硬件约束分配位宽，并生成优化的Group GEMM内核用于高效MoE推理。

---

## 3 方法

### 3.1 BitsMoE

我们提出 **BitsMoE**，一种面向MoE大模型的高效混合精度量化框架。其设计源于在严格内存预算下MoE专家权重的两个特性。首先，同一MoE层内的专家操作在共享的输入输出特征空间上，这表明跨专家的频谱冗余可以通过共享基来捕捉，而无需独立量化每个专家。其次，频谱分量在重构贡献和路由条件重要性上存在差异，这使得均匀或粗粒度的位宽分配在超低位宽下效率低下。因此，BitsMoE引入了两个关键设计。它首先为每个投影类型提取跨专家的共享频谱基，同时使用归一化的专家特定频谱分量表示每个专家。然后，它将频谱维度的混合精度比特分配公式化为一个ILP，在固定比特预算下最小化激活感知重构代理。图1提供了BitsMoE框架的概览，表6总结了本节使用的符号。第3.2节和第3.3节将详细阐述共享基分解和基于ILP的比特分配。

### 3.2 共享基频谱分解

在一个MoE层内，所有专家共享相同的输入和输出特征空间，但实现不同的参数化线性变换。因此，可以通过SVD为MoE层中每个投影类型获得一个共享基。我们将投影类型记为 \( \mathcal{H} \coloneqq \{\mathtt{gate\_proj}, \mathtt{up\_proj}, \mathtt{down\_proj}\} \)，其中 \( \mathcal{H}_{\mathrm{in}} \coloneqq \{\mathtt{gate\_proj}, \mathtt{up\_proj}\} \)，\( h_{\mathrm{dn}} \coloneqq \mathtt{down\_proj} \)。对于 \( h \in \mathcal{H}_{\mathrm{in}} \)，我们沿输出通道维度拼接专家权重，并分解为：

\[
\boldsymbol{W}_{\mathrm{cat}}^{(h)} \coloneqq \begin{bmatrix} \boldsymbol{W}_{1}^{(h)} \\ \vdots \\ \boldsymbol{W}_{E}^{(h)} \end{bmatrix} = \boldsymbol{U}_{\mathrm{cat}}^{(h)} \boldsymbol{\Sigma}^{(h)} \boldsymbol{\Phi}_{h}^{\top} = \widetilde{\boldsymbol{P}}_{\mathrm{cat}}^{(h)} \boldsymbol{\Phi}_{h}^{\top}, \quad \widetilde{\boldsymbol{P}}_{\mathrm{cat}}^{(h)} \coloneqq \boldsymbol{U}_{\mathrm{cat}}^{(h)} \boldsymbol{\Sigma}^{(h)} = \begin{bmatrix} \widetilde{\boldsymbol{P}}_{1}^{(h)} \\ \vdots \\ \widetilde{\boldsymbol{P}}_{E}^{(h)} \end{bmatrix}. \tag{1}
\]

###### 定义 3.1（频谱分量与能量矩阵）

令 \( \boldsymbol{\phi}_{h,k} \) 为 \( \boldsymbol{\Phi}_{h} \) 的第 \( k \) 列，令 \( \widetilde{\boldsymbol{p}}_{e,h,k} \coloneqq \widetilde{\boldsymbol{P}}_{e}^{(h)}[:, k] \)。对应的共享基分量为 \( \widetilde{\boldsymbol{p}}_{e,h,k} \boldsymbol{\phi}_{h,k}^{\top} \)。其频谱能量和相关的对角

---

（注：由于原文此处数学公式截断，后续内容按原文保留）

BitsMoE: 基于谱能引导的MoE大语言模型高效量化比特分配

相似文章

MODE: 面向MoE多模态大语言模型的模态分解专家级混合精度量化框架

GEMQ：面向MoE大语言模型的全局专家级混合精度量化方法

更少专家，更快解码：面向混合专家模型的成本感知推测解码

Mix-Quant: 量化预填充，精准解码的智能体大语言模型

基于归因引导和覆盖最大化的结构化MoE压缩剪枝

提交意见反馈