MODE: 面向MoE多模态大语言模型的模态分解专家级混合精度量化框架

arXiv cs.LG 论文

摘要

本文介绍MODE,一种用于MoE多模态大语言模型的模态分解专家级混合精度量化框架,通过按模态分解选择频率并过滤冗余视觉标记来解决专家重要性估计中的偏差,在激进量化下实现极小的性能损失。

arXiv:2606.17118v1 Announce Type: new 摘要:混合专家多模态大语言模型(MoE-MLLMs)性能优异,但GPU内存开销巨大,因此压缩至关重要。在后训练量化方法中,专家级混合精度量化对MoE-LLMs效果显著,但由于专家重要性估计中存在两个被忽视的偏差,其在MoE-MLLMs上的表现出现明显下降。(1)在跨模态层面,视觉标记的数量优势导致专家选择频率被视觉标记主导,掩盖了对文本模态至关重要的专家;(2)在视觉内部层面,大量冗余视觉标记进一步扭曲频率统计,掩盖了对信息性视觉内容至关重要的专家。为弥补这些差距,我们提出MODE,一种面向MoE-MLLMs的模态分解专家级混合精度量化框架,该框架按模态分解专家选择频率,过滤冗余视觉标记以获得去噪后的视觉频率,并进一步评估每个模态的量化敏感性作为频率估计的补充信号。这些信号被整合到整数线性规划公式中,在给定预算下为每个专家分配位宽。大量实验表明,MODE特别适合MoE-MLLMs,在W3A16设置下平均性能损失限制在2.9%以内,在极端2位设置下收益更大。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:36

# 模态分解的专家级混合精度量化方法用于MoE多模态大语言模型  
来源:https://arxiv.org/html/2606.17118  
陈远腾¹,²,³, 王佩松¹,²†, 刘志磊¹,², 曾楠欣², 邵远天¹, 郎士强³, 刘涛³, 李创艺¹,², 胡庆豪¹,², 李刚¹,², 刘静¹,²,³, 程健¹,²,³  

¹中国科学院自动化研究所  
²中国科学院大学人工智能学院  
³中关村实验室  
{peisong.wang,jcheng}@nlpr.ia.ac.cn  

###### 摘要  
混合专家多模态大语言模型(MoE-MLLMs)性能卓越,但GPU内存成本过高,因此压缩至关重要。在PTQ方法中,专家级混合精度量化已被证明对MoE-LLMs有效,但在MoE-MLLMs上却因专家重要性估计中两个被忽视的偏差而导致明显性能下降。(1)在跨模态层面,视觉token的数量优势导致专家选择频率被视觉token主导,掩盖了对文本模态至关重要的专家;(2)在视觉内部层面,大量冗余视觉token进一步扭曲频率统计,使得对信息性视觉内容关键的专家被掩盖。为弥补这些差距,我们提出MODE——一种针对MoE-MLLMs的模态分解专家级混合精度量化框架,该框架按模态分解专家选择频率,过滤冗余视觉token以获得去噪后的视觉频率,并进一步评估每个模态的量化敏感性作为频率估计的补充信号。这些信号被整合到整数线性规划(ILP)中,在给定预算下为每个专家分配位宽。大量实验表明,MODE特别适合MoE-MLLMs,在W3A16下平均性能损失控制在2.9%以内,在极端2-bit设置下收益更大。代码将开源在[![无标题图片](https://arxiv.org/html/2606.17118v1/GitHub_Invertocat_Black.png)Github](https://github.com/MingZwhy/MODE)。  
MODE:用于MoE多模态大语言模型的模态分解专家级混合精度量化  
陈远腾¹,²,³, 王佩松¹,²†††表示通讯作者,刘志磊¹,², 曾楠欣²,  
邵远天¹, 郎士强³, 刘涛³, 李创艺¹,²,  
胡庆豪¹,², 李刚¹,², 刘静¹,²,³, 程健¹,²,³  
¹中国科学院自动化研究所  
²中国科学院大学人工智能学院  
³中关村实验室  
{peisong.wang,jcheng}@nlpr.ia.ac.cn  

## 1 引言  

![图](https://arxiv.org/html/2606.17118v1/x1.png)  
图1:Qwen3-VL-30B-A3B-Instruct在3-bit权重量化(W3A16)下的性能对比。  

多模态大语言模型(MLLMs)在广泛的视觉-语言任务中取得了显著成功(Radford et al., 2021; Team et al., 2026)。通过将视觉感知与语言推理对齐,它们使智能系统能够在统一框架内感知、理解和交互视觉世界。随着MLLMs规模的不断扩大,混合专家(MoE)架构(Artetxe et al., 2022)已成为管理计算成本的流行解决方案——每个token仅激活稀疏的子集专家,从而在保持训练和推理FLOPs较低的同时实现高效的参数扩展(Fedus et al., 2022)。然而,由于所有专家参数在推理前必须常驻GPU(无论激活稀疏性如何),部署大规模MoE-MLLMs(Lin et al., 2024)(如Qwen3-VL-30B-A3B-Instruct(Team, 2025))仍然需要极高的内存,这严重限制了它们在资源受限环境中的实际应用。  

训练后量化(PTQ)提供了一种无需重新训练即可减少内存占用的实用方法,但现有PTQ方法要么针对密集MLLMs,要么针对MoE-LLMs,两者都不能很好地迁移到MoE-MLLMs。具体来说,为密集MLLMs设计的PTQ方法(Li et al., 2024b; Guo et al., 2025)认识到文本和视觉token之间的模态差距,但将模型视为一个整体,忽略了MoE架构固有的稀疏激活和不平等专家贡献。相反,针对MoE定制的PTQ方法(Zheng et al., 2026; Hu et al., 2025)利用了这些结构特性,但忽略了MLLMs固有的模态差异。  

在MoE的PTQ方法中,专家级混合精度量化(Huang et al., 2025)已成为主流范式——通过激活频率衡量专家重要性,为更关键的专家分配更高位宽,同时激进压缩不重要专家。然而,当应用于MoE-MLLMs时,这些方法将所有token(不论模态)的激活统计量聚合在一起,导致专家重要性估计不可靠,并造成显著性能下降。  

在我们的研究中,我们识别出当专家级混合精度量化应用于MoE-MLLMs时出现的两个不同层面的偏差。在跨模态层面,典型多模态输入中视觉token数量远超文本token,因此全局频率统计被视觉侧路由模式主导,系统性地低估了对文本推理至关重要的专家。在视觉内部层面,视觉token之间普遍存在的冗余进一步扭曲了基于频率的重要性——许多token携带近乎重复的信息,但每个token仍然投下路由投票,从而夸大了某些专家的表面重要性,同时掩盖了其他专家的贡献。  

基于这些观察,我们提出MODE——一种针对MoE-MLLMs的模态感知量化框架,它同时利用MoE的异构专家结构进行差异化精度分配,并考虑多模态输入固有的模态异质性和视觉内部冗余。为解决跨模态偏差,MODE分别收集并归一化文本和视觉token的专家选择频率,使文本关键专家不再被忽视。为解决视觉内部失真,MODE在每一层识别关键视觉token,并仅从这些token计算视觉侧频率,过滤掉冗余视觉内容带来的噪声。除了频率之外,MODE还分别评估每个专家在文本和关键视觉token下的量化敏感性,得到模态分解的重要性指标。最终得分被整合到整数线性规划(ILP)中,在给定比特预算下生成每个专家最优的精度分配。  

我们在三个MoE-MLLM家族上,跨越十个多模态基准,在各种低位权重量化设置下评估了MODE。如图1所示,MODE始终优于所有针对密集MLLMs、MoE-LLMs和MoE-MLLMs设计的PTQ方法。特别地,在W3A16设置下,MODE在Qwen3-VL-30B-A3B-Instruct和Kimi-VL-A3B-Instruct上分别仅带来2.84%和2.08%的平均精度下降,使得30B规模MoE-MLLMs在单张消费级GPU上的实际部署成为可能。  

![图](https://arxiv.org/html/2606.17118v1/x2.png)  
图2:Qwen3-VL-30B-A3B-Instruct中的跨模态专家频率偏差。(a)第12层和第33层每个专家的选择频率,分解为视觉token(蓝色)和文本token(红色)贡献。(b)量化敏感性(2-bit RTN量化前后第一个输出token logits之间的KL散度,对数尺度)与所有第12层专家的总体选择频率之间的关系,颜色由文本偏好得分表示。  

## 2 相关工作  

**MLLMs量化。** 为MLLMs设计的PTQ方法主要关注视觉和文本模态之间的分布异质性。MBQ(Li et al., 2024b)认识到视觉和语言token具有不同的量化敏感性,并在校准中引入基于梯度的敏感性度量,以平衡模态间的重建质量。SPEED-Q(Guo et al., 2025)采用分阶段量化策略:首先量化视觉编码器并重新校准投影层以进行模态对齐,然后对语言模块进行量化感知训练。  

**MoE量化。** MoE架构的稀疏激活特性给PTQ带来了新的挑战和机遇。MoEQuant(Hu et al., 2025)通过专家平衡的校准策略解决了专家间和专家内的激活不平衡问题。更普遍的工作路线利用混合精度量化来利用异构专家贡献。MC-MoE(Huang et al., 2025)将专家激活频率作为重要性指标,为更关键的专家分配更高位宽,显著优于均匀精度基线。MoQa(Zheng et al., 2026)在此基础上引入通道级动态调整机制。最近,VEQ(Qin et al., 2026)率先向MoE-MLLMs迈进,引入了基于token-专家亲和力的模态亲和感知Hessian目标,以提高精度。  

## 3 动机  

专家选择频率定义为在校准集上路由到给定专家的token比例,是混合精度量化中自然且广泛采用的重要性代理——因为更频繁激活的专家在MoE中被认为更重要。然而,当迁移到MoE-MLLMs时,我们识别出两个不同层面的偏差,导致总体选择频率显著偏离真实的专家重要性。下面我们以Qwen3-VL-30B-A3B-Instruct为代表模型,以ShareGPT4V(Chen et al., 2023)中随机采样的512个图文对作为校准集,逐一阐述。  

### 3.1 跨模态专家频率偏差  

在典型的多模态输入中,单张图像被编码为数百甚至数千个视觉token,而伴随的文本提示相对较短,因此视觉token数量远超文本token。这种不平衡是多模态推理的内在属性,导致总体专家选择频率被视觉侧路由模式主导,使得被文本token大量选择但视觉流量很少的专家在全局频率排名中被系统性地低估。  

为说明这一点,图2(a)将两个代表性MoE层中每个专家的选择频率分解为视觉token(蓝色)和文本token(红色)贡献。专家之间的明显差异证实了专家在重要性上确实存在显著差异,支持了基于频率估计的一般前提;然而,在此尺度下文本token的贡献几乎不可见,而第12层中像E56和E85这样被文本token选择最多的专家,其总频率却远低于层平均值,从而变得不显眼。  

除了频率统计,我们还从实际量化损失的角度揭示了这一偏差。图2(b)绘制了每个第12层专家的量化敏感性(以2-bit RTN量化前后第一个输出token logits之间的KL散度衡量,对数尺度,对所有校准样本取平均)与其对数总体频率的关系,颜色越红表示该专家被文本token选择更多而被视觉token选择更少。在全局层面,敏感性与频率之间存在大致的正趋势,支持频率作为合理重要性代理的一般观点。然而在个体专家层面,几个强文本偏好的专家成为明显的异常点:E56和E99尽管总体频率仅为低到中等,却表现出异常高的量化敏感性,这表明它们应当作为文本关键专家受到保护,而不是因其中等程度的总体激活而被忽视。  

这些观察启示了一个简单的设计原则:文本token和视觉token的频率应在合并为统一重要性得分之前独立归一化,以确保对每个模态关键的专家都能获得适当保护。  

![图](https://arxiv.org/html/2606.17118v1/x3.png)  
图3:视觉内部专家频率偏差。(a)f̄_key在五个校准数据集上高度一致。(b)在单个数据集内,f̄_key和f̄_red在(层,专家)位置上表现出显著偏差,揭示了系统的关键-冗余路由偏好。  

### 3.2 视觉内部专家频率偏差  

近期关于MLLM token压缩的工作(Yang et al., 2026)一致表明,只有一小部分视觉token携带核心视觉语义,而绝大多数是冗余的,可以剪枝而几乎没有性能损失。然而,在MoE-MLLM的背景下,更相关的问题是这些关键视觉token是否对应一组独特且稳定的专家——即那些对视觉模态真正重要的专家。我们的分析给出了肯定答案,并进一步揭示了视觉模态内部的第二层频率偏差:关键和冗余视觉token系统性地激活不同的专家,而关键token的偏好在不同数据上保持稳定,具体如下。  

为区分关键视觉token与冗余token,我们遵循SparseVLM(Zhang et al., 2025b)广泛采用的基于注意力的标准:在每一层,我们根据所有文本token从视觉token接收的总注意力对视觉token进行排序,该指标可靠地指示它们与当前查询的相关性,并将前20%视为关键token,其余视为冗余。我们在每一层应用此选择,使得关键token集合适应模型在不同深度对视觉内容的注意力方式。详细描述见附录C。  

在每一层识别出关键和冗余视觉token后,我们在校准数据集上收集其逐层归一化的专家选择频率f̄_key和f̄_red,并从以下两个互补角度进行分析。首先,我们通过五个数据集(详情见附录D)上的成对余弦相似度检查f̄_key的跨数据集行为。如图3(a)所示,得分一致较高(均高于0.74),表明无论数据组成如何,关键视觉token都收敛到一组稳定的偏好专家。这种稳定性

相似文章

LongMoE:基于轨迹感知的混合专家模型的纵向多模态学习

arXiv cs.LG

LongMoE提出了一个统一框架,同时解决多模态临床学习中的模态缺失和纵向动态问题,利用上下文感知插补、注意力令牌化、轨迹感知编码和稀疏混合专家路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明,在缺失模态情况下鲁棒性得到提升,同时在完整模态设置下仍具有竞争力。