MACS: 面向高效多模态MoE推理的模态感知容量缩放

arXiv cs.LG 2026/05/08 04:00 论文

摘要

MACS是一个无需训练的推理框架，通过引入熵加权负载和动态模态自适应容量机制，减轻多模态MoE MLLMs在专家并行中的落后效应。

arXiv:2605.05225v1 Announce Type: new 摘要：混合专家多模态大语言模型（MoE MLLMs）在专家并行（EP）推理过程中，由于落后效应而面临显著的效率瓶颈。在多模态环境下，这一问题更加恶化，因为现有的基于token计数的负载均衡方法无法解决两个独特挑战：（1）信息异质性，即大量冗余的视觉token与语义关键的token被同等对待；（2）模态动态性，即不同任务中视觉与文本的比例变化导致资源分配不当。为了解决这些挑战，我们提出了MACS（模态感知容量缩放），一个无需训练的推理框架。具体来说，MACS引入了熵加权负载机制来量化视觉token的语义价值，从而解决信息异质性。此外，动态模态自适应容量机制根据输入实时的模态组成来分配专家资源。大量实验表明，MACS在各种多模态基准测试中显著优于现有方法，为MoE MLLMs在EP推理中的高效部署提供了一种新颖且鲁棒的解决方案。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 06:41

# MACS：面向高效多模态MoE推理的模态感知容量缩放

来源：https://arxiv.org/html/2605.05225

Bo Li¹, 吴川²,³, 朱少林²

¹清华大学软件学院，北京，中国
²天津大学计算机科学与技术学院，TJUNLP实验室，天津，中国
³天津大学新媒体与传播学院，天津，中国

###### 摘要

混合专家多模态大语言模型（MoE MLLMs）在采用专家并行（EP）推理时，因拖累效应而面临显著的效率瓶颈。在多模态语境下，这一问题更为严重，因为现有的基于token计数的负载均衡方法无法应对两个独特挑战：(1) 信息异质性：大量冗余的视觉token与语义关键的token被同等对待，以及(2) 模态动态性：不同任务中视觉与文本比例的变化导致资源分配不当。为解决这些挑战，我们提出了 MACS（模态感知容量缩放），一个无需训练的推理框架。具体来说，MACS 引入了一种熵加权负载机制来量化视觉token的语义价值，从而解决信息异质性问题。此外，动态模态自适应容量机制根据输入batch的实时模态组成来分配专家资源。大量实验表明，MACS 在多模态基准测试中显著优于现有方法，为 MoE MLLMs 在 EP 推理中的高效部署提供了一种新颖且鲁棒的解决方案。

**MACS：面向高效多模态MoE推理的模态感知容量缩放**

## 1 引言

多模态大语言模型（MLLMs）在跨模态感知与推理方面展现了卓越的能力 [OpenAI (2025)](https://arxiv.org/html/2605.05225#bib.bib2); [Liu et al. (2024a)](https://arxiv.org/html/2605.05225#bib.bib3); [Bai et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib26)。为了高效扩展 MLLMs，混合专家（MoE）架构已成为主流选择 [Fedus et al. (2022)](https://arxiv.org/html/2605.05225#bib.bib9); [Qu et al. (2024)](https://arxiv.org/html/2605.05225#bib.bib4); [Wang et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib27); [Team et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib24); [Bai et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib26)。通过为每个token稀疏激活专家子集，MoE 在理论上解耦了模型参数大小与推理计算量，在效率与性能之间取得了平衡 [Fedus et al. (2022)](https://arxiv.org/html/2605.05225#bib.bib9); [Zhu et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib47)。在实践中，MoE MLLMs 通常采用专家并行（EP）进行部署 [Cai et al. (2024)](https://arxiv.org/html/2605.05225#bib.bib10)，其中不同专家分布在多个计算设备上以提高吞吐量。然而，这种范式引入了一个不可避免的同步瓶颈：所有设备在处理完各自的token后，必须等待负载最重的设备完成其计算，才能进入下一层。CAI-MoE [He et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib11) 正式将这种现象定义为拖累效应，即整体推理延迟由负载最重的拖累专家决定。尽管该工作提出了有效的缓解策略（如token丢弃），但其方法主要针对单模态文本模型，核心假设是每个token代表大致相等的计算负载。

最近的研究表明，在采用EP推理的MoE MLLMs中，拖累效应显著加剧 [Li et al. (2025c)](https://arxiv.org/html/2605.05225#bib.bib19); [Wu et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib20)。具体而言，多模态输入突显了两个更深的负载不均衡来源：
(i) **信息异质性**。与语义密度相对均匀的文本token不同 [Li et al. (2023)](https://arxiv.org/html/2605.05225#bib.bib48)，单个视觉输入通常被编码为数百个补丁token，其中许多对应于低信息背景区域 [Liang et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib21); [Wu et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib20)。然而，CAI-MoE 中使用的基于token计数的容量管理将冗余背景token与语义关键的对象或文本token同等对待，不可避免地导致对真实计算负载的严重误判和资源分配不当。
(ii) **模态动态性**。视觉与文本token的比例在不同任务之间差异巨大，从图像密集的文档理解或OCR任务到文本主导的推理任务。面对这种高度动态的模态组成，传统的基于token计数的负载建模无法准确捕捉专家面临的实际计算压力，进一步加剧了负载不均衡和同步延迟 [Xue et al. (2024)](https://arxiv.org/html/2605.05225#bib.bib22); [Zhang et al. (2025a)](https://arxiv.org/html/2605.05225#bib.bib23)。

为解决这些挑战，我们提出了 **MACS**（模态感知容量缩放），一个针对 MoE MLLMs 的免训练推理框架。我们基于模态感知的视角重新审视EP推理下的专家容量分配。具体来说，我们采用**熵加权负载**机制来量化并区分视觉token的语义价值，从而缓解信息异质性导致的负载不均衡。此外，**动态模态自适应容量**机制根据每个输入batch的实时模态组成调整专家容量，有效减轻多模态设置下加剧的拖累效应，显著提升推理效率。最后，为处理不可避免的容量溢出，我们设计了一个两阶段溢出处理机制以最小化信息损失。

我们的主要贡献总结如下：
- (I) 我们系统分析了在MoE MLLMs采用EP推理时，视觉token冗余和模态动态性如何急剧加剧拖累效应的核心机制。
- (II) 我们提出了MACS，通过其熵加权负载和动态模态自适应容量机制，在推理阶段实现了更细粒度且更鲁棒的专家负载调度。
- (III) 通过大量实验，我们证明了MACS在各种多模态基准测试中优于现有方法，为MoE MLLMs在EP推理中的高效部署提供了一种新颖且有效的解决方案。

参见图注

**图1：MACS框架概览。** 它包括三个组成部分：熵加权负载（基于token信息建模专家负载）、动态模态自适应容量（根据batch级模态组成调整专家容量），以及局部语义重路由（在本地重路由溢出token，当重路由不可行时启用安全丢弃）。

## 2 相关工作

本工作旨在解决EP推理下MoE MLLMs的效率瓶颈。

#### EP下的MoE模型。
MoE模型通常采用EP分布式策略进行部署以提高吞吐量 [Cai et al. (2024)](https://arxiv.org/html/2605.05225#bib.bib10)。然而，这种方法引入了同步瓶颈，导致拖累效应 [He et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib11)，即系统整体延迟由最慢的专家决定。为缓解此问题，现有研究主要分为两类：
(I) **容量管理与Token丢弃**。容量感知推理（CAI-MoE）[He et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib11) 通过为专家设置容量上限并丢弃多余token来解决拖累效应。虽然有效，但其核心机制依赖于token计数，假设所有token具有相等的计算价值，这一前提在多模态语境中具有显著局限性。
(II) **专家剪枝与动态跳过**。Stun [Lee et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib17) 和 MoE-Prune [Xie et al. (2024)](https://arxiv.org/html/2605.05225#bib.bib18) 通过减少激活专家数量来降低计算负载，包括通过结构化剪枝永久移除冗余专家。NAE [Lu et al. (2024)](https://arxiv.org/html/2605.05225#bib.bib14) 和 MC-MoE [Huang et al. (2024)](https://arxiv.org/html/2605.05225#bib.bib15) 在推理过程中动态跳过非必要专家，主要基于路由概率等信号做决策。然而，这些方法大多针对单模态文本模型设计，直接应用于多模态架构时通常会导致性能下降，因为它们无法处理不同模态的独特行为。

#### MoE MLLMs中的不均衡。
最近关于MLLM可解释性的研究揭示，拖累效应在多模态语境中急剧加剧，源于两个更深层次的挑战：
(I) **信息异质性**。[Wu et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib20); [Zhang et al. (2026)](https://arxiv.org/html/2605.05225#bib.bib49) 发现了显著的内部功能特化。[Li et al. (2025c)](https://arxiv.org/html/2605.05225#bib.bib19); [Liang et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib21) 表明多模态输入本身表现出高度的信息异质性，许多视觉token仅对应低信息背景区域。对于仅基于token计数的负载均衡系统而言，这种内在信息差异是不可感知的。
(II) **模态动态性**。视觉与文本token的比例在不同任务之间差异巨大，从图像密集的文档理解或OCR任务 [Li et al. (2025a)](https://arxiv.org/html/2605.05225#bib.bib44); [Zhu et al. (2023)](https://arxiv.org/html/2605.05225#bib.bib46) 到文本主导的推理任务 [Li et al. (2025b)](https://arxiv.org/html/2605.05225#bib.bib45); [Zuo et al. (2025)](https://arxiv.org/html/2605.05225#bib.bib51)。面对这种高度动态的模态组成，传统的基于token计数的负载建模无法准确捕捉专家面临的实际计算压力，进一步加剧了负载不均衡和同步延迟 [Xue et al. (2024)](https://arxiv.org/html/2605.05225#bib.bib22); [Zhang et al. (2025a)](https://arxiv.org/html/2605.05225#bib.bib23), [b](https://arxiv.org/html/2605.05225#bib.bib50)。基于这些观察，我们提出了MACS，通过其熵加权负载和动态模态自适应容量机制，有效缓解了专家并行下的拖累效应。

## 3 方法

我们提出MACS，一个针对MoE MLLMs的免训练推理框架。如图1所示，它包括三个组成部分：
(I) 熵加权负载（第3.2节），基于token信息建模专家负载；
(II) 动态模态自适应容量（第3.3节），根据batch级模态组成调整专家容量；
(III) 局部语义重路由（第3.4节），在本地重路由溢出token，当重路由不可行时应用安全丢弃。

### 3.1 问题形式化

标准MoE层由 \( N \) 个专家 \( \mathcal{E} = \{E_1, \dots, E_N\} \) 和一个路由器网络 \( G(\cdot) \) 组成，路由器为每个输入 token \( x \) 生成门控分数。路由器选择 top-\( k \) 专家并计算输出：
\[
y(x) = \sum_{j \in \mathrm{Top}\text{-}k(G(x))} G(x)_j \cdot E_j(x). \tag{1}
\]
令 \( \mathcal{T} \) 表示一个 batch 中的 token 集合，\( \mathcal{I}_j \subset \mathcal{T} \) 表示分配给专家 \( E_j \) 的 token 集合。在专家并行下，MoE 层的推理延迟 \( \mathcal{L}_{\mathrm{MoE}} \) 受限于最慢的专家（由于同步）：
\[
\mathcal{L}_{\mathrm{MoE}} \propto \max_{j \in \{1,\dots,N\}} |\mathcal{I}_j|. \tag{2}
\]
当 \( \max_j |\mathcal{I}_j| \gg \mathrm{mean}_j |\mathcal{I}_j| \) 时，出现**拖累效应**，造成严重瓶颈。现有方法通常通过施加静态容量限制来缓解此问题：
\[
C = \gamma \cdot \frac{|\mathcal{T}| \cdot k}{N}, \tag{3}
\]
其中 \( \gamma \) 是固定容量因子。然而，在多模态设置中，由于 token 之间（特别是视觉侧）存在显著的信息异质性，原始 token 计数无法很好地反映计算需求。

### 3.2 熵加权专家负载

为减少消耗专家容量的冗余视觉 token，我们使用基于信息的度量替代基于计数的负载度量，以熵作为语义重要性的代理。

#### 熵计算与归一化。
对于具有特征表示 \( z \in \mathbb{R}^D \) 的视觉 token \( x_v \)，我们根据 \( \mathrm{Softmax}(z) \) 得到的概率分布计算其香农熵 \( H(x_v) \)。为确保跨不同图像和模型的鲁棒性，我们应用图像级别的 z-score 归一化处理视觉 token：
\[
\tilde{H}(x_v) = \frac{H(x_v) - \mu_{\mathcal{B}}}{\sigma_{\mathcal{B}} + \epsilon}, \tag{4}
\]
其中 \( \mu_{\mathcal{B}} \) 和 \( \sigma_{\mathcal{B}} \) 表示当前 batch \( \mathcal{B} \) 内熵值的均值和标准差，\( \epsilon \) 是为数值稳定性添加的一个小常数。

#### 语义权重与有效负载。
我们定义语义权重函数：
\[
w(x) = \begin{cases}
\sigma\!\left(-\delta \cdot \tilde{H}(x)\right), & x \in \mathcal{T}_{vis},\\
1.0, & x \in \mathcal{T}_{txt},
\end{cases} \tag{5}
\]
其中 \( \sigma(\cdot) \) 是 Sigmoid 函数，\( \delta \) 控制熵到权重映射的灵敏度。文本 token 因其高语义密度被赋予全权重。专家 \( E_j \) 的有效负载定义为：
\[
\tilde{L}_j = \sum_{x \in \mathcal{I}_j} w(x), \tag{6}
\]
这使得专家能够处理大量低信息视觉 token，而不会过早达到容量上限。

### 3.3 模态感知容量缩放

静态容量因子对输入 batch 的模态组成不敏感。为防止在视觉密集场景中专家过载以及在文本密集场景中资源利用不足，我们根据 batch 的有效模态比率动态缩放专家容量。

#### 有效模态比率。
利用语义权重，我们计算有效视觉比率：
\[
R_v = \frac{\sum_{x \in \mathcal{T}_{vis}} w(x)}{\sum_{x \in \mathcal{T}} w(x)}, \tag{7}
\]
相较于原始 token 比例，该比率能更好地反映视觉模态的真实计算需求。

#### 自适应容量缩放。
基于先前关于专家特化分析的工作，我们根据专家在预留校准集上的激活频率将其分为三组：视觉专家 \( \mathcal{E}_{vis} \)、文本专家 \( \mathcal{E}_{txt} \) 和共享专家 \( \mathcal{E}_{shared} \)。我们定义模态偏差指标：
\[
m_j = \begin{cases}
+1, & E_j \in \mathcal{E}_{vis},\\
-1, & E_j \in \mathcal{E}_{txt},\\
0, & E_j \in \mathcal{E}_{shared}.
\end{cases}
\]

MACS: 面向高效多模态MoE推理的模态感知容量缩放

相似文章

MMCORE：多模态连接与表征对齐的潜在嵌入

多视角证据合成与推理的无监督多模态实体链接

超越文本主导：理解全模态大语言模型的模态偏好

多模态LLM中的乘法：基于文本、图像和音频输入的计算

GoCoMA：基于双曲 Poincaré 球嵌入的大语言模型生成代码溯源多模态表征融合

提交意见反馈