ConMoE: 基于原型重分配的专家池整合实现MoE压缩

arXiv cs.AI 论文

摘要

ConMoE提出了一种无需训练的混合专家模型压缩框架,通过选择一部分专家作为可重用原型,并确定性地将原始专家调用重新映射到这些原型,从而在不更新权重或微调的情况下减少内存占用。

arXiv:2605.29350v1 公告类型:新论文 摘要:混合专家(MoE)语言模型降低了每token的计算量,但仍需存储和提供所有专家,导致部署时内存密集。现有的训练后压缩方法主要通过剪枝专家或合并其权重来缩减这一成本。我们将训练后MoE压缩形式化为专家池整合:保留一小部分预训练专家作为可重用原型,并确定性地将每个原始专家引用重新映射到所选原型。这一视角将缩减后的专家池与表示原始专家槽位的重用结构分离,并允许在局部层范围内共享原型,同时保留原始路由接口。我们提出ConMoE,一个无需训练的原型重映射框架,利用基于校准的贡献和可替换性信号选择保留的专家,然后将原始专家调用重定向到所选原型,无需权重更新或压缩后微调。在三个预训练MoE语言模型上的实验表明,ConMoE在多种设置下匹配或优于强剪枝和合并基线,在将路由专家减少25%和50%时均在deepseek-moe-16b-base上取得最佳平均分,同时在Qwen3-30B-A3B和OLMoE-1B-7B-0125上保持竞争力。消融实验表明,确定性重分配是最稳定的组件,而更广泛的跨层共享和事后权重融合则依赖于模型。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:17

# ConMoE: 基于原型重分配的专家池精简方法用于MoE模型压缩
来源: https://arxiv.org/html/2605.29350

###### 摘要

混合专家(MoE)语言模型虽然降低了每个词元的计算量,但仍需存储并服务于所有专家,导致部署时内存占用巨大。现有的后训练压缩方法主要通过剪枝专家或合并其权重来缩减这一成本。我们将后训练MoE压缩形式化为**专家池精简**:保留一组较小的预训练专家作为可复用原型,并将每个原始专家引用确定性地重新映射到一个选定的原型。这一视角将精简后的专家池与代表原始专家槽位的复用结构分离开来,允许在局部层范围内进行原型共享,同时保留原始的路由器接口。我们提出了ConMoE,一种无需训练的原型重映射框架,它利用基于校准数据的贡献度和可替代性信号来选择保留的专家,然后将原始专家调用重定向到选定的原型,无需权重更新或压缩后微调。在三个预训练MoE语言模型上的实验表明,ConMoE在多个设置下匹配或优于强剪枝和强合并基线,在deepseek-moe-16b-base模型上,当路由专家减少25%和50%时均取得了最佳平均分,同时在Qwen3-30B-A3B和OLMoE-1B-7B-0125上保持了竞争力。消融实验表明,确定性重分配是最稳定的组件,而更广泛的跨层共享和事后权重融合则依赖于具体模型。

ConMoE: Expert-Pool Consolidation via Prototype Reassignment for MoE Compression

Yilun Yao¹, Jiaming Pan¹, Elsie Dai¹, Peizhuang Cong¹, Yaoming Li¹, Tong Yang¹,* (¹北京大学)

## 1 引言

混合专家(MoE)架构通过仅对每个词元激活一小部分专家来扩展语言模型,从而在相对较低的每词元计算量下实现较大的参数量(Shazeer等人,2017 [arXiv](https://arxiv.org/html/2605.29350#bib.bib1);Lepikhin等人,2020 [arXiv](https://arxiv.org/html/2605.29350#bib.bib2);Lewis等人,2021 [arXiv](https://arxiv.org/html/2605.29350#bib.bib40);Fedus等人,2022 [arXiv](https://arxiv.org/html/2605.29350#bib.bib3))。这一设计已被近期多个MoE语言模型采用,如Mixtral、DeepSeekMoE、Qwen-MoE和OLMoE(Jiang等人,2024 [arXiv](https://arxiv.org/html/2605.29350#bib.bib4);Dai等人,2024 [arXiv](https://arxiv.org/html/2605.29350#bib.bib5);Yang等人,2025 [arXiv](https://arxiv.org/html/2605.29350#bib.bib13);Muennighoff等人,2025 [arXiv](https://arxiv.org/html/2605.29350#bib.bib6))。然而,稀疏性主要降低了计算量而非存储量:尽管每个词元只使用少数几个专家,但完整的路由专家池仍需存储并提供服务。随着MoE模型规模的增长,专家存储成为高效部署的主要障碍(Rajbhandari等人,2022 [arXiv](https://arxiv.org/html/2605.29350#bib.bib41);Gale等人,2022 [arXiv](https://arxiv.org/html/2605.29350#bib.bib42))。

现有的后训练MoE压缩方法通常通过剪枝专家(Lu等人,2024 [arXiv](https://arxiv.org/html/2605.29350#bib.bib11);Chen等人,2022 [arXiv](https://arxiv.org/html/2605.29350#bib.bib8);Lasby等人,2026 [arXiv](https://arxiv.org/html/2605.29350#bib.bib7))或将多个专家合并成更少的模块(Li等人,2024 [arXiv](https://arxiv.org/html/2605.29350#bib.bib17);Chen等人,2025 [arXiv](https://arxiv.org/html/2605.29350#bib.bib19);Miao等人,2025 [arXiv](https://arxiv.org/html/2605.29350#bib.bib22);LI等人,2026 [arXiv](https://arxiv.org/html/2605.29350#bib.bib18))来减少这一成本。这些方法缩小了专家池,但它们常常混淆了两个不同的问题:应该保留哪些专家参数,以及压缩后路由器原有的专家引用应如何表示?在本工作中,我们研究了一个互补的视角:压缩后的MoE保留一组较小的预训练专家作为可复用原型,同时将每个原始专家引用显式映射到保留的专家池。

我们将这一视角形式化为**专家池精简**。在固定的缩减预算下,压缩后的MoE由一个缩减后的原型池和一个从原始专家到选定原型的确定性重分配映射组成。这分离了通常在剪枝和合并中耦合的两个决策:存储哪些专家参数,以及如何表示原始面向路由器的专家槽位。因此,通过重分配映射重定向每个专家调用,可以保留原始的路由器接口,同时多个原始专家槽位可能共享同一个存储的原型。该公式也允许局部的跨层复用:当附近层包含可复用的冗余时,它们可以共享原型,但我们将共享限制在有界的局部范围内,以避免模型范围内专家复用带来的不匹配。

基于此公式,我们提出了ConMoE,一种用于后训练MoE压缩的免训练原型重映射框架。ConMoE选择预算数量的预训练专家作为原型,并将每个原始专家确定性地重分配给一个选定的原型。选定的原型直接复用,无需权重更新或压缩后微调,原始路由器保持不变。事后权重融合仅作为诊断性敏感性分析进行研究,不作为ConMoE默认流程的一部分(Wortsman等人,2022 [arXiv](https://arxiv.org/html/2605.29350#bib.bib39);Yadav等人,2023 [arXiv](https://arxiv.org/html/2605.29350#bib.bib43))。我们报告**逻辑**路由专家缩减量:一个选定的原型即使代表多个原始专家槽位,也只计数一次,而实现相应的物理内存节省需要共享原型检查点或运行时支持。

总之,本工作有三项贡献。首先,我们将一次性MoE压缩形式化为具有显式原型重分配的专家池精简问题。其次,我们提出了ConMoE,一种免训练的重映射方法,在减少逻辑路由专家池的同时保留原始路由器接口。第三,我们通过实验在多个预训练MoE语言模型上证明,在匹配的逻辑路由专家预算下,基于重映射的精简是剪枝和合并的可行替代方案。此外,我们的消融研究表明,确定性重分配是最稳定的组件,而更广泛的跨层共享和事后权重融合则依赖于具体模型。

## 2 相关工作

#### 后训练MoE压缩。

稀疏MoE语言模型通过仅激活少数专家来降低每词元计算量,但其完整的路由专家池仍会带来显著的内存和部署开销。现有的后训练MoE压缩方法主要通过专家剪枝或专家合并来缩小专家池。专家剪枝根据使用频率、路由质量、激活统计或搜索到的重要性分数来移除专家(Lu等人,2024 [arXiv](https://arxiv.org/html/2605.29350#bib.bib11);Yang等人,2024 [arXiv](https://arxiv.org/html/2605.29350#bib.bib12);Chen等人,2022 [arXiv](https://arxiv.org/html/2605.29350#bib.bib8);Lasby等人,2026 [arXiv](https://arxiv.org/html/2605.29350#bib.bib7);Liu等人,2026 [arXiv](https://arxiv.org/html/2605.29350#bib.bib14))。专家合并则利用路由统计、输出相似性、聚类、对齐或子空间融合等方法将多个专家组合成更少的模块,如M-SMoE/MC-SMoE、HC-SMoE、MergeMoE和Sub-MoE(Li等人,2024 [arXiv](https://arxiv.org/html/2605.29350#bib.bib17);Chen等人,2025 [arXiv](https://arxiv.org/html/2605.29350#bib.bib19);Miao等人,2025 [arXiv](https://arxiv.org/html/2605.29350#bib.bib22);LI等人,2026 [arXiv](https://arxiv.org/html/2605.29350#bib.bib18))。这些方法在目标上与我们最接近,因为它们也旨在减少预训练后的路由专家存储。然而,剪枝移除专家,合并构建新的或融合的专家模块,而ConMoE则保留选定的预训练专家作为可复用原型,并显式地将原始专家引用重映射到它们。这使得复用结构成为压缩模型的一部分,而非删除或融合的副产品。

#### 非均匀预算与局部跨层复用。

近期的剪枝和压缩方法表明,不同层间的专家冗余是异质的,因此统一的逐层预算并非最优。DiEP学习层级的剪枝率,而EvoESAP将层内专家排序与跨层预算分配解耦(Bai等人,2025 [arXiv](https://arxiv.org/html/2605.29350#bib.bib9);Liu等人,2026 [arXiv](https://arxiv.org/html/2605.29350#bib.bib14))。相关共享池架构如UniPool进一步挑战了每层必须拥有私有专家集的假设(Huang等人,2026 [arXiv](https://arxiv.org/html/2605.29350#bib.bib15))。ConMoE与这些工作互补:它针对已有的预训练检查点,无需梯度更新,并保留原始面向路由器的专家槽位。ConMoE并非从零开始训练全局共享专家池,而是在后训练阶段执行原型重映射,并允许相邻层在有益时共享局部候选池。这种局部范围视角避免了假设来自远距离层的专家是可互换的,同时仍然允许在有界邻域内进行跨层复用。

参见图注

图 1: ConMoE 概述。从一个具有逐层路由专家池的预训练 MoE 开始,ConMoE 在包含一个或多个相邻 MoE 层的局部范围内执行基于原型的专家池精简。它利用校准统计数据和专家距离来选择预训练专家作为可复用原型,并将每个原始专家引用确定性地重分配给一个选定的原型。压缩后的 MoE 通过将原始专家调用重定向到它们在逻辑精简池中分配的原型,从而保留原始的路由器接口。

## 3 问题形式化

### 3.1 稀疏 MoE 专家池

考虑一个仅有解码器的 Transformer,其 MoE 层索引为 $l \in \{1,\dots, L\}$。第 $l$ 层的路由前馈块包含一个专家池 $\mathcal{E}^{(l)} = \{E^{(l)}_1, \dots, E^{(l)}_{N_l}\}$。对于输入的词元表示 $h_t^{(l)}$,路由器选择 top-$k$ 专家集 $T^{(l)}(t)$,并为选定的专家分配归一化的路由权重 $g_i^{(l)}(t)$。MoE 输出为:

$$\mathrm{MoE}^{(l)}(h_t^{(l)}) = \sum_{i \in T^{(l)}(t)} g_i^{(l)}(t) E^{(l)}_i(h_t^{(l)}).$$

尽管每个词元只激活少数专家,但每个路由专家都必须保持存储和可寻址,因为路由决策因词元和输入而异。我们专注于压缩这个路由专家池,同时保持共享专家、路由器、注意力块、嵌入层及其他非路由模块不变。

### 3.2 专家池精简

设 $G \subseteq \{1, \dots, L\}$ 为一个包含一个或多个相邻 MoE 层的局部范围,并令

$$\mathcal{E}_G = \bigcup_{l \in G} \mathcal{E}^{(l)}$$

表示该范围内原始的路由专家池。给定路由专家缩减比例 $\rho \in [0,1)$,我们的目标是构建一个精简后的原型池 $P_G$,满足

$$|P_G| = K, \quad K = \max(1, \mathrm{round}((1-\rho)|\mathcal{E}_G|)).$$

因此,$\rho=25\%$ 对应保留逻辑原型池中约 75% 的路由专家,而 $\rho=50\%$ 则保留约一半。

专家池精简还规定了原始专家池如何由精简后的池来表示。我们将此重分配记为

$$m_G: \mathcal{E}_G \rightarrow P_G,$$

其中 $m_G(e)$ 是表示原始专家引用 $e$ 的存储原型。因此,一个压缩后的范围由两个对象描述:精简后的原型池 $P_G$ 和重分配映射 $m_G$。

这一形式化分离了 MoE 压缩中两个耦合的决策:存储哪些专家参数,以及如何表示原始面向路由器的专家槽位。在本工作中,ConMoE 直接使用保留的预训练专家作为原型,即 $P_G \subseteq \mathcal{E}_G$,并在默认设置下不更新或融合专家权重。当 $G$ 包含多个相邻层时,固定预算可以在各层之间非均匀分配;当 $G$ 仅包含单层时,该形式化退化为层内局部精简。

### 3.3 精简目标

一个理想精简后的池应以较低的重分配成本代表原始专家。令 $d(e, p)$ 为用原型 $p$ 代表原始专家 $e$ 的成本,令 $w_e$ 衡量 $e$ 在原始模型下的重要性。对于候选原型池 $P \subseteq \mathcal{E}_G$,定义

$$D(e, P) = \min_{p \in P} d(e, p), \quad L_G(P) = \sum_{e \in \mathcal{E}_G} w_e D(e, P).$$

理想的重分配精简问题为

$$P_G^\star = \operatorname*{arg\,min}_{P \subseteq \mathcal{E}_G,\ |P|=K} L_G(P).$$

给定选定的原型池 $P_G$,每个原始专家被分配至其最近的原型:

$$m_G(e) = \operatorname*{arg\,min}_{p \in P_G} d(e, p).$$

该目标抓住了专家池精简的核心权衡:精简后的池应优先考虑重要专家,同时以较低的重分配误差覆盖原始专家池。直接最小化 $L_G(P)$ 是一个组合原型选择问题。因此,ConMoE 将此目标作为指导原则,并在下一节引入一种高效的基于分数的原型选择规则。

## 4 方法

ConMoE 通过选择一组精简后的预训练专家作为原型,并定义一个从原始专家到这些原型的确定性重分配映射,来执行专家池精简。对于每个局部范围 $G$,令 $\mathcal{E}_G$ 为原始路由专家池,$K$ 为原型预算。ConMoE 构建一个原型集

$$P_G \subseteq \mathcal{E}_G, \quad |P_G| = K,$$

以及一个重分配映射

$$m_G: \mathcal{E}_G \rightarrow P_G.$$

因此,每个原始专家由一个选定的预训练原型表示。在默认构造中,不会更新或融合任何专家权重。

### 4.1 原型评分

原型集应保留在预训练路由分布下有用且在同一范围内难以被替代的专家。ConMoE 使用路由条件贡献分数和可替代性分数来估计这两个属性。

对于每个专家 $e \in \mathcal{E}_G$,令 $\mathcal{D}_e$ 为激活它的校准词元。我们定义其路由条件贡献为

$$a_e = \frac{1}{|\mathcal{D}_e|} \sum_{t \in \mathcal{D}_e} g_e(t) \|e(h_t)\|_2,$$

当 $\mathcal{D}_e$ 为空时 $a_e = 0$。该分数衡量了 $e$ 在被选中条件下的平均贡献。

为了估计可替代性,我们使用范围内最近邻距离:

$$b_e = \min_{e' \in \mathcal{E}_G \setminus \{e\}} d(e, e').$$

这里 $d(e, e')$

相似文章

EMO:用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers

EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。

Less is MoE: Trimming Experts in Domain-Specialist Language Models

arXiv cs.LG

This paper introduces Fisher-MoE, a method that compresses Mixture-of-Experts models by trimming intermediate dimensions within FFN layers using Fisher importance, achieving 45% weight memory reduction and 21% throughput improvement without significant capability loss.

通过自蒸馏,后训练MoE可跳过一半专家

Hugging Face Daily Papers

ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。