少即是MoE:裁剪领域专用语言模型中的专家

arXiv cs.LG 论文

摘要

本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。

arXiv:2606.05538v1 公告类型:新 摘要:混合专家(MoE)模型通过条件计算实现了强大的性能,但其庞大的参数规模带来了部署挑战。先前的MoE压缩方法在常识推理以外的通用基准测试中评估时,会灾难性地失败。我们将这种失败归因于压缩的粒度:重要的能力分布在各个专家中,但集中在FFN稀疏的中间维度上。为了识别这些维度,我们使用Fisher重要性,它优于基于激活值、路由分数和幅度的替代方法,并能识别出极少的任务关键维度:在Qwen1.5-MoE中,移除1.35M个路由FFN中间维度中仅12个就会导致GSM8K准确率崩溃,同时很大程度上保留事实知识性能。基于此,我们提出了Fisher-MoE,它在FFN内部运行,移除按Fisher重要性排序的中间维度。在相同的50% MoE压缩率下,Fisher-MoE保持了模型能力,同时减少了约45%的权重内存,并将推理吞吐量提升了21%。这些发现表明,在MoE模型中,中间维度粒度是能力集中之处,也是压缩和排序的有效单位。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:11

# 更少即是MoE:修剪领域专家语言模型中的专家

来源:https://arxiv.org/html/2606.05538

何浩泽1,邹新凯2††感谢同等贡献。,蒋璇3,丁星源1,曲傲3
Juncheng Billy Li1,Heather Miller1
1卡内基梅隆大学
2加州大学圣地亚哥分校
3麻省理工学院
{haozeh, xingyuad, junchenl, heather.miller}@cs.cmu.edu
[email protected]
{xuanj, qua}@mit.du

###### 摘要

混合专家(MoE)模型通过条件计算实现了强大的性能,但其庞大的参数规模给部署带来了挑战。先前的MoE压缩方法在通用基准测试(超越常识推理)上评估时,会灾难性地失败。我们将这种失败归因于压缩的粒度:重要能力分布在各专家之间,但集中在FFN稀疏的中间维度上。为了识别这些维度,我们使用Fisher重要性,它优于基于激活、路由器分数和幅度的替代方法,并能识别出少量任务关键维度:在Qwen1.5-MoE中,仅移除1.35M个路由FFN中间维度中的12个就导致GSM8K准确率崩溃,同时很大程度上保留了事实知识性能。基于此,我们提出Fisher-MoE,它在FFN内部操作,移除按Fisher重要性排序的中间维度。在相同的50% MoE压缩比下,Fisher-MoE保留了模型能力,同时将权重内存减少约~45%,并将推理吞吐量提升21%。这些发现表明,中间维度粒度在MoE模型中既是压缩的有效单位,也是能力集中的排序单位。更少即是MoE:修剪领域专家语言模型中的专家

何浩泽1††感谢同等贡献。,邹新凯1,蒋璇3,丁星源1,曲傲3
Juncheng Billy Li1,Heather Miller1
1卡内基梅隆大学
2加州大学圣地亚哥分校
3麻省理工学院
{haozeh, xingyuad, junchenl, heather.miller}@cs.cmu.edu
[email protected]
{xuanj, qua}@mit.du

## 1 引言

混合专家(MoE)模型已成为扩展语言模型能力同时通过条件计算保持高效推理的主导范式(Shazeer et al., 2017 (https://arxiv.org/html/2606.05538#bib.bib63); Lepikhin et al., 2021 (https://arxiv.org/html/2606.05538#bib.bib64); Fedus et al., 2022 (https://arxiv.org/html/2606.05538#bib.bib65))。这使模型能够以数百亿参数实现高效推理,但其庞大的总参数规模仍然在内存、存储和服务方面给部署带来了重大挑战。为了减小这一规模,先前的工作通过基于启发式重要性指标(如激活频率 (Muzio et al., 2024 (https://arxiv.org/html/2606.05538#bib.bib38); Lu et al., 2024a (https://arxiv.org/html/2606.05538#bib.bib39); Chen et al., 2022 (https://arxiv.org/html/2606.05538#bib.bib41))、路由器分数 (Xie et al., 2024 (https://arxiv.org/html/2606.05538#bib.bib42); Gu et al., 2025 (https://arxiv.org/html/2606.05538#bib.bib48)) 或权重幅度 (Lee et al., 2024 (https://arxiv.org/html/2606.05538#bib.bib43); Yang et al., 2024b (https://arxiv.org/html/2606.05538#bib.bib40); Li et al., 2023 (https://arxiv.org/html/2606.05538#bib.bib49); Chen et al., 2024 (https://arxiv.org/html/2606.05538#bib.bib50)))来移除或合并专家,从而压缩MoE模型。尽管这些指标存在差异,但现有方法共享一个共同的设计选择:压缩是在整个专家的粒度上执行的。此外,现有方法主要是在常识推理基准上进行评估,我们发现这些基准不稳定且是压缩质量的弱指标(参见附录I (https://arxiv.org/html/2606.05538#A9))。我们转而根据官方技术报告中的评估设置 (Qwen Team, 2024 (https://arxiv.org/html/2606.05538#bib.bib66); Yang et al., 2025 (https://arxiv.org/html/2606.05538#bib.bib53)),在更具挑战性的通用基准上评估,这些基准涵盖数学推理、代码生成、知识和多语言理解。情况发生了巨大变化。在公平受控的比较下,使用统一的压缩He等人 (2025b (https://arxiv.org/html/2606.05538#bib.bib46))框架,我们在固定的MoE压缩比p=50%(定义为路由专家FFN参数移除的比例;在§3.1 (https://arxiv.org/html/2606.05538#S3.SS1)中定义)下评估基于激活、分数和幅度的方法。如图2 (https://arxiv.org/html/2606.05538#S2.F2)所示,所有现有的专家级方法在GSM8K、HumanEval、MBPP和MATH等基准上都会遭受灾难性的性能崩溃。

图1:单个MoE专家的中间维度压缩。边的颜色编码每个中间维度的Fisher重要性分数s_{i,j}^{dim}(红色=高,蓝色=低)。Fisher分数最低的50%的维度被移除(*淡化*),从而将W_i^{gate}、W_i^{up} ∈ ℝ^{d_ff × d}和W_i^{down} ∈ ℝ^{d × d_ff}减小到\hat{d}_ff = d_ff / 2,而不丢弃任何专家。我们追溯现有MoE压缩方法的失败,归结为两个因素。首先,不准确的重要性指标无法估计参数的重要性。其次,以过于粗粒度的粒度进行压缩,假设能力定位于专家级别,而实际上能力分布在各专家之间,但集中在中间维度的一小部分中。我们的贡献不是Fisher信息本身,而是MoE中可归因的中间维度单位的选择,并将参数级别的Fisher分数聚合成专家的中间维度分数。我们使用Fisher重要性作为基础评分工具来定位这种归因(§2 (https://arxiv.org/html/2606.05538#S2)),并设计了一种在中间维度级别上更细粒度的压缩方法(§3 (https://arxiv.org/html/2606.05538#S3))。

#### (1) Fisher重要性作为单位归因工具。先前的方法依赖激活比率、权重幅度或路由器分数,我们证明这些指标是参数重要性的较差代理。相比之下,经验Fisher信息在作为压缩指标和归因工具方面表现都明显更好。我们通过三条证据来验证这一点:(a) 在受控比较下,Fisher重要性优于现有指标;(b) 将Fisher重要性识别的135万个中间维度中的仅12个归零,就能破坏数学推理,同时保留一般知识;(c) 移除最低50%的维度能保持整体性能(§2 (https://arxiv.org/html/2606.05538#S2))。

#### (2) 细粒度中间维度压缩。先前的方法在整体专家级别操作。然而,MoE模型中的能力分布在专家之间,但集中在中间维度的一小部分中。因此,移除整个专家会连同冗余维度一起丢弃关键维度。我们通过提出Fisher-MoE来弥合这种专家级别与中间维度级别定位之间的差距,它将上述每个维度的归因转换为结构上更小的MoE:它通过物理调整W^{gate}、W^{up}的行和W^{down}的列中对应于低Fisher分数维度的部分,在每个专家内部执行细粒度压缩(§3 (https://arxiv.org/html/2606.05538#S3))。我们的主要贡献是:

- • 我们报告了MoE模型的一个结构性质,即能力并不定位于专家级别,而是集中在分布在专家之间的一小部分中间维度上。这揭示了专家级MoE压缩方法失败的一个原因。
- • 我们将中间维度定义为可归因的结构,并使用Fisher信息作为刻画这种结构的工具。我们经验性地表明,Fisher重要性能够识别关键和冗余的中间维度。
- • 我们提出了Fisher-MoE,一种在中间维度级别而非专家级别操作的细粒度压缩方法。在p=50%的压缩比下,它保留了下游性能,同时将推理吞吐量提升了21%。

## 2 模型能力归因

我们能否找到一种重要性指标,根据参数对模型能力的影响来对参数进行排序?在本节中,我们提出*经验Fisher信息*是一个更好的指标。我们首先从展开式推导出Fisher重要性,并将其与先前的启发式方法进行对比(§2.1 (https://arxiv.org/html/2606.05538#S2.SS1)),然后提供三条经验证据证明这个分数是一个有用的排序信号:它优于所有替代方法(§2.1 (https://arxiv.org/html/2606.05538#S2.SS1.SSS0.Px4)),遮蔽少数Fisher排名的关键维度会破坏生成密集型任务,同时保留知识任务(§2.2 (https://arxiv.org/html/2606.05538#S2.SS2)),并且任务间共享的Fisher重要维度集很小,移除它会破坏所有任务(§2.3 (https://arxiv.org/html/2606.05538#S2.SS3))。为简洁起见,我们将基准分为四类:知识涵盖MMLU、CEval和CMMLU;代码涵盖HumanEval和MBPP;推理是BBH;数学涵盖MATH和GSM8K。

### 2.1 经验Fisher信息

令p_θ(y|x)为模型的输出分布,D为包含N个样本、序列长度为T的校准数据集。我们用L(x,y) = -log p_θ(y|x)表示损失。每个专家E_i是一个带门控的FFN:
E_i(x) = W_i^{down} (σ(W_i^{gate} x) ⊙ W_i^{up} x), (1)
其中W_i^{gate}, W_i^{up} ∈ ℝ^{d_ff × d}, W_i^{down} ∈ ℝ^{d × d_ff},σ(·)为逐元素非线性函数(例如SiLU)。

#### 经验Fisher近似。问“参数θ_i有多重要?”的一个自然方式是问当我们扰动它时,预测分布移动了多少。对于小的δ ∈ ℝ^{|θ|},未扰动模型与扰动模型之间KL散度的二阶泰勒展开给出:
E_x KL[p_θ || p_{θ+δ}] = δ^⊤ F_θ δ + O(‖δ‖^3), (2)
其中F_θ ∈ ℝ^{|θ|×|θ|}是*Fisher信息矩阵*。令g_θ(x,y) := ∇_θ log p_θ(y|x)表示每个token的得分函数,
F_θ = E_{x,y}[g_θ(x,y) g_θ(x,y)^⊤]. (3)
对于数十亿参数的模型,完整的F_θ是难以处理的。我们采用*经验Fisher*:将E_{y~p_θ(y|x)}替换为D中的真实标签,得到
\hat{F}_θ = (1/N) ∑_{(x,y)∈D} (∇_θ log p_θ(y|x))^2 (4)
在本文其余部分,我们简称为*Fisher*。当我们将此指标应用于MoE压缩时,将所得方法称为Fisher-MoE。

#### 基线方法。先前的MoE压缩使用以下三种指标之一:
- • *激活比率*:s_i^{act} = (1/NT) ∑_{(x,t)∈D} 1[i∈T(x_t)],即路由到专家i的token比例 (Muzio et al., 2024 (https://arxiv.org/html/2606.05538#bib.bib38); Lu et al., 2024a (https://arxiv.org/html/2606.05538#bib.bib39))。
- • *路由器分数*:s_i^{score} = (1/NT) ∑ g_i(x_t),即平均门控权重 (Xie et al., 2024 (https://arxiv.org/html/2606.05538#bib.bib42))。
- • *幅度*:s_i^{mag} = ‖W_i^{gate}‖_F + ‖W_i^{up}‖_F + ‖W_i^{down}‖_F,一种与数据无关的权重范数 (Lee et al., 2024 (https://arxiv.org/html/2606.05538#bib.bib43); Yang et al., 2024b (https://arxiv.org/html/2606.05538#bib.bib40))。

#### 扩展到中间维度。Fisher重要性一个关键的实际优势是,无论W是路由器权重矩阵、完整的专家FFN还是单个中间维度,其推导过程都适用。我们在本文中使用的三种粒度上实例化方程(4 (https://arxiv.org/html/2606.05538#S2.E4)):*(1) 路由器级Fisher*:W是路由器门控对应于专家i的行;*(2) 专家级Fisher*:W是专家i的W_i^{gate}, W_i^{up}, W_i^{down}的并集;*(3) 中间维度Fisher*:W是W_i^{gate}, W_i^{up}的行和W_i^{down}的列中对应于专家i单个中间维度j的部分。
G_i^m := ∇_{W_i^m} L,其中 m∈{g,u,d},
s_{i,j}^{Fisher} = (1/d) ∑_k [ (G_i^g)_{j,k}^2 + (G_i^u)_{j,k}^2 + (G_i^d)_{k,j}^2 ] (5)
在校准样本上平均;求和遍历隐藏维度k∈[d],分母d按与维度j绑定的总参数数量归一化。中间维度形式使得细粒度压缩(移除低分维度,§3 (https://arxiv.org/html/2606.05538#S3))和细粒度归因(识别高分关键维度,§2.2 (https://arxiv.org/html/2606.05538#S2.SS2))成为可能。我们在MoE压缩比p=50%下,在专家级压缩上比较所有四种重要性指标。为确保公平比较,我们使用(He等人, 2025b (https://arxiv.org/html/2606.05538#bib.bib46))的统一压缩框架:所有方法共享相同的校准数据(GSM8K训练集,128个样本)、压缩程序和评估协议(在Qwen1.5-MoE上);仅重要性指标不同。Fisher重要性在所有任务上均占主导地位(图2 (https://arxiv.org/html/2606.05538#S2.F2))。完整结果见表9 (https://arxiv.org/html/2606.05538#A4.T9)。

图2:使用现有重要性指标在Qwen1.5-MoE上进行50%压缩比的专家级剪枝。

### 2.2 Fisher重要性能否识别任务关键参数?

表1:遮蔽前12个和移除关键/冗余中间维度对性能的影响。
我们按Fisher分数(在128个GSM8K训练样本上计算)对所有约135万个MoE FFN中间维度进行排序,并将前n个维度的输出归零。仅遮蔽135万个中间维度中的12个(0.001%),就导致GSM8K从35.9%降至0.8%,MATH从13.0%降至1.1%,代码和BBH也急剧下降,而多项选择知识任务(MMLU/CEval/CMMLU)

相似文章

通过自蒸馏,后训练MoE可跳过一半专家

Hugging Face Daily Papers

ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。

ConMoE: 基于原型重分配的专家池整合实现MoE压缩

arXiv cs.AI

ConMoE提出了一种无需训练的混合专家模型压缩框架,通过选择一部分专家作为可重用原型,并确定性地将原始专家调用重新映射到这些原型,从而在不更新权重或微调的情况下减少内存占用。