基于归因引导和覆盖最大化的结构化MoE压缩剪枝

arXiv cs.LG 论文

摘要

提出了一种针对MoE模型的结构化剪枝框架,通过基于归因的近似方法最大化通道分数覆盖,在结合4比特量化时实现50%或25%的剪枝,并在Qwen3-30B-A3B上将内存占用降低5.27倍。

arXiv:2606.18304v1 Announce Type: new Abstract: 混合专家(MoE)模型能高效扩展计算能力,但由于其巨大的内存占用和推理开销,部署成本仍然高昂。以往的压缩方法主要在专家层面操作,要么移除整个专家,要么通过粗粒度的重要性分数对专家进行排序。然而,这种基于专家的决策往往过于粗糙,无法捕捉细粒度的冗余,导致剪枝预算分配不当且压缩效果有限。为了解决这一问题,我们观察到MoE专家中的信息高度集中在少量通道上,即使在被认为重要的专家中也存在大量冗余。基于这一观察,我们提出了一种专为MoE模型量身定制的结构化剪枝框架。我们的方法将剪枝比例分配重新表述为通道分数覆盖最大化问题,并通过基于归因的近似方法高效求解。在DeepSeek和Qwen MoE模型上的实验表明,我们的方法在结合4比特量化时,能在50%或25%的结构化剪枝下保持模型准确率。在Qwen3-30B-A3B上,我们的方法将内存占用降低了5.27$\times$,并在各种基准测试中持续优于最先进的基线方法。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:40

# 基于归因引导与覆盖最大化的结构化MoE剪枝压缩

来源:https://arxiv.org/html/2606.18304

王嘉诚 杨戈 景永成 郭金洋 刘祥龙 陶大程

###### 摘要

混合专家(MoE)模型在扩展计算效率方面表现出色,但由于其巨大的内存占用和推理开销,部署成本依然高昂。现有方法主要基于专家层级进行剪枝,要么直接移除整组专家,要么按重要性对专家排序。然而,这种专家粒度的决策过于粗糙,难以识别冗余,常常导致剪枝预算分配不合理并限制压缩效果。为解决这一困境,我们观察到MoE专家中的信息高度集中在少数通道上,即使“高重要性”专家也含有大量冗余。据此,我们提出了一种专为MoE设计的结构化剪枝框架,将剪枝比率目标重构为通过高效的归因近似实现通道得分覆盖最大化。在DeepSeek和Qwen MoE模型上的实验表明,在联合4位量化实现50%或25%剪枝时,模型精度保持稳定,Qwen3-30B-A3B的内存占用降低了5.27倍,并且在多种基准测试中优于现有最先进方法。¹¹我们的代码开源在https://github.com/yifu-ding/MoE-Slimming。

混合专家,模型压缩,结构化剪枝,多模态大语言模型

## 1 引言

混合专家(MoE)架构已成为扩展语言模型的主流范式,通过仅为每个token激活部分专家,在保持可管理计算量的同时提供高参数量(Xue等人,2024(https://arxiv.org/html/2606.18304#bib.bib51);Qwen团队,2025(https://arxiv.org/html/2606.18304#bib.bib27);Guo等人,2025a(https://arxiv.org/html/2606.18304#bib.bib50))。为了高效部署现代大型MoE并加速推理,结构化剪枝(移除整个通道或专家以生成硬件友好的紧凑小模型)提供了一种有前景的方案(Ma等人,2023(https://arxiv.org/html/2606.18304#bib.bib52);Gao等人,2024(https://arxiv.org/html/2606.18304#bib.bib53);An等人,2024(https://arxiv.org/html/2606.18304#bib.bib54);Guo等人,2024(https://arxiv.org/html/2606.18304#bib.bib2))。量化(降低模型位宽)是另一种互补的效率提升方法(Gong等人,2025(https://arxiv.org/html/2606.18304#bib.bib3);Lv等人,2026(https://arxiv.org/html/2606.18304#bib.bib4))。

与使用所有token共享的单层FFN的稠密模型不同,MoE由多个专家及基于token的路由组成。专家被激活的频率差异巨大,且内部冗余分布不均(Huang等人,2024(https://arxiv.org/html/2606.18304#bib.bib19);Zhang等人,2024(https://arxiv.org/html/2606.18304#bib.bib9))。因此,剪枝决策与数据依赖的激活密切相关。

见图注

图1:我们的剪枝框架概览:通过基于归因的近似估计专家重要性(左),最大化得分覆盖以避免浪费容量(中),以及面向对齐的再分配以实现紧凑存储和内核友好的低位推理(右)。

随着现代MoE扩展到数百个专家,相较于早期仅有少量专家的MoE,在不同异构专家之间合理分配剪枝比率变得极为困难。基于专家层级和损失消融的方法(Zhang等人,2024(https://arxiv.org/html/2606.18304#bib.bib9);Lü等人,2024(https://arxiv.org/html/2606.18304#bib.bib17))需要对每个专家单独评估,因此成本随专家数量线性增长,在规模扩大时变得不切实际(Yang等人,2024(https://arxiv.org/html/2606.18304#bib.bib8);Bai等人,2025(https://arxiv.org/html/2606.18304#bib.bib7))。路由统计量(He等人,2025(https://arxiv.org/html/2606.18304#bib.bib10);Lee等人,2025(https://arxiv.org/html/2606.18304#bib.bib11);Xie等人,2024(https://arxiv.org/html/2606.18304#bib.bib12))收集成本低,但只能捕获选择频率和聚合比例,而非专家的真实贡献。此外,这两种方法均在专家粒度上做决策,将每个专家视为一个整体单元,未能刻画其内部冗余——即在显著的专家异构性下,安全移除的容量到底有多少。因此,大型MoE中跨专家的准确且可扩展的容量分配问题仍未被充分探索。

在本文中,我们基于以下观察重新思考MoE结构化剪枝:MoE信息高度集中在一小部分通道上,这使得专家层级的剪枝重要性过于粗糙,无法捕捉内部冗余。据我们所知,我们是首个揭示即使“高重要性”专家也可能不需要大容量的团队。这启发了一种得分覆盖最大化的分配策略,优先保留高贡献结构,避免在低得分尾部分配冗余容量。我们提出**归因引导与覆盖最大化的专家级剪枝**,一个专为MoE瘦身设计的框架。如图1(https://arxiv.org/html/2606.18304#S1.F1)所示,我们不再直接基于专家层级重要性分配剪枝比率,而是在全局预算下最大化**通道得分覆盖**,这更符合现代MoE中高度集中且分布不均的信息模式。

我们的框架包含三个组件,如图1(https://arxiv.org/html/2606.18304#S1.F1)所示:(1)**归因引导的损失近似(ALA)**,高效地逐层估计专家重要性,无需穷举消融。(2)**覆盖最大化的预算分配(CBA)**,利用ALA得分在全局预算下进行覆盖驱动的容量分配,保留高贡献通道,剪除低得分尾部分。(3)**对齐感知的再分配(AAR)**,在初始分配后调整维度以满足低位内核约束,确保与量化存储及高效推理无缝集成。

我们的框架在包括DeepSeek和Qwen MoE在内的代表性MoE架构上取得了令人印象深刻的结果。在通用知识基准测试上,它实现了**超过5倍**压缩,平均精度下降最多1%。在推理基准上,压缩后的模型在各种任务和模型上一致接近甚至超过原始对应模型。这些结果证明了我们细粒度的专家级剪枝框架的有效性,并为MoE的高效部署提供了一条实用路径。

主要贡献总结如下:

- • 我们观察到MoE信息集中在一小部分通道上,使得专家层级重要性过于粗糙,无法捕捉专家内部冗余。
- • 我们首次将**通道得分覆盖**作为剪枝目标,将容量分配重新表述为在全局预算下最大化覆盖,避免在低得分尾部浪费容量。
- • 我们提出了一种**归因引导的损失近似**,以实现可扩展的重要性专家估计,GPU时长减少**20倍**以上,以及**对齐感知的再分配**,以满足内核形状约束,从而实现内核友好的存储和高效推理。
- • 在DeepSeek和Qwen MoE上的实验表明,**超过5倍**压缩下精度依然强劲,通用知识下降不到1%,在激进剪枝50%下,Qwen3-30B-A3B在MATH500上达到94.5。

## 2 相关工作

由于篇幅限制,更全面的讨论见附录附录D(https://arxiv.org/html/2606.18304#A4)。

**MoE压缩。** 为高效部署大型MoE,先前工作探索:(i)**专家裁剪**和**专家跳过**以减少运行时计算(Liu等人,2024a(https://arxiv.org/html/2606.18304#bib.bib26);Bai等人,2025(https://arxiv.org/html/2606.18304#bib.bib7);Lü等人,2024(https://arxiv.org/html/2606.18304#bib.bib17);Chen等人,2025b(https://arxiv.org/html/2606.18304#bib.bib21);Huang等人,2025(https://arxiv.org/html/2606.18304#bib.bib1))。(ii)**专家瘦身**,通过剪枝、量化或低秩分解压缩每个专家(Yang等人,2024(https://arxiv.org/html/2606.18304#bib.bib8);Xie等人,2024(https://arxiv.org/html/2606.18304#bib.bib12);Chen等人,2025a(https://arxiv.org/html/2606.18304#bib.bib20);Guo等人,2024(https://arxiv.org/html/2606.18304#bib.bib2);Chen等人,2024(https://arxiv.org/html/2606.18304#bib.bib5))。与本文同时,一份匿名投稿(见补充材料)研究了沿隐藏维度的结构化剪枝(Anonymous,2026(https://arxiv.org/html/2606.18304#bib.bib57))。(iii)**专家合并**,合并相似专家(Zhao等人,2025(https://arxiv.org/html/2606.18304#bib.bib23);Guo等人,2025b(https://arxiv.org/html/2606.18304#bib.bib24))。大多数方法以整组专家为粒度操作,或对每个专家应用均匀压缩,只有有限的工作探索了跨专家的异构压缩,例如不同低秩秩(Yang等人,2024(https://arxiv.org/html/2606.18304#bib.bib8))和混合精度位宽分配(Chen等人,2025a(https://arxiv.org/html/2606.18304#bib.bib20))。

##### 专家重要性评估。 MoE压缩中的一个关键挑战是评估每个专家的重要性。现有方法通常依赖路由输出(门控权重、token使用量)(He等人,2025(https://arxiv.org/html/2606.18304#bib.bib10);Lee等人,2025(https://arxiv.org/html/2606.18304#bib.bib11);Huang等人,2024(https://arxiv.org/html/2606.18304#bib.bib19))、基于激活的指标(Dong等人,2025(https://arxiv.org/html/2606.18304#bib.bib15);Zhao等人,2025(https://arxiv.org/html/2606.18304#bib.bib23))、基于性能的标准(例如消融下的损失或精度下降)(Liu等人,2024a(https://arxiv.org/html/2606.18304#bib.bib26);Yang等人,2024(https://arxiv.org/html/2606.18304#bib.bib8))或可学习标量(Bai等人,2025(https://arxiv.org/html/2606.18304#bib.bib7))。然而,这些信号对于MoE瘦身往往不够充分,因为它们仅在专家层级操作,忽略了专家内部的信息集中特性,因此只适用于专家裁剪而非细粒度的专家瘦身。我们的方法通过用高效近似替代昂贵的专家级消融,并进一步通过全局得分覆盖最大化将排名扩展到专家粒度的通道级预算分配,从而超越了先前工作。

## 3 预分析:*专家层级重要性评估的固有困难*

MoE在专家之间稀疏路由token,专家对最终性能的贡献不均,使得专家重要性评估成为MoE压缩中的关键问题。然而,现有方法通常依赖路由输出或专家统计量,这些对于细粒度的瘦身分配而言往往粗糙且不可靠。下面,我们重新审视常见指标及其局限,并通过突出专家贡献与内部冗余之间的根本性不匹配来引出我们的方法。

### 3.1 启发式指标的局限性

现有指标存在两个关键局限:(1)路由输出(例如路由权重或token使用量)仅量化了token参与程度,但不表示专家输出是有益还是有害;(2)原始统计量(例如权重、激活或梯度)在层间存在依赖于层级的幅度差异,并且与同一层内专家的实际贡献相关性也很差。

见图注

图2:路由输出与专家级消融NLL之间的错位。(a)和(b)按路由权重和token使用量排名前50个专家。NLL(条形图)显示出与路由输出弱相关。值得注意的是,橙色条形图突出显示,即使被选中的专家也可能产生负面贡献。

##### 路由器可能做出错误选择。 一些先前工作使用路由输出来评估专家重要性,例如softmax后概率或路由到每个专家的token数量。然而,图2(https://arxiv.org/html/2606.18304#S3.F2)显示,这些路由统计量与专家的真实贡献(通过专家级消融负对数似然NLL测量)可能存在严重错位。具体地,我们在Qwen1.5-MoE-A2.7B上绘制了专家级消融的ΔNLL(条形图)以及路由概率和token使用量:(a)按路由权重排序的前50个专家,(b)按token使用量排序的专家。实验表明,路由概率和token使用量与ΔNLL的相关性都很弱。高优先级或频繁激活的专家在移除时可能仅造成很小的损失增加(蓝色条形图),有些甚至降低损失(橙色条形图低于零)。这表明路由信号主要反映了选择以及专家输出的聚合方式,而不是专家是否有益,并且被选中的专家可能带有噪声甚至有害。

要点1:路由导出的统计量(softmax后权重、token使用量)只反映专家参与度,而不反映实际贡献。

见图注

图3:原始统计量(权重、激活和梯度)在层间和专家间的不可比性。(a)显示权重和激活的原始统计量随深度单调增长,而梯度随深度衰减;(b)揭示层内这些统计量与消融时实际ΔNLL的不相关性。

##### 原始统计量在层间或专家间的不可比性。 除了路由信号,另一种常见启发式方法是从前向或后向原始统计量(例如权重、激活或梯度)中估计专家重要性。然而,这些量在不同层之间不可比,且在同一层内的专家之间往往信息不足,因此作为直接的重要性代理不可靠。(1)**跨层幅度偏差**。在图3(https://arxiv.org/html/2606.18304#S3.F3)(a)中,原始权重和激活的逐层均值±标准差呈现深度依赖的趋势,而梯度随深度衰减。这种行为归因于残差累积、归一化等因素。相反,逐层ΔNLL(蓝色标记)遵循不同的模式,与任何原始统计量都不对齐,表明幅度本质上是层依赖的,不适合跨层比较。(2)**层内无相关性**。图3(https://arxiv.org/html/2606.18304#S3.F3)(b)在单层内显示了类似问题:按专家级消融ΔNLL(条形图)排序后,对应的权重、激活和梯度统计量(均值±标准差)与损失影响没有有意义的关系,无法区分有帮助的专家。

要点2:原始统计量(权重、激活、梯度)在跨层和层内与移除专家时的实际损失相关性很弱,无法可靠地表示专家重要性。

### 3.2 冗余与贡献之间的不匹配

一些先前工作通过测量完全移除专家时的损失增加来评估专家重要性。虽然这给出了专家级排名,但它不指示每个专家内部可以安全移除多少容量。

##### 通道冗余的可视化。 为了检查每个专家内部的信息分布,在图4(https://arxiv.org/html/2606.18304#S3.F4)(a)中,我们按得分降序排列通道(见附录第C.3.1节(https://arxiv.org/html/2606.18304#A3.SS3.SSS1)),并绘制累积贡献曲线。

相似文章

SlimQwen:探索大规模MoE模型预训练中的剪枝与蒸馏

Hugging Face Daily Papers

本文探讨了在预训练阶段压缩大规模混合专家(MoE)模型的结构化剪枝和知识蒸馏技术。研究表明,渐进式剪枝以及结合多标记预测蒸馏等策略,能够提升下游任务的性能。例如,通过将Qwen3-Next-80A3B压缩为更高效的23A2B模型,展示了这一方法的有效性。

ConMoE: 基于原型重分配的专家池整合实现MoE压缩

arXiv cs.AI

ConMoE提出了一种无需训练的混合专家模型压缩框架,通过选择一部分专家作为可重用原型,并确定性地将原始专家调用重新映射到这些原型,从而在不更新权重或微调的情况下减少内存占用。

少即是MoE:裁剪领域专用语言模型中的专家

arXiv cs.LG

本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。