XPERT:通过专家知识迁移实现语言模型的高效训练
摘要
本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。
arXiv:2605.08842v1 公告类型:新论文
摘要:混合专家(MoE)语言模型将知识组织到显式路由的专家模块中,使得专家级的表示可追踪且可分析。通过分析 MoE 大型语言模型(LLM)中的专家激活模式,我们发现一小部分专家在不同的知识领域中被持续激活。这些通用专家编码了跨领域、可泛化的知识,与模型的泛化能力密切相关,这自然引出了如何实际复用此类可识别专家知识的问题。基于这一观察,我们提出了 XPERT,这是一个从预训练 MoE LLM 中提取、整合并复用专家知识的框架,以支持不同规模语言模型更有效的训练。XPERT 通过仅推理分析识别跨领域专家,通过张量分解细化其表示,并将提取的知识适配以在下游模型中复用。在语言理解和对话生成基准上的实验表明,得益于复用专家知识的模型,与强大的基线相比,实现了更强劲的性能和更快的收敛速度。这些结果突显了 MoE LLM 作为结构化且可复用知识来源的价值,并证明了专家级知识复用在改进模型训练方面的价值。
查看缓存全文
缓存时间: 2026/05/12 07:02
# XPERT:用于有效训练语言模型的专家知识迁移
来源:https://arxiv.org/html/2605.08842
###### 摘要
混合专家(Mixture-of-Experts, MoE)语言模型将知识组织到显式路由的专家模块中,使得专家级的表示可追踪且可分析。通过分析 MoE 大型语言模型(LLMs)中的专家激活模式,我们发现一部分专家在多种知识领域中被一致地激活。这些通用专家编码了跨领域的、可泛化的知识,与模型的泛化能力密切相关,这自然引出了这样一个问题:如何实际复用这些可识别的专家知识?基于这一观察,我们提出了 XPERT 框架,该框架从预训练的 MoE LLMs 中提取、整合并复用专家知识,以支持不同规模语言模型更有效的训练。XPERT 通过仅推理的分析识别跨领域专家,通过张量分解细化其表示,并将提取的知识适配后复用于下游模型。在语言理解和对话生成基准测试上的实验表明,受益于复用专家知识的模型与强基线相比,取得了持续更强的性能以及更快的收敛速度。这些结果突出了 MoE LLMs 作为结构化且可复用的知识来源的价值,并证明了专家级知识复用在提升模型训练方面的价值。
机器学习,ICML
## 1 引言
随着大型语言模型(LLMs)\(Wiggins and Tejani,2022 (https://arxiv.org/html/2605.08842#bib.bib1); Chowdheryet al\.,2023 (https://arxiv.org/html/2605.08842#bib.bib2); Achiamet al\.,2023 (https://arxiv.org/html/2605.08842#bib.bib3); Grattafioriet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib5); Zhonget al\.,2025 (https://arxiv.org/html/2605.08842#bib.bib20)\) 的快速发展,许多模型在广泛的任务和领域中展现出了强大的性能\(Zhanget al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib19); Sunet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib18); Yiet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib21)\)。虽然早期的 LLMs 主要基于稠密架构\(Touvronet al\.,2023 (https://arxiv.org/html/2605.08842#bib.bib6); Mannet al\.,2020 (https://arxiv.org/html/2605.08842#bib.bib7); Baiet al\.,2023 (https://arxiv.org/html/2605.08842#bib.bib8)\),但最近的研究越来越转向稀疏的混合专家(MoE)模型\(Shazeeret al\.,2017a (https://arxiv.org/html/2605.08842#bib.bib9); Daiet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib44); Muennighoffet al\.,2025 (https://arxiv.org/html/2605.08842#bib.bib43); Teamet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib64); Liuet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib10)\),这些模型通过仅为每个输入激活一小部分专门的专家来扩展模型容量。这种条件计算范式使得 MoE 模型能够在减少训练和推理成本的同时实现强大的性能。
除了计算效率之外,MoE 架构的一个关键特性是知识在专家级别上进行了显式模块化。通过路由机制,每个专家由特定输入选择性激活,使得专家表示与任务特征之间的关系既明确又可追踪。受此特性启发,我们使用来自不同知识领域的数据分析了 MoE LLMs 中的专家激活模式。
我们观察到,虽然许多专家是特定于领域的,但一部分专家在多样化的领域中始终保持活跃。如图1 (https://arxiv.org/html/2605.08842#S1.F1) 所示,某些专家(例如 OLMoE-7B 中的专家 8、17 和 30)在多个领域中表现出高激活率,表明它们编码了共享的跨领域知识。我们将此类专家称为*通用专家*。通用专家的存在表明专家级表示与模型泛化能力之间存在密切联系。这一直觉最近得到了如 DeepSeekMoE\(Daiet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib44)\) 等 MoE 设计的支持,后者显式引入了在所有输入上激活的共享专家,突显了通用专家知识的重要性。这些观察自然引出了一个关键问题:*如何实际利用那些既可识别又与泛化密切相关的专家知识?*
在视觉领域,先前的研究表明,从预训练的卷积神经网络或视觉 Transformer 中提取的可泛化知识可以被复用,以改善跨任务和模型配置的训练效率和稳定性\(Wanget al\.,2023a (https://arxiv.org/html/2605.08842#bib.bib40); Shiet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib42)\)。受这一工作线的启发,我们探索是否可以将基于 MoE 的 LLMs 中的专家知识以类似方式提取和迁移,以提高模型训练的效率和效果。我们提出了 XPERT,这是一个从 MoE LLMs 中提取跨领域通用专家知识并复用该知识以支持不同规模模型更有效地训练的框架。
参见图注图1:OLMoE-7B 第15层在不同领域的专家激活频率。更多示例请参见附录A (https://arxiv.org/html/2605.08842#A1)。参见图注图2:XPERT 框架。$Z$ 是由堆叠选定的专家参数矩阵形成的张量,$(G,U)$ $(\mathcal{G},U)$ 代表对应于特定参数矩阵的细化知识。在步骤3进行参数规模适配后,提取的专家知识用于初始化不同规模语言模型的 FFN 层。在 XPERT 框架下,专家知识通过纯推理分析进行识别。如图2 (https://arxiv.org/html/2605.08842#S1.F2) 的步骤1所示,我们对来自多个知识领域的数据执行前向传播,并记录专家激活模式。选择在跨领域中一致激活的专家,因为这种激活模式表明存在与模型泛化密切相关的跨领域通用知识。为了将选定的专家转换为紧凑且可复用的形式,XPERT 进一步引入了知识整合步骤。如图2 (https://arxiv.org/html/2605.08842#S1.F2) 的步骤2所示,来自每个 Transformer 块的专家被聚合为高阶张量,然后应用张量分解以提取捕获与领域无关的专家知识的共享组件。
将提取的知识转移到目标模型时会出现一个实际挑战,目标模型的参数维度可能与源 MoE LLMs 不同。为了解决这种不匹配,我们提出了一种参数规模适配方法,调整提取的张量表示以与目标模型的维度对齐。如图2 (https://arxiv.org/html/2605.08842#S1.F2) 的步骤3所示,重构后的表示被适配为与目标模型的隐藏层和中间层维度匹配的 Feed-Forward Network (FFN) 参数矩阵,并在训练前用于初始化其 FFN 层。所有其余参数均使用标准随机初始化进行初始化。
我们在涵盖多个领域的语言理解和对话生成的监督微调(SFT)基准上,使用 OLMoE-7B\(Muennighoffet al\.,2025 (https://arxiv.org/html/2605.08842#bib.bib43)\) 和 DeepSeekMoE-16B\(Daiet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib44)\) 作为源 MoE LLMs 对 XPERT 进行了评估。在所有设置中,XPERT 提取了紧凑的专家衍生表示子集(约占源 LLMs 参数的 1.25%)。值得注意的是,专家选择、知识整合和参数规模适配完全无需训练。当用作初始化先验时,XPERT 初始化的模型始终优于强基线(包括从头训练和知识蒸馏),并且收敛更快,所需的预训练数据最多减少 5$\times$ 倍。总体而言,这些结果表明 MoE LLMs 中的专家知识可以作为有效且可泛化的初始化先验被系统复用。XPERT 突显了 MoE LLMs 作为结构化知识来源在其原始部署之外的潜力。我们的贡献总结如下:
- •我们系统地研究了 MoE LLMs 中专家知识的复用,并表明一部分专家始终编码与模型泛化密切相关的跨领域通用知识。
- •我们提出了 XPERT,一个从预训练 MoE LLMs 中提取、整合并适配专家知识以支持更有效模型训练的框架,使得在不同维度和大小的模型中实现参数级复用。
- •通过对多个模型规模和多样化下游任务的广泛实验,我们证明了与其他基线相比,XPERT 初始化的模型表现出更好的训练动态和更强的下游性能。
## 2 相关工作
#### 混合专家语言模型
MoE 语言模型已被广泛研究为一种通过条件计算扩展模型容量的高效架构,其中仅为每个输入激活一部分专家\(Shazeeret al\.,2017b (https://arxiv.org/html/2605.08842#bib.bib61)\)。后续工作探索了大规模 MoE 预训练和部署,重点关注效率、可扩展性和专家专业化,包括 Switch Transformer\(Feduset al\.,2022 (https://arxiv.org/html/2605.08842#bib.bib62)\)、GShard\(Lepikhinet al\.,2020 (https://arxiv.org/html/2605.08842#bib.bib63)\) 以及更近期的基于 MoE 的 LLMs,如 DeepSeekMoE\(Daiet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib44)\)、OLMoE\(Muennighoffet al\.,2025 (https://arxiv.org/html/2605.08842#bib.bib43)\) 和 Gemini\(Teamet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib64)\)。几项研究进一步分析了专家路由行为和激活模式,以理解专业化和负载均衡\(Feduset al\.,2022 (https://arxiv.org/html/2605.08842#bib.bib62); Huanget al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib60)\)。然而,现有工作主要在路由效率和任务专业化的背景下考察专家,并未调查专家参数是否编码了可系统提取并转移到新模型中的可复用知识。
#### 模型中的可复用知识
先前的工作探索了嵌入在大模型中的知识是否可以被显式识别和复用。一些研究通过梯度敏感性\(Molchanovet al\.,2019 (https://arxiv.org/html/2605.08842#bib.bib72)\)、损失变化跟踪\(Frankle and Carbin,2018 (https://arxiv.org/html/2605.08842#bib.bib73)\) 或数据估值方法\(Xuet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib77)\) 来估计参数或组件的重要性。虽然这些方法在突出重要参数方面很有效,但它们通常揭示的模式要么高度分散,要么在粗粒度上聚合,限制了其作为可复用知识单元的适用性。
其他工作侧重于参数高效适配,如适配器(adapters)和低秩更新\(Houlsbyet al\.,2019 (https://arxiv.org/html/2605.08842#bib.bib74); Huet al\.,2022 (https://arxiv.org/html/2605.08842#bib.bib75); Li and Liang,2021 (https://arxiv.org/html/2605.08842#bib.bib76)\),这些方法提高了训练效率,但没有显式隔离可转移的、与任务无关的知识表示。总体而言,现有方法对于如何显式定位并跨模型复用可泛化知识提供的见解有限。LLMs 是否包含结构化、可复用的知识组件仍然是一个开放性问题,特别是对于 MoE 架构,其中知识在专家级别上进行了显式模块化。
#### 模型初始化
模型初始化对深度神经网络的优化动态和泛化能力有强烈影响。虽然像 Xavier 和 Kaiming 这样的经典方案关注训练稳定性\(Glorot and Bengio,2010 (https://arxiv.org/html/2605.08842#bib.bib65); Heet al\.,2015 (https://arxiv.org/html/2605.08842#bib.bib66)\),但现代语言模型通常依赖于预训练初始化,以复用从大规模数据中学习到的表示,从而带来更快的收敛和提高的性能\(Radfordet al\.,2019 (https://arxiv.org/html/2605.08842#bib.bib68); Devlinet al\.,2019 (https://arxiv.org/html/2605.08842#bib.bib69)\)。先前的研究进一步表明,初始化偏差会影响训练期间激活的参数子结构,并将优化引导至泛化能力更好的解\(Frankle and Carbin,2018 (https://arxiv.org/html/2605.08842#bib.bib73); Mishkin and Matas,2015 (https://arxiv.org/html/2605.08842#bib.bib67)\)。XPERT 基于这一见解,在初始化时复用来自 MoE LLMs 的专家知识,提供结构化的归纳偏差以提高训练效果。
## 3 专家知识迁移框架
我们提出了 XPERT,一个复用预训练 MoE LLMs 中的专家知识以初始化新模型从而提高训练效果的框架。XPERT 包含三个阶段:跨领域专家选择(第3.2节 (https://arxiv.org/html/2605.08842#S3.SS2))、通过张量分解整合专家知识(第3.3节 (https://arxiv.org/html/2605.08842#S3.SS3))以及用于初始化的参数规模适配(第3.4节 (https://arxiv.org/html/2605.08842#S3.SS4))。
### 3.1 预备知识
MoE 架构由多个专家 $E$ 和路由器 $G(x)$ 组成。输入数据通过路由器处理,路由器选择一部分专家进行计算。在包含 $N$ 个专家的 MoE 层中,每个 token $x$ 通过路由器被分配一组专家子集进行计算:
$$
y = \sum_{i=1}^N G_i(x)E_i(x),
$$
$$
G_i(x) = \begin{cases} g_i, & \text{if } g_i \in \text{TopK}(\{g_j \mid 1 \le j \le N\}, K), \\ 0, & \text{otherwise}, \end{cases}
$$
其中 $E_i$ 代表第 $i$ 个专家,在 Transformer 模型中实现为 FFN 层。项 $g_i = \text{softmax}_i(Wx)$ 表示门控机制处理输入 $x$ 后为第 $i$ 个专家获得的 softmax 值。$W$ 代表门控函数的权重参数。
在一些最近的 MoE LLMs\(Daiet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib44); Liuet al\.,2024 (https://arxiv.org/html/2605.08842#bib.bib10)\) 中,引入了共享专家来处理不同任务中的通用知识。带有共享专家的 MoE 架构的计算公式为 $y = \sum_{i=1}^N G_i(x)E_i(x) + \sum_{i=1}^S E_i^s(x)$,其中 $E^s$ 代表共享专家,$S$ 是共享专家的数量。
### 3.2 跨领域专家选择
如引言中所述,我们的目标是识别编码跨领域知识且与模型泛化密切相关的专家。预计这些专家在来自多个领域的输入上会一致激活,表明它们捕捉到了超越单一任务或领域的共享知识。因此,XPERT 的第一步是识别具有强跨领域激活模式的通用专家。在某些 MoE 架构相似文章
Transformer 中的专家混合模型 (MoEs)
Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。
EMO:用于涌现模块化的专家混合模型预训练
EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。
混合专家模型中的涌现式模块化(8 分钟阅读)
Ai2 发布了 EMO,一个 14B 参数的混合专家语言模型,训练用于发展涌现式模块化。它允许在特定任务中使用一小部分专家,同时保持接近全模型性能。
EMO:通过预训练混合专家实现涌现模块化
Allen AI 发布了 EMO 模型,这是一种混合专家模型,其中模块化结构从数据中自然涌现,使得仅使用 12.5% 的专家就能完成一项任务,同时保持接近完整模型的性能。
AI2推出的新MoE模型:EMO
AI2发布了EMO,一个混合专家(MoE)语言模型,总参数量14B,其中1B活跃参数,基于1万亿tokens训练,并采用文档级路由,即专家会按领域(如健康、新闻等)进行聚类。