MoE专业化中的几何不对称性:功能去相关与表示重叠
摘要
本文提出一个Jacobian-PCA-Grassmann框架,用于分析混合专家(MoE)Transformer中专家专业化的几何结构。研究发现,专家表现出强烈的功能去相关,而其表示存在重叠,并且路由稀疏性显著影响这一几何结构。
arXiv:2605.16349v1 Announce Type: new
摘要:混合专家(MoE)架构通过稀疏路由实现可扩展容量,但专家专业化的几何结构仍缺乏深入理解。我们引入了一个统一的Jacobian-PCA-Grassmann框架,用于在函数空间和表示空间中分析MoE层。在预训练的MoE Transformer(Mistral、Qwen)中,我们发现一致的结构不对称性:专家表现出强烈的功能去相关(持续低水平的、接近零的跨专家Jacobian对齐),而其路由表示占据不同但部分重叠的子空间。这表明在MoE专业化中,功能去相关与表示重叠是共存而非重合的。受控路由实验进一步表明,路由稀疏性似乎是塑造这一几何结构的关键因素:top-k路由导致更清晰的功能分离和更大的子空间发散,而完全软路由则产生更纠缠的专家结构。综合来看,这些结果提出了一种几何解释,即MoE层可视为在共享表示流形上的重叠子流形上实现局部去相关算子,并为研究现代Transformer架构中的条件计算提供了一个通用诊断框架。
查看缓存全文
缓存时间: 2026/05/19 06:41
# MoE 特化中的几何不对称性:功能去相关与表征重叠
来源:https://arxiv.org/html/2605.16349
###### 摘要
混合专家(Mixture-of-Experts, MoE)架构通过稀疏路由实现了可扩展的容量,但专家特化的几何结构仍未被充分理解。我们引入了一个统一的雅可比-PCA-格拉斯曼框架,用于在函数空间和表示空间两个层面分析 MoE 层。在预训练的 MoE Transformer(Mistral, Qwen)中,我们发现了一个一致的结构性不对称性:专家表现出强烈的功能去相关——跨专家雅可比对齐度始终很低(接近零)——而它们路由后的表示占据了不同但部分重叠的子空间。这表明在 MoE 特化中,功能去相关和表示重叠是共存而非重合的。受控路由实验进一步表明,路由稀疏性似乎是塑造这种几何结构的关键因素:Top-k 路由会导致更尖锐的功能分离和更大的子空间发散,而全软路由则会产生更纠缠的专家结构。这些结果共同提出了一种几何解释,即 MoE 层可以被视为在共享表示流形上重叠的子流形上实现局部去相关算子,并为研究现代 Transformer 架构中的条件计算提供了一个通用的诊断框架。
## 1 引言
混合专家(Mixture-of-Experts, MoE)架构已成为扩展 Transformer 模型的核心机制,通过稀疏路由在保持固定计算成本的同时实现大规模参数(Shazeer 等人,2017 (https://arxiv.org/html/2605.16349#bib.bib2);Lepikhin 等人,2021 (https://arxiv.org/html/2605.16349#bib.bib3);Fedus 等人,2022 (https://arxiv.org/html/2605.16349#bib.bib1))。尽管其在现代语言模型中被广泛采用,但专家特化的几何结构仍然知之甚少。现有的分析主要关注路由统计、负载均衡或系统级行为(Lepikhin 等人,2021 (https://arxiv.org/html/2605.16349#bib.bib3);Zoph 等人,2022 (https://arxiv.org/html/2605.16349#bib.bib20);Eo 等人,2025 (https://arxiv.org/html/2605.16349#bib.bib19)),关于专家在函数空间上的差异以及路由后的token在表示空间中的组织方式等基本问题仍悬而未决。
虽然路由统计提供了专家行为的粗略视图,但一个常见的直觉是 MoE 层对输入分布进行分区,每个专家充当局部函数逼近器(Jacobs 等人,1991 (https://arxiv.org/html/2605.16349#bib.bib15);Jordan 和 Jacobs,1994 (https://arxiv.org/html/2605.16349#bib.bib21))。然而,实证研究表明,专家通常作用于重叠的token区域(Krishnamurthy 等人,2023 (https://arxiv.org/html/2605.16349#bib.bib16);Dai 等人,2024 (https://arxiv.org/html/2605.16349#bib.bib22)),并且特化并不总是对应于清晰的输入空间聚类。这引出了一个更深层的问题:在预训练的 MoE Transformer 内部,路由诱导了什么样的几何结构?
为了超越输入空间的直觉,我们通过一个统一的几何视角来研究 MoE 特化111代码和数据:https://drive.google.com/drive/folders/1X1nP8A2s62JrVu8Pb_Bgrw9cvP776iSl?usp=sharing。我们引入了一个雅可比-PCA-格拉斯曼框架,该框架联合分析了 (i) 功能几何,通过专家局部雅可比矩阵(借鉴先前基于雅可比的神经敏感性分析;例如,Novak 等人,2018 (https://arxiv.org/html/2605.16349#bib.bib23);Pennington 等人,2018 (https://arxiv.org/html/2605.16349#bib.bib24)),以及 (ii) 表示几何,通过路由后的 PCA 和子空间距离(借鉴 Transformer 中的表示空间分析;Ethayarajh,2019 (https://arxiv.org/html/2605.16349#bib.bib25);Timkey 和 van Schijndel,2021 (https://arxiv.org/html/2605.16349#bib.bib26))。将此框架应用于预训练的 MoE Transformer——包括 Mistral 和 Qwen——我们揭示了一个一致的结构不对称性:专家表现出强烈的功能去相关(跨专家雅可比对齐度接近零),而它们路由后的表示占据了不同但部分重叠的子空间。这表明功能去相关和表示重叠是共存而非重合的,这提供了证据,与 MoE 层实现输入空间不相交分区的假设不一致。
为了探究这种不对称性背后的机制,我们进行了受控路由实验,发现路由稀疏性似乎是塑造 MoE 几何结构的关键因素。Top-k 路由会导致更尖锐的功能分离和更大的格拉斯曼距离,而全软路由则会产生更纠缠的专家几何结构。这些结果表明,路由锐度调节了特化的程度,为条件计算中专家多样性提供了一种机制解释(Shazeer 等人,2017 (https://arxiv.org/html/2605.16349#bib.bib2);Fedus 等人,2022 (https://arxiv.org/html/2605.16349#bib.bib1))。
综合来看,这些发现支持将 MoE 层视为共享表示流形的软分区222我们非正式地使用“软分区”来表示重叠但不同的子流形,而非严格的数学分区。的观点,其中专家在重叠区域上充当局部去相关算子。除了表征预训练模型之外,我们的框架还为分析条件计算架构中的专家特化提供了一种通用的诊断工具。
#### 这对扩展为何重要。
现代大规模 MoE 模型——包括 Mixtral、DeepSeek-MoE(Dai 等人,2024 (https://arxiv.org/html/2605.16349#bib.bib22))和 Qwen-MoE——其效率源于稀疏路由,但它们的内部特化仍然知之甚少。随着这些架构扩展到数百个专家和数万亿参数,理解专家如何分化、何时崩溃以及路由诱导了什么样的几何结构,对于训练稳定性和推理可靠性都变得至关重要。我们的结果表明,专家特化遵循一种一致的几何模式——功能去相关与重叠的表示子空间配对——并且路由锐度直接控制这种结构。这为在前沿模型规模下设计、扩展和调试 MoE 系统提供了可操作的见解。
### 1.1 贡献
本文做出以下贡献:
- 一个用于分析 MoE 特化的统一几何诊断框架:我们引入了一个统一的雅可比—PCA—格拉斯曼框架,共同表征 MoE 在函数空间(跨专家雅可比对齐)和表示空间(通过 PCA 和格拉斯曼距离路由诱导的子空间结构)的特化。这为研究超出路由统计或激活模式的专家特化提供了系统性的诊断工具。
- 跨专家存在强功能去相关的证据:在预训练的 MoE Transformer(Mistral, Qwen)中,我们表明跨专家雅可比对齐度始终接近零,表明专家实现了局部不同的变换,而非相同函数的冗余变体。
- 发现了重叠但不同的表示子空间:尽管功能去相关,路由后的表示仍占据不同但部分重叠的子空间,这是通过格拉斯曼距离量化的。这表明存在一种结构不对称性,其中 MoE 层似乎对函数的分离开比对输入聚类的分离更强。
- MoE 层作为共享流形软分区的几何解释:这些发现支持将 MoE 层视为共享流形的软分区,其中专家在重叠区域上充当局部去相关算子。
### 1.2 与先前工作的关系
混合专家路由与扩展:早期的 MoE 工作确立了稀疏路由作为扩展神经网络的有效策略(Shazeer 等人,2017 (https://arxiv.org/html/2605.16349#bib.bib2);Lepikhin 等人,2021 (https://arxiv.org/html/2605.16349#bib.bib3);Fedus 等人,2022 (https://arxiv.org/html/2605.16349#bib.bib1))。后续研究改进了路由机制、负载均衡目标和训练稳定性(Eo 等人,2025 (https://arxiv.org/html/2605.16349#bib.bib19);Krajewski 等人,2024 (https://arxiv.org/html/2605.16349#bib.bib4))。这些工作主要分析路由行为和系统级性能,但并未表征预训练 MoE Transformer 内部专家特化的几何结构。
专家特化与冗余:除了路由行为,一些工作检查了专家冗余、合并和剪枝(Li 等人,2025 (https://arxiv.org/html/2605.16349#bib.bib7);Miao 等人,2025 (https://arxiv.org/html/2605.16349#bib.bib8);Yang 等人,2024 (https://arxiv.org/html/2605.16349#bib.bib10);Huang 等人,2025 (https://arxiv.org/html/2605.16349#bib.bib11))。这些研究表明专家可能是部分冗余的,但依赖于基于性能或基于参数的标准。它们没有分析功能几何(雅可比结构)或表示子空间,留下一个开放问题:专家何时代表真正不同的函数,何时反映冗余的参数化?
深度网络中的雅可比分析:与 MoE 特定研究正交,基于雅可比的分析已被用于研究密集网络中的敏感性、曲率和鲁棒性(Dadoun 等人,2025 (https://arxiv.org/html/2605.16349#bib.bib6))。然而,这些分析关注单体架构,并未涉及条件计算。特别是,先前工作没有检查 MoE 层中的跨专家雅可比对齐或功能去相关。
表示几何与子空间结构:作为功能分析的补充,表示空间研究检查 Transformer 中的表示各向异性和层几何(例如,Ethayarajh,2019 (https://arxiv.org/html/2605.16349#bib.bib25);Timkey 和 van Schijndel,2021 (https://arxiv.org/html/2605.16349#bib.bib26))。格拉斯曼距离(Edelman 等人,1998 (https://arxiv.org/html/2605.16349#bib.bib12);Absil 等人,2008 (https://arxiv.org/html/2605.16349#bib.bib13);Golub 和 Van Loan,2013 (https://arxiv.org/html/2605.16349#bib.bib14))已被用于比较多任务或模块化网络中的学习子空间,但并未用于 MoE 路由的上下文中。据我们所知,尚无先前工作联合分析预训练 MoE Transformer 中的雅可比几何和路由表示子空间。
我们工作的背景贡献:先前关于 MoE 模型的工作主要检查了路由行为、负载均衡或专家冗余,但未分析专家特化的几何结构。现有研究未测量跨专家雅可比对齐,未表征路由表示子空间,也未将路由稀疏性与几何分离联系起来。
我们的工作填补了这一空白,提供了对预训练 MoE Transformer 中功能几何(通过专家局部雅可比)和表示几何(通过路由 PCA 和格拉斯曼距离)的联合分析。这使我们的框架成为现有 MoE 研究的几何和机制补充,而非扩展或性能研究。
## 2 方法论
我们通过一个统一的几何框架分析 MoE Transformer 中的专家特化,该框架表征了 (i) 通过专家局部雅可比函数几何和 (ii) 通过路由 PCA 和格拉斯曼子空间距离的表示几何。本节形式化这些探针并描述如何应用于预训练的 MoE 模型。
### 2.1 专家局部雅可比
对于一个 MoE 层,路由权重为 \(g(x) \in \mathbb{R}^E\),并且有 \(E\) 个专家 \(\{f_e\}_{e=1}^E\),层输出为
\[
f_{\text{MoE}}(x) = \sum_{e=1}^E g_e(x) f_e(x). \tag{1}
\]
我们研究专家局部雅可比
\[
J_e(x) = \frac{\partial f_e(x)}{\partial x} \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}}. \tag{2}
\]
它捕捉了专家 \(e\) 独立于路由的局部线性行为。这隔离了功能特化与路由动态。因此,我们的分析表征了固定路由下专家函数的几何结构,而非完整的端到端 MoE 映射。
跨专家雅可比对齐(函数几何)
为了量化专家之间的功能重叠,我们测量其平均专家局部雅可比之间的对齐度。令 \(\bar{J}_e\) 为每个专家在输入分布上的平均雅可比:
\[
\bar{J}_e = \mathbb{E}_{x \sim D}\left[J_e(x)\right]. \tag{3}
\]
在实践中,这个期望通过对数据集求平均来近似:
\[
\bar{J}_e = \frac{1}{N} \sum_{i=1}^N J_e(x_i). \tag{4}
\]
然后我们将每个平均雅可比向量化:
\[
v_e = \operatorname{vect}(\bar{J}_e) \in \mathbb{R}^{d_{\text{out}} \cdot d_{\text{in}}}. \tag{5}
\]
专家 \(e\) 和 \(e'\) 之间的成对功能对齐通过归一化 Frobenius 内积(余弦相似度)测量:
\[
\operatorname{sim}(e, e') = \frac{\langle v_e, v_{e'} \rangle}{\|v_e\|_2 \|v_{e'}\|_2}. \tag{6}
\]
低余弦相似度(\(\operatorname{sim}(e, e') \approx 0\))表明功能去相关。
### 2.2 路由表示几何
给定数据集 \(\{x_i\}_{i=1}^N\),对于每个专家 \(e\),我们收集由路由权重 \(g_e(x) \in [0,1]\) 加权的隐藏状态 \(h(x) \in \mathbb{R}^d\)。这产生一个路由数据集
\[
H_e = \begin{bmatrix} h_e(x_1)^\top \\ h_e(x_2)^\top \\ \vdots \\ h_e(x_N)^\top \end{bmatrix} \in \mathbb{R}^{N \times d}. \tag{7}
\]
其中 \(h_e(x_i) = g_e(x_i) h(x_i) \in \mathbb{R}^d\)。
路由 PCA
我们对 \(H_e\) 执行标准 PCA 以获得主方向和方差谱(特征值 \(\lambda_{1,e} \geq \lambda_{2,e} \geq \cdots \geq \lambda_{d,e} \geq 0\))。解释方差为 \(v_i = \frac{\lambda_i}{\sum_{k=1}^d \lambda_k}\),累计方差为 \(CV_k = \frac{\sum_{i=1}^k \lambda_i}{\sum_{i=1}^d \lambda_i}\)。方差谱和方差集中度量化了表示特化。
通过格拉斯曼(黎曼)测地距离进行子空间比较
令 \(Q_i, Q_j \in \mathbb{R}^{d \times n}\) 表示专家 \(e_i\) 和 \(e_j\) 的前 \(n\) 个 PCA 主子空间,它们的几何分离通过格拉斯曼测地距离测量(Edelman 等人,1998 (https://arxiv.org/html/2605.16349#bib.bib12);Absil 等人,2008 (https://arxiv.org/html/2605.16349#bib.bib13);Golub 和 Van Loan,2013 (https://arxiv.org/html/2605.16349#bib.bib14)):
\[
d_G(e_i, e_j) = \left( \sum_{m=1}^n \theta_m^2 \right)^{1/2}. \tag{8}
\]
其中 \(\theta_m = \arccos(\sigma_m) \in [0, \frac{\pi}{2}]\),且 \(\sigma_1, \sigma_2, ..., \sigma_n\)相似文章
Transformer 中的专家混合模型 (MoEs)
Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。
除了更快之外,MoE 模型的意义何在?
讨论混合专家(MoE)模型在速度之外相对于密集模型的优势,考虑内存限制和扩展限制。
混合专家模型中的涌现式模块化(8 分钟阅读)
Ai2 发布了 EMO,一个 14B 参数的混合专家语言模型,训练用于发展涌现式模块化。它允许在特定任务中使用一小部分专家,同时保持接近全模型性能。
EMO:用于涌现模块化的专家混合模型预训练
EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。
ConMoE: 基于原型重分配的专家池整合实现MoE压缩
ConMoE提出了一种无需训练的混合专家模型压缩框架,通过选择一部分专家作为可重用原型,并确定性地将原始专家调用重新映射到这些原型,从而在不更新权重或微调的情况下减少内存占用。