SARA: 通过语义锚定路由对齐释放混合专家模型中的多语言知识
摘要
本文提出了SARA框架,该框架利用Jensen-Shannon散度对齐多语言输入的路由分布,以改善稀疏混合专家模型中低资源语言的专家共享。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct上的实验显示在多语言基准上有改进。
arXiv:2606.25821v1 公告类型:新
摘要:稀疏混合专家(MoE)架构已成为越来越有影响力的范式,因为它在参数可扩展性和计算效率之间提供了战略平衡。然而,低资源语言由于缺乏高质量训练数据,其令牌往往被路由到与高资源输入主要激活不同的专家,从而限制了跨语言专家共享。这种跨语言路由差异进而阻碍了它们在多语言环境中的有效性。为了解决这个问题,我们提出了SARA(语义锚定路由对齐),这是一个旨在将高资源语言的专业能力作为锚点迁移到低资源语言的框架。SARA通过使用对称的Jensen-Shannon散度约束,明确地将多语言输入的路由分布与高资源语义锚点对齐。与传统的在输出logits上操作的蒸馏方法不同,SARA直接对齐MoE层的内部路由分布,促进跨语言专家选择的机制一致性。我们在2个LLM上进行了实验,涵盖5种低资源语言和3个基准。实验结果表明,SARA优于标准指令微调,例如在Global-MMLU上,Qwen3-30B-A3B提升+0.8%,Phi-3.5-MoE-instruct提升+1.2%。进一步分析表明,SARA有效解决了低资源语言的性能瓶颈,为增强稀疏架构中的多语言能力提供了一条可扩展的路径。
查看缓存全文
缓存时间: 2026/06/25 05:13
# SARA: 通过语义锚定路由对齐解锁混合专家模型中的多语言知识
来源: https://arxiv.org/html/2606.25821
田宇东¹,杨阳刘²,蒋舟¹,新伟吴¹,小虎赵²,浩王²,恒刘²,林龙徐²,龙跃王²,伟华罗²,少林朱¹¹通讯作者,德义熊¹
¹天津大学计算机科学与技术学院TJUNLP实验室, 中国 ²阿里巴巴集团, 中国 \{tydong, zhushaolin, dyxiong\}@tju\.edu\.cn
###### 摘要
稀疏混合专家(MoE)架构作为一种在参数可扩展性与计算效率之间实现战略平衡的范式,其影响力日益增强。然而,低资源语言——由于缺乏高质量训练数据——其词元往往被路由到与高资源输入主要激活的专家不同的专家,从而限制了跨语言专家共享。这种跨语言路由差异进而阻碍了它们在多语言场景中的有效性。为解决此问题,我们提出 **SARA** (语义锚定路由对齐),这是一个旨在将高资源语言作为锚点向低资源语言迁移其专业能力的框架。SARA利用对称的Jensen-Shannon(JS)散度约束,明确地将多语言输入的路由分布与高资源语义锚点对齐。不同于在输出logits上进行操作的传统蒸馏方法,SARA直接对齐MoE层的内部路由分布,在专家选择上促进跨语言的机制一致性。我们在2个大语言模型、5种低资源语言和3个基准上进行了实验。实验结果表明,SARA优于标准指令微调(例如,在Global-MMLU基准上,Qwen3-30B-A3B提升+0.8%,Phi-3.5-MoE-instruct提升+1.2%)。进一步分析表明,SARA有效解决了低资源语言的性能瓶颈,为增强稀疏架构中的多语言能力提供了一条可扩展的路径。我们的代码可在 https://github\.com/iMoriton/sara 获取。
---
SARA: 通过语义锚定路由对齐解锁混合专家模型中的多语言知识
田宇东¹, 杨阳刘², 蒋舟¹, 新伟吴¹, 小虎赵², 浩王², 恒刘², 林龙徐², 龙跃王², 伟华罗², 少林朱¹¹通讯作者, 德义熊¹
¹天津大学计算机科学与技术学院TJUNLP实验室, 中国
²阿里巴巴集团, 中国
\{tydong, zhushaolin, dyxiong\}@tju\.edu\.cn
## 1 引言
大语言模型的范式已转向稀疏MoE架构,近期一些开放权重的里程碑式模型如Mixtral (Jiang et al., 2024)、DeepSeek-V3 (Liu et al., 2024)、DeepSeek-R1 (Guo et al., 2025a) 和 Qwen3 (Yang et al., 2025) 均为此例。通过将模型容量与计算成本解耦,MoE模型实现了卓越的可扩展性,并允许不同的参数子集或专家专注于特定领域 (Dai et al., 2024)。然而,MoE的有效性主要依赖于路由器正确地将词元分派给最胜任的专家。尽管这些模型在其主导训练语言(如英语)上表现出非凡的能力,但将其专业能力扩展到更广泛的低资源语言仍然是一个严峻的挑战 (Imani et al., 2023; Etxaniz et al., 2024; Zhu et al., 2024b)。
对MoE内部机制的实证分析揭示了一个根本瓶颈:跨语言路由分歧——不同语言中语义等价的输入会触发不同的专家激活路径 (Bandarkar et al., 2025)。近期的研究识别出超级专家的存在 (Su et al., 2025),即编码数学推理等复杂领域知识的稀疏参数子集。然而,这些组件主要针对高资源语言的丰富数据模式进行优化。当模型处理低资源语言中语义等价的输入时,路由网络往往难以泛化。由于表层词汇差异,路由器无法将词元分派给这些高能力专家,而是将其导向通用或无关的路径 (Chi et al., 2022)。结果,模型可能拥有必要的参数化知识,但缺乏激活这些知识以处理低资源语言输入所需的路由逻辑。这种路由错位不仅会降低低资源语言中的推理性能,还会破坏跨语言内部表示的一致性。正如 Bandarkar et al. (2025) 所观察到的,这种不一致性导致性能受限,低资源输入的隐藏状态因专家组成不同而与高资源对应输入产生偏离。
近期的评估强调,现有的大语言模型在多样且细微的多语言场景中仍会遭遇显著的性能瓶颈 (Zhang et al., 2026; Chen et al., 2025)。先前增强大语言模型多语言能力的努力主要集中在持续预训练或指令微调上 (Li et al., 2025c; Zhu et al., 2024a; Li et al., 2025a)。虽然近期工作探索了专家剪枝 (Zhang et al., 2025b) 或负载均衡优化 (Guo et al., 2025b) 以提高效率,但它们主要优化的是路由机制以提升计算吞吐量,而非跨语言语义一致性。最近的工作 (Zhou et al., 2025; Dong et al., 2025; Zhu et al., 2025) 通过路由先验或参数检测来调节更新,揭示了无约束训练反而会导致灾难性遗忘。因此,核心问题仍未解决:如何促使语义等价的输入跨语言触发相似的专家激活路径?
为弥合这一差距,我们提出 **语义锚定路由对齐** (SARA),一个新颖且基于统计的框架,旨在跨语言对齐专家激活模式。我们的方法利用高资源语言稳健的路由分布作为语义锚点,以纠正低资源场景中观察到的路由行为。与针对输出logits的传统蒸馏不同,SARA明确最小化路由概率空间中的分布差异。这促使路由逻辑对输入语言保持不变,从而有效地将模型的能力转移到低资源语言。我们通过一个多阶段流程实现这一点:(1) 构建语义对齐的平行指令语料库;(2) 从主导语言中提取可靠的路由先验;(3) 通过一个对路由偏离进行惩罚的Jensen-Shannon (JS) 散度约束进行微调。
我们的贡献有三点:
(i) 我们提出了SARA框架,该框架超越了传统的词元级蒸馏,将高资源语言的路由概率分布视为语义锚点。
(ii) 通过在中间层应用对称的JS散度约束,SARA有效利用模型现有的高资源知识,通过纠正低资源语言的专家激活路径,使其获得高资源推理能力。
(iii) 我们在2个大语言模型和3个具有挑战性的基准上进行了全面评估(例如,在Global-MMLU基准上,Qwen3-30B-A3B提升+0.8%,Phi-3.5-MoE-instruct提升+1.2%)。我们的结果优于标准指令微调,为增强稀疏架构中的多语言能力提供了一条可扩展的路径。
请参阅图注
图1:提出的SARA框架示意图。该框架包含三个阶段:(1) 通过GPT-5 mini翻译生成语义对齐的平行数据;(2) 对高资源输入进行前向传播,提取密集的路由概率分布作为目标先验;(3) 使用复合目标对模型进行微调。这最小化了多语言路由分布与锚点路由分布之间的Jensen-Shannon散度,以及交叉熵和负载均衡损失,以促进跨语言专家一致性。
## 2 相关工作
##### 多语言对齐。
大语言模型中跨语言对齐的研究主要集中在指令微调和训练数据的策略性筛选上。近期研究表明,监督微调 (SFT) 数据的具体构成以及平行指令语料库的整合 (Penedo et al., 2025) 对于增强跨语言的功能一致性至关重要。Lingualift (Zhang et al., 2024) 等框架引入了有效的两阶段指令微调策略,专门用于提升低资源任务中的性能。Aya (Üstün et al., 2024) 和 JetMoE (Shen et al., 2024) 进一步强调,从教师模型中蒸馏低资源语言知识可以弥合学生模型在低资源语言上的性能差距。此外,将模型适应严重缺乏代表性的语言突显了大规模、特定语言数据筛选结合持续预训练的关键必要性 (Pan et al., 2025)。尽管这些方法展现了显著的改进,但它们本质上是数据驱动的,主要依赖于高质量平行指令和专家筛选的多语言语料库的可用性。
##### 面向效率的MoE架构。
MoE的最新进展集中于通过多样化的初始化和混合设计来提高专用参数子集的质量。SCoMoE (Zeng and Xiong, 2023) 通过重构通信模式来缓解昂贵的全对全操作,从而优化MoE训练效率。Jamba (Lieber et al., 2024) 和 ERNIE 4.5 (Baidu-ERNIE-Team, 2025) 探索了架构融合和异构扩展以优化推理效率。同时,对动态路由的研究试图根据任务难度细化专家选择密度 (Huang et al., 2024; Yang et al., 2024),并通过专家剪枝 (Lu et al., 2024) 减少计算冗余。然而,这些优化主要针对通用效率设计,缺乏针对多语言任务的专门机制。
##### 路由分布调整。
MoE多语言能力的一个瓶颈是跨语言路由分歧 (Bandarkar et al., 2025)。不同语言中语义等价的输入往往被路由到不同的专家。这种现象破坏了跨语言的表示一致性和泛化能力。尽管现有的以路由为中心的框架如 HyperMoE (Zhao et al., 2024) 和 RoMA (Li et al., 2025b) 已经探索了路由分布的调整,但它们的目标主要局限于任务特定的知识迁移或域内泛化,而非跨语言语义对齐。因此,它们并未解决从高资源到低资源语言环境时出现的路由不匹配问题。我们的SARA专门针对多语言一致性实现了内部路由蒸馏。通过利用模型自身在高资源语言上的路由分布,SARA促进了跨路由分布的机制一致性。
## 3 提出的框架
为了解决MoE中因路由错位而产生的瓶颈,我们提出了SARA框架。其核心思想是将高资源语言的专家激活模式作为语义处理的真实信号。如图1所示,SARA首先构建严格语义对齐的平行数据以确保内容一致性。然后我们执行离线前向传播,提取高资源语言的路由分布作为先验。最后,应用分布对齐目标,将多语言输入的路由分布拉向它们的锚点文本的路由分布。这促使语义等价的输入在路由层面引发相似的专家激活分布,从而弥合跨语言鸿沟。
### 3.1 语义锚定数据构建
SARA的目标是将低资源语言的路由逻辑与高资源锚点对齐。为了为此锚定过程建立可靠的语义基础,我们构建了一个平行指令数据集,捕获模型在高资源上下文中的内在推理逻辑:
- **基于正确性的筛选**:我们首先在高资源训练集(例如英语或中文)上执行推理。如附录A.7(引用A.6)所述,我们要求模型将最终答案或选项包含在“\boxed{}”内。为了客观验证结果,我们使用正则表达式 `r"\\backslashboxed{(.*?)}"` 从模型输出中提取所有格式化内容。我们将结果列表中的最后一个元素指定为预测答案。仅保留模型生成正确答案的样本。这些经过验证的样本作为提取内部路由模式的标准。
- **平行语料合成**:对于每个经过验证的样本,我们将整个交互(包括提示和逻辑推理步骤)翻译成目标低资源语言。这确保了低资源样本在语义上与高资源锚点样本完全相同。通过保持严格的内容一致性,路由的差异主要可归因于语言变化,从而为对齐提供了干净的监督信号。
### 3.2 捕获目标路由先验
我们从高资源数据中提取路由分布,以获得跨语言对齐的最优路由策略。我们对提示及其已验证响应的拼接序列执行前向传播,以捕获完整的推理过程。我们采用标准的稀疏MoE架构。给定一个词元表示 \( \mathbf{h} \in \mathbb{R}^d \)(其中 \( d \) 是隐藏维度),我们假设每个MoE层包含 \( N \) 个专家。路由分布 \( \mathbf{p} \in \mathbb{R}^N \) 由门控网络 \( G \) 生成,可表示为:
\[
\mathbf{p} = G(\mathbf{h})
\]
其中 \( \mathbf{p}_i \) 表示选择第 \( i \) 个专家的概率。在稀疏MoE中,实际上仅激活具有最大概率的 Top-K 个专家。然而,我们可能提取完整的分布 \( \mathbf{p} \) 作为密集先验。对于每个经过验证的高资源样本,我们记录所有MoE层的路由分布 \( \{ \mathbf{p}^{(l)} \}_{l=1}^L \),其中 \( L \) 是MoE层的数量。这些分布构成了我们跨语言对齐的目标先验。
### 3.3 路由分布对齐
一旦我们为目标高资源语言获得了路由先验,我们就调整低资源语言的路由分布以匹配它们。给定一个包含低资源语言输入 \( x_{\text{low}} \) 及其对应高资源锚点 \( x_{\text{anchor}} \) 的平行对,我们分别通过模型前向传播以获取路由分布 \( \mathbf{p}_{\text{low}}^{(l)} \) 和 \( \mathbf{p}_{\text{anchor}}^{(l)} \)。然后,我们最小化每一层 \( l \) 上的Jensen-Shannon散度 \( D_{JS} \):
\[
\mathcal{L}_{\text{align}} = \frac{1}{L} \sum_{l=1}^L D_{JS}(\mathbf{p}_{\text{anchor}}^{(l)} \parallel \mathbf{p}_{\text{low}}^{(l)})
\]
其中 \( D_{JS} \) 是一个对称度量,它惩罚路由分布之间的偏离。除了对齐损失,我们还保留了标准的语言模型损失 \( \mathcal{L}_{\text{LM}} \)(交叉熵)和可选的负载均衡损失 \( \mathcal{L}_{\text{bal}} \) 以防止专家崩塌。总训练目标为:
\[
\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{LM}} + \alpha \mathcal{L}_{\text{align}} + \beta \mathcal{L}_{\text{bal}}
\]
其中 \( \alpha \) 和 \( \beta \) 是平衡各项权重的超参数。通过直接优化路由分布,SARA促使低资源语言输入调用与高资源输入类似的专家路径,从而解锁MoE模型中固有的多语言知识。相似文章
SAMoRA:面向任务自适应学习的语义感知 LoRA 专家混合
SAMoRA 通过引入语义感知路由器和任务自适应缩放,在 MoE-LoRA 微调中提升专家专业化与动态加权,在多任务基准上显著优于现有方法。
面向混合专家模型路由一致量化的价值与结构对齐
本文提出VSRAQ,一种针对混合专家模型的训练后量化方法,通过对齐路由相关logits和专家排序来保持专家选择行为,从而减少量化引起的性能下降,且无推理开销。
混合专家语言模型中机器遗忘的路由感知专家校准
论文提出TRACE,一种用于混合专家语言模型中机器遗忘的方法,通过重新加权词元级保留损失来校准保留正则化,以解决遗忘-保留路由不匹配问题。实验表明,在多个MoE大语言模型上改善了遗忘-效用权衡。
Mix-MoE:通过混合专家混合提升大语言模型的多语言机器翻译
Mix-MoE提出了一种混合专家混合框架,通过专门的专家组和傅里叶变换增强的路由机制来缓解多语言机器翻译中的参数干扰,相比基线方法取得了显著改进。
多语言设计导向的调控:多语言稀疏自编码器与原则性层选择
本文介绍了一种基于原则的多语言语言调控方法,该方法使用在多语言数据上训练的稀疏自编码器(SAEs)以及一种基于多语言对齐与语言可分性交集的新型层选择规则,并在LLaMA-3.1-8B和Gemma-2-9B上针对机器翻译和跨语言摘要进行了评估。