参数对齐缓解多语言专家语言模型中的灾难性遗忘

arXiv cs.CL 论文

摘要

本文研究了持续预训练过程中多语言专家语言模型面临的灾难性遗忘问题,并提出了五种参数对齐策略(硬层冻结、软正则化、事后权重还原和模型合并),以在32种训练语言中最小化语言习得成本的同时减轻遗忘。

arXiv:2606.00284v1 Announce Type: new 摘要:虽然持续预训练(CPT)是将大型语言模型扩展到新语言的一种实用方法,但在目标数据上进行朴素微调会通过灾难性遗忘侵蚀现有能力。围绕语系组织训练可以减少跨语言干扰,但仅凭这一点无法防止下游任务所需通用知识的遗忘。我们将这种遗忘与多语言CPT中的参数漂移联系起来,并提出了一套五种考虑层的参数对齐策略:硬层冻结、软正则化、事后权重还原和模型合并。我们系统地比较了我们的对齐策略与两种无正则化CPT基线在涵盖五个语系32种训练语言及预留语言上的基准测试,评估四个维度:困惑度、阅读理解、物理推理和翻译。参数对齐在最小化语言习得成本的同时大幅减少了遗忘:层冻结和正则化最能保持理解能力,而事后权重还原在翻译方面收益最大。总之,这些结果描绘了族专家CPT的习得-遗忘前沿,并提供了实用部署指南,将每种策略与其最佳服务的任务相匹配。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:36

# 参数对齐减轻多语言专家语言模型中的灾难性遗忘
来源:https://arxiv.org/html/2606.00284
###### 摘要

虽然持续预训练(CPT)是将大语言模型扩展到新语言的一种实用方法,但针对目标数据的朴素微调会因灾难性遗忘而侵蚀现有能力。按语系组织训练可以减少跨语言干扰,但仅靠它无法防止下游任务所需通用知识的遗忘。我们将这种遗忘与多语言CPT中的参数漂移联系起来,并提出了一套包含五种层感知参数对齐策略的方法:硬性层冻结、软正则化、事后权重恢复和模型合并。我们在涵盖五个语系32种训练语言(外加保留语言)的基准测试上,沿四个评估维度(困惑度、阅读理解、物理推理和翻译)系统地将我们的对齐策略与两个无正则化的CPT基线进行比较。参数对齐在语言习得不损失(或损失极小)的情况下显著减少了遗忘:层冻结和正则化最能保持理解能力,而事后恢复则能带来最强的翻译增益。综合来看,这些结果描绘了语系专家CPT的习得-遗忘前沿,并提供了实用的部署指南,将每种策略与其最佳服务的任务相匹配。

## 1 引言

通过持续预训练(CPT)来适配大语言模型(LLM)是一种实用的解决方案,可以将模型覆盖范围扩展到新语言,同时避免从头开始预训练的巨额计算成本 (Zhao et al., 2025; Dou et al., 2024)。然而,朴素的密集CPT虽然能实现强大的语言习得,但会导致模型原有知识的灾难性遗忘 (McCloskey and Cohen, 1989; Kirkpatrick et al., 2017),尤其是在多语言环境中,多语言诅咒 (Conneau et al., 2020) 迫使人们在语言覆盖率和现有能力保持之间做出权衡。

一个特别有前景的范式是由 x-ELM (Blevins et al., 2024) 引入的,它并行训练独立的双语专家,并根据需要合并它们,从而消除了跨语言干扰,促进了高效、分布式的多语言训练。借鉴针对低资源语系的目标方法 (Downey et al., 2024; Ogueji et al., 2021),我们将这种方法推广到训练**语系**专家,在扩大每个专家语言覆盖范围的同时,限制了专家内部干扰 (Chronopoulou et al., 2023)。然而,尽管灾难性遗忘已在密集多语言模型中得到研究 (Owodunni and Kumar, 2025; Khelli et al., 2025),但如何在语系专家设置中缓解它仍然是一个悬而未决的问题。

遗忘在多语言CPT中仍然是一个明显的问题:无约束的密集CPT导致阅读理解能力下降6.6-12.3个百分点,而原始的语系专家虽然对族内语言的损害较小,但仍可能偏离共享初始化,并降低对相关保留语言和跨族语言的鲁棒性。我们假设这部分源于参数过度偏离基础模型,并实例化了五种**参数对齐策略**,这些策略在约束参数更新或在训练后纠正模型权重方面有所不同(§2.2),每种策略都保留了专家训练的分布式、并行特性。受近期分析(表明Transformer LM的中间层是语言中立知识的主要载体)的启发 (Bandarkar and Peng, 2025; Bandarkar et al., 2025; Wendler et al., 2024),我们的对齐方法是**层感知的**,专注于约束中间层的变化,同时允许初始层和最终层有更多自由度以实现更好的语言习得。

我们在**语系专家CPT**设置中,将这五种对齐策略与两个无正则化的CPT基线进行比较。我们的设置涵盖五个语系(斯拉夫语系、日耳曼语系、印度语系、南岛语系、罗曼语系)和32种训练语言,并使用 Gemma-3-4B (Team et al., 2025) 作为每个专家的共享初始化。我们在 MADLAD-400 (Kudugunta et al., 2023) 上对每个语系持续预训练高达50亿个token,并在四个维度上进行评估:Belebele 阅读理解 (Bandarkar et al., 2024)、Global-PIQA 物理推理 (Chang et al., 2025)、FLORES-200 翻译 (Team et al., 2022) 以及保留语言困惑度(作为语言习得的代理指标),其中包括基准测试覆盖范围内的保留亲属语言。

我们的结果表明,参数对齐在语言习得不被破坏(或影响极小)的情况下,显著减少了对比无正则化基线的遗忘,包括对每个语系内保留语言的泛化能力。哪种策略效果最好取决于具体任务:冻结层权重甚至能比基础模型本身提高理解能力(Belebele 平均 +1.7 个百分点),训练后将某些层恢复为基础权重可以保持强大的翻译质量(相对于基础模型平均 +20.6 ChrF),而 L2 正则化则能持续保持或改善保留语言的困惑度。这些发现,以及一项有针对性的插值分析(显示中间层漂移是理解能力下降的主要驱动因素,而 FLORES 翻译遵循不同的层敏感性特征),共同描绘了多语言专家训练中**语言习得-知识遗忘**之间微妙的权衡关系,并表明对齐策略的选择应该是层感知的,并且由目标应用驱动,而不是由单一的聚合指标驱动。

我们的主要贡献如下:

- • 我们引入了**语系专家CPT**,这是一种以语系为中心的分布式多语言训练范式(§2.1),以及五种**层感知参数对齐策略**,用于缓解该设置中的灾难性遗忘(§2.2)。
- • 我们在五个类型多样的语系和四个评估维度上全面评估了我们的方法,描述了每种策略在**已知语言和保留语言**上的习得-遗忘权衡(§3)。
- • 基于这些分析,我们推导出**实用的部署指南**,将每种对齐策略与其最佳服务的设置联系起来(§4.2)。

## 2 参数对齐的语系专家

参见图说明
图1:左:参数对齐策略概览。层感知方法正则化或替换中间层参数,同时允许其他层学习特定语言信息;Expert Soup 对基线专家进行均匀平均。右:下游结果总结;参数对齐改善了阅读理解保持能力,而 Dense-Reverted 则保持了强大的翻译质量。

我们通过两个关键策略来解决多语言持续预训练中的灾难性遗忘。首先,我们提出**语系专家CPT**,一种按**语系**组织数据的训练范式,以实现有针对性的分布式专家训练(§2.1),从而能够灵活扩展到新的设置。然而,如果没有进一步的干预,语系专家可能会遭受跨语言遗忘和与共享初始化的参数偏离,从而降低其多语言鲁棒性,并使事后组合变得不那么可预测。因此,我们实例化并基准测试了五种**层感知参数对齐方法**,这些方法要么在训练过程中正则化参数更新,要么在训练后纠正模型权重(§2.2),同时与两个基线(§2.3)进行比较。总体而言,带有参数对齐的语系专家CPT保留了独立专家训练的效率和灵活性——每个专家可以并行训练,并且可以根据需要添加新的语系——同时恢复了无约束专家训练所牺牲的多语言泛化能力。

### 2.1 语系分组

多语言专家训练中的一个重要设计决策是如何跨模型对语言进行分组。我们基于 x-ELM (Blevins et al., 2024),它根据句法相似性对语言进行分组;然而,该指标未被消融,并且如果用于分组过于不相似的语言(例如斯瓦希里语和越南语),其设置仍会损害性能。

因此,我们按照 Chronopoulou 等人 (2023) 的做法,按语系组织专家,他们表明族级分组可以减轻语言间干扰,并促进对未见过的低资源语言的泛化。我们创建了对应于印度语系、南岛语系、日耳曼语系、罗曼语系和斯拉夫语系的五个专家(表1),每个专家都在高资源、中资源和低资源语言的混合体上进行训练。我们还指定了保留的亲属语言来探究族内泛化能力(§3.5)。

### 2.2 参数对齐策略

虽然每个语系专家都是从共享初始化微调而来,但无约束的训练可能会使参数远离原始模型,从而抹去先验知识。我们的对齐策略旨在限制这种遗忘,同时保留每个专家习得新语言的能力,并保持原始专家训练的分布式效率。具体来说,受证据(Transformer LM的中间层编码语言中立知识,而外层处理特定语言处理,例如 Wendler 等人,2024)的启发,我们的策略主要约束模型的中间层。图1总结了对齐策略和基线(§2.3):

**训练后恢复(Train-then-Revert)**:在训练了密集模型或语系专家后,我们将模型的**中间层**权重重置为基础模型的预训练权重,同时保留前 \(m\) 层和后 \(n\) 层的更新权重。事后恢复中间层可以恢复通用能力,而无需任何重新训练。该策略同时应用于密集和专家设置,产生了两个变体:**Dense-Reverted** 和 **Expert-Reverted**。

**层冻结(Layer Freezing)**:该策略不是在训练后纠正遗忘,而是在**训练期间**将层边界作为硬性约束强制执行:中间层被冻结,而前 \(m\) 层和后 \(n\) 层接收梯度更新。这防止了中间层漂移,代价是模型吸收新语言信息的能力下降。

**层范围 L2(Layer-Range L2)**:我们应用 **L2 起点正则化** (L2-SP; Li et al. 2018),经 Kumar 等人 (2024) 改编,采用依赖于层的惩罚强度,在训练期间提供层冻结的软性替代方案。该策略将 \(\mathcal{L}_{\text{reg}}=\sum_{l}\lambda_{l}\|\theta_{l}-\theta_{l}^{0}\|_{2}^{2}\) 添加到学习目标中,其中 \(\theta_{l}^{0}\) 是基础模型的权重,\(\lambda_{l}\) 对中间层设置较高(\(\lambda_{\text{mid}}=0.05\)),对外层设置较低(\(\lambda_{\text{first}}=\lambda_{\text{last}}=0.001\))。因此,中间层被强烈锚定到预训练权重,而外层几乎不受约束。

**专家汤(Expert Soup)**:在训练了五个原始语系专家后,我们通过**均匀平均**它们的权重将它们合并为一个统一的模型:\(\theta_{\text{soup}}=\frac{1}{5}\sum_{f=1}^{5}\theta_{f}\),其中 \(\theta_{f}\) 是语系 \(f\) 的专家权重。由于所有五个专家都是从同一个基础检查点开始微调,并且步数相对较少,因此在权重平均的线性模式连通性直觉下 (Wortsman et al., 2022),均匀平均是一个合理的模型汤基线。

表1:语言族系、它们的训练语言以及用于评估族内泛化能力的保留语言。
### 2.3 基线

我们将我们的参数对齐策略与两个多语言CPT基线进行比较:

**密集CPT(Dense CPT)**:训练一个单一模型,联合处理所有考虑的语言,没有任何遗忘缓解或基于语系的数据划分。

**语系专家(Family Expert)**:受 Blevins 等人 (2024) 的启发,我们将 X-ELM 框架扩展到语系,为每个语系训练一个专家,使用语言相关的数据,没有正则化或事后权重纠正。

## 3 实验

### 3.1 实验设置

**预训练语料**:我们从 MADLAD-400 (Kudugunta et al., 2023) 中采样训练数据,这是一个大规模的多语言网络语料库。为了在不同规模的语系之间进行公平比较,我们为每个语系固定了一个 **50亿 token** 的预算(总共250亿 token),并将每个语系的预算平均分配给它包含的语言。语言聚类基于语系关系进行分组¹。文档使用 Gemma-3 分词器 (Team et al., 2025) 进行分词,最大序列长度为2048个 token,使用 95%/5% 的训练/验证分割用于早停和每种语言的困惑度评估。

**基础模型**:所有实验使用 **gemma-3-4b-pt** (Team et al., 2025),一个具有34层的40亿参数纯解码器 Transformer。由于发布的检查点是多模态的,我们在任何CPT之前剥离视觉子网络,确保所有能力变化仅归因于CPT。所有运行使用 bfloat16 精度和梯度检查点。

对于所有层感知策略,我们指定前 \(m=9\) 层和后 \(n=6\) 层为侧翼(可训练)层,中间的 19 层为约束区域,这是受证据(中间层编码语言中立知识而外层处理语言特定处理)的启发 (Bandarkar et al., 2025; Bandarkar and Peng, 2025; Wendler et al., 2024)。我们跨所有语系和策略保持此层范围固定,然后在§4中通过插值分析评估其任务特定后果。

**训练**:密集CPT在所有32种训练语言上联合训练,最多进行50,000步。所有按语系策略的训练最多达到约

相似文章

面向大型语言模型归因引导的持续学习

arXiv cs.LG

本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。

大语言模型顺序后训练中的表征坍塌

arXiv cs.LG

本文研究了大型语言模型在顺序后训练中的表征坍塌现象,表明重复的适应阶段会压缩内部表征,降低可塑性和域外泛化能力。作者提出了轻量级干预措施,在不牺牲行为增益的前提下保留未来的可学习性。

方向对齐缓解语言模型强化学习中的奖励作弊

Hugging Face Daily Papers

本文通过更新几何研究语言模型强化学习中的奖励作弊,识别出优化漂移是一个关键因素。它提出可信方向投影,将梯度约束在干净的参考子空间内,从而延迟捷径利用并保持任务性能。