混合专家语言模型中机器遗忘的路由感知专家校准

arXiv cs.CL 论文

摘要

论文提出TRACE,一种用于混合专家语言模型中机器遗忘的方法,通过重新加权词元级保留损失来校准保留正则化,以解决遗忘-保留路由不匹配问题。实验表明,在多个MoE大语言模型上改善了遗忘-效用权衡。

arXiv:2606.10338v1 公告类型:新 摘要:机器遗忘对于大语言模型变得越来越重要,然而混合专家(MoE)架构中的遗忘仍未被充分探索。与密集模型不同,MoE架构在每一层使用路由器将每个词元分配给稀疏的专家子集。在这项工作中,我们观察到遗忘数据往往不成比例地激活一小部分专家,而这些专家从保留数据中可能获得非常弱的激活。这种遗忘-保留路由不匹配可能导致在遗忘过程中对遗忘关键专家的正则化不足。为了解决这个问题,我们提出**TRACE**(目标路由感知专家校准),用于MoE遗忘。TRACE首先从离线激活统计中检测遗忘关键专家,然后通过重新加权词元级保留损失来校准保留正则化,使得每个选定专家的保留侧激活频率更好地匹配其遗忘侧激活频率。在多个MoE大语言模型上的WMDP和MUSE-BOOKS实验表明,TRACE一致地改善了遗忘-效用权衡,在可比的遗忘质量下,相对于最强基线取得了9%的相对效用改进,并且在MUSE-BOOKS的四个指标中有三个取得了最佳性能。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:10

# 面向混合专家语言模型中机器遗忘的路由感知专家校准
来源: https://arxiv.org/html/2606.10338
谢婧怡¹, 林怡君¹, 熊银江⁴, 张智坤³, 李赛²\*,
¹中国人民大学, ²清华大学, ³浙江大学, ⁴Lightstandard
通讯作者: sailimailto:[email protected] (https://arxiv.org/html/2606.10338v1/mailto:[email protected])@mail.tsinghua.edu.cn

###### 摘要

机器遗忘在大语言模型中日益重要,然而混合专家(MoE)架构中的遗忘问题仍探索不足。与稠密模型不同,MoE 架构在每一层使用路由器将每个词元分配给稀疏的专家子集。在这项工作中,我们观察到遗忘数据往往不成比例地激活一小部分专家,而这些专家可能从保留数据中获得的激活非常弱。这种遗忘-保留路由不匹配会导致遗忘关键专家在遗忘过程中正则化不足。为了解决这个问题,我们提出了 **TRACE**,一种面向 MoE 遗忘的**目标路由感知专家校准**技术。TRACE 首先从离线激活统计中检测遗忘关键专家,然后通过对词元级保留损失进行重新加权来校准保留正则化,使得每个选定专家的保留侧激活频率更好地匹配其遗忘侧对应频率。在多个 MoE 大语言模型上对 WMDP 和 MUSE-BOOKS 的实验表明,TRACE 一致地改善了遗忘-效用的权衡,在可比的遗忘质量下,相对于最强基线实现了 9% 的相对效用提升,并在 MUSE-BOOKS 的四个指标中的三个上取得了最佳性能。

---

# 面向混合专家语言模型中机器遗忘的路由感知专家校准

谢婧怡¹, 林怡君¹, 熊银江⁴, 张智坤³, 李赛²\*
¹中国人民大学, ²清华大学, ³浙江大学, ⁴Lightstandard
通讯作者: sailimailto:[email protected] (https://arxiv.org/html/2606.10338v1/mailto:[email protected])@mail.tsinghua.edu.cn

## 1 引言

大语言模型(LLMs)取得了显著成功,并迅速部署于各类应用中 (Yang et al.\2025b (https://arxiv.org/html/2606.10338#bib.bib1); DeepSeek-AI et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib2); OpenAI et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib3))。然而,LLMs 可能会从大规模预训练语料中记忆有害 (Li et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib4))、受版权保护 (Eldan and Russinovich 2023 (https://arxiv.org/html/2606.10338#bib.bib5))、私密 (Jin et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib6); Maini et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib7)) 或其他不期望的信息,这使得在数据保护法规(如欧盟《通用数据保护条例》GDPR (Voigt and Von dem Bussche 2017 (https://arxiv.org/html/2606.10338#bib.bib10)) 和美国《加州消费者隐私法案》CCPA (Bukaty 2019 (https://arxiv.org/html/2606.10338#bib.bib11)))下,选择性数据移除变得越来越重要。由于从头重新训练 LLMs 在计算上不可行,机器遗忘作为一种有前途的范式应运而生,旨在消除特定样本的影响,同时保留模型效用,从而支持可信和合规的 AI 系统 (Liu et al.\2024b (https://arxiv.org/html/2606.10338#bib.bib8); Geng et al. \ (2025 (https://arxiv.org/html/2606.10338#bib.bib9))。

当前的遗忘方法通常通过最大化待移除数据上的损失,并结合对辅助保留数据的正则化,来平衡遗忘效果和一般效用的保持 (Yao et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib25); Zhang et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib24); Liu et al.\2022 (https://arxiv.org/html/2606.10338#bib.bib26); Fan et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib33))。然而,这些方法大多是在稠密 Transformer 模型 (Vaswani et al.\2017 (https://arxiv.org/html/2606.10338#bib.bib50)) 上设计和评估的,很少考虑混合专家(MoE)LLMs (Mu and Lin 2026 (https://arxiv.org/html/2606.10338#bib.bib12); DeepSeek-AI et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib2); Jiang et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib20); Lepikhin et al.\2020 (https://arxiv.org/html/2606.10338#bib.bib32); Fedus et al.\2022 (https://arxiv.org/html/2606.10338#bib.bib30))。与均匀激活所有参数的稠密模型不同,MoE LLMs 使用路由器将每个词元分配给稀疏的专家子集。这种稀疏的、依赖输入的计算方式要求我们超越稠密模型设置,更仔细地审视遗忘问题。

为此,最近的一项研究已开始利用这种结构进行专家定位的遗忘,例如选择与遗忘数据具有最高平均亲和度分数的专家 (Zhuang et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib13))。然而,当遗忘相关知识分布在多个专家上时,依赖单个选定的专家无法提供足够的遗忘能力。事实上,广泛采用的 MoE 模型,包括 DeepSeek 和 Qwen 系列,都一致地表现出遗忘数据在多个专家上的分布式激活,如图 1 (https://arxiv.org/html/2606.10338#S1.F1) 所示。更重要的是,我们观察到被遗忘数据高度激活的专家往往从保留数据中获得的激活相对较低,特别是当保留语料是通用的且与遗忘数据分布在分布上相距甚远时。我们将这种现象称为**遗忘-保留路由不匹配**。这种不匹配之所以重要,是因为保留数据只有在保留词元被路由到该专家时才对专家进行正则化。我们基于专家层面的梯度分解表明,专家接收到的保留梯度隐式地受保留词元激活该专家的频率影响。因此,一个具有高遗忘激活但低保留激活的遗忘关键专家会承受强大的遗忘压力,同时获得微弱的保留保护。这就造成了专家层面的正则化不匹配,而简单地增加全局保留系数无法完全解决这一问题。

为了应对这一挑战,我们提出了 **TRACE**,一种面向 MoE 遗忘的**目标路由感知专家校准**技术 (图 2 (https://arxiv.org/html/2606.10338#S1.F2))。TRACE 首先利用路由激活统计识别遗忘关键专家,然后对词元级保留损失进行重新加权,使得在选定专家上,保留侧激活频率与遗忘侧激活频率更好地匹配。通过在专家层面校准保留正则化,TRACE 避免了统一增加保留系数,而是将保留监督重新分配至最暴露于遗忘目标的专家。

我们的贡献总结如下:

- • 我们识别了 MoE 遗忘中的遗忘-保留路由不匹配,并展示了它导致的专家层面正则化不匹配,这种不匹配无法通过单一的全局保留系数完全纠正。
- • 我们提出了 TRACE,一个两阶段框架,结合了遗忘关键专家选择和路由感知的保留重新加权。
- • 我们在多个 MoE LLMs 上对 WMDP 和 MUSE-BOOKS 的实证表明,TRACE 相对于基于梯度和专家选择基线改善了遗忘-效用权衡。具体来说,在 WMDP 基准上,TRACE 在保持可比遗忘质量的同时,较最强基线实现了 9% 的相对效用提升。在 MUSE-BOOKS 上,TRACE 在 VerbMem、遗忘侧 KnowMem 和保留侧 KnowMem 得分上优于基线。

![请参考说明](a) DeepSeek-V2-Lite-Chat.
![请参考说明](b) Qwen1.5-MoE-A2.7B-Chat.

图 1: MoE 遗忘中的路由引起的缩放不匹配。不同 MoE 模型在遗忘数据集 WMDP 和保留数据集 WikiText 上的专家激活可视化,x 轴为遗忘数据激活频率,y 轴为保留数据激活频率。\(p_{j,l}^f\) 和 \(p_{j,l}^r\) 的定义见 (3)。

![请参考说明]图 2: TRACE 的动机。左:在标准 MoE 遗忘中,遗忘数据和保留数据可能激活不同的专家,导致路由引起的缩放不匹配。右:TRACE 通过选择遗忘关键专家进行遗忘,并对保留词元重新加权以使选定专家上的保留侧激活频率与遗忘侧激活频率对齐来解决此问题。

## 2 相关工作

#### LLM 遗忘。

越来越多的研究关注如何制定、评估和提升 LLMs 的遗忘性能 (Geng et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib9); Liu et al.\2024b (https://arxiv.org/html/2606.10338#bib.bib8); Zhang et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib24); Fan et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib33); Jia et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib34); Lu et al.\2022 (https://arxiv.org/html/2606.10338#bib.bib35); Liu et al.\2024a (https://arxiv.org/html/2606.10338#bib.bib36); Wang et al.\2023 (https://arxiv.org/html/2606.10338#bib.bib37); Fang et al.\2026 (https://arxiv.org/html/2606.10338#bib.bib38); Barbulescu and Triantafillou 2024 (https://arxiv.org/html/2606.10338#bib.bib39); Chen and Yang 2023 (https://arxiv.org/html/2606.10338#bib.bib40))。最近的基准测试针对不同的移除目标实例化了 LLM 遗忘,包括隐私信息 (Maini et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib7); Jin et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib6))、受版权保护或记忆的内容 (Shi et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib18); Eldan and Russinovich 2023 (https://arxiv.org/html/2606.10338#bib.bib5)) 以及危险领域知识 (Li et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib4))。这些基准测试不仅评估遗忘的有效性,还评估效用的保持。现有方法通常通过不同机制来解决这些目标,包括基于梯度的优化 (Zhang et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib24); Fan et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib33); Yu et al.\2023 (https://arxiv.org/html/2606.10338#bib.bib41); Zhang et al.\2023 (https://arxiv.org/html/2606.10338#bib.bib42); Rafailov et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib43))、基于定位的编辑 (Jia et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib34); Fang et al.\2026 (https://arxiv.org/html/2606.10338#bib.bib38); Patil et al.\2023 (https://arxiv.org/html/2606.10338#bib.bib46); Meng et al.\2023 (https://arxiv.org/html/2606.10338#bib.bib44); Wu et al.\2023 (https://arxiv.org/html/2606.10338#bib.bib45)) 以及基于输入的方法 (Liu et al.\2024a (https://arxiv.org/html/2606.10338#bib.bib36); Madaan et al.\2023 (https://arxiv.org/html/2606.10338#bib.bib47); Pawelczyk et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib48); Muresanu et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib49))。具体来说,基于梯度的方法直接通过遗忘和保留目标优化模型参数;基于定位的方法首先识别与目标知识相关的模型组件,然后进行遗忘;而基于输入的方法则通过输入上下文修改模型行为。然而,它们大多针对稠密 Transformer 模型设计和评估,未考虑稀疏的 MoE LLMs。

#### MoE LLMs 和 MoE 遗忘。

MoE LLMs 已成为扩展大语言模型的重要架构,通过增加模型容量而不成比例地增加推理成本 (DeepSeek-AI et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib23),2025 (https://arxiv.org/html/2606.10338#bib.bib2); Du et al.\2022 (https://arxiv.org/html/2606.10338#bib.bib31); Jiang et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib20); Fedus et al.\2022 (https://arxiv.org/html/2606.10338#bib.bib30); Lepikhin et al.\2020 (https://arxiv.org/html/2606.10338#bib.bib32))。与对于每个输入激活相同参数集的稠密模型不同,MoE LLMs 使用路由器将每个词元分配给稀疏的专家子集。最近的工作已开始利用 MoE LLMs 的模块化结构来进行遗忘。SEUF (Zhuang et al.\2025 (https://arxiv.org/html/2606.10338#bib.bib13)) 选择与遗忘数据具有最大亲和度分数的专家,并更新所选专家及其对应的路由器。ESFT (Wang et al.\2024 (https://arxiv.org/html/2606.10338#bib.bib17)) 最初是为专家专用微调提出的,它选择每层中累积亲和度排名最高的专家,并也被用作 MoE 遗忘中专家选择的基线。我们的工作也通过从路由激活统计中识别遗忘关键专家,探索了 MoE 遗忘中的专家级选择,但进一步表明,保留正则化如何到达所选遗忘关键专家同样至关重要。

## 3 路由引起的缩放不匹配分析

在本节中,我们分析为什么在 MoE 遗忘中保留正则化可能在各专家之间不均匀。设 \(\mathcal{D}_f\) 和 \(\mathcal{D}_r\) 分别表示遗忘和保留数据集。一大类基于梯度的遗忘方法优化一个由保留损失正则化的遗忘目标:

\[
\mathcal{L}(\theta) = -\mathcal{L}_f(\theta; \mathcal{D}_f) + \lambda \mathcal{L}_r(\theta; \mathcal{D}_r),
\]

其中 \(\lambda > 0\) 权衡遗忘 \(\mathcal{D}_f\) 中的目标与保持 \(\mathcal{D}_r\) 中的模型效用。

我们以常用的梯度差分目标(GradDiff)作为代表性示例。设 \(N_f\) 和 \(N_r\) 分别是 \(\mathcal{D}_f\) 和 \(\mathcal{D}_r\) 中预测词元的总数。将所有词元预测位置展平后,目标可以写为

\[
\mathcal{L}(\theta) = -\frac{1}{N_f} \sum_{i=1}^{N_f} \ell(x_{i+1}^f; \theta, \boldsymbol{x}_{\leq i}^f) + \lambda \frac{1}{N_r} \sum_{i=1}^{N_r} \ell(x_{i+1}^r; \theta, \boldsymbol{x}_{\leq i}^r),
\tag{1}
\]

其中 \(\boldsymbol{x}_{\leq i}\) 表示用于预测词元 \(x_{i+1}\) 的前缀上下文。虽然我们在正文中主要针对 GradDiff 进行分析,但在附录 A 中展示了相同的路由效应也出现在许多其他保留正则化的遗忘目标中,例如 NPO。

### 3.1 GradDiff 中的隐式专家级缩放

在本小节中,我们展示标准的词元平均保留损失如何在各专家之间诱导出不同的有效正则化强度。考虑一个采用 top-\(K\) 路由的 MoE 模型。令 \(e_{j,\ell}\) 表示第 \(\ell\) 层的第 \(j\) 个专家,\(\mathcal{S}_i^f\) 和 \(\mathcal{S}_i^r\) 分别表示第 \(i\) 个遗忘和保留位置所选中的专家集合。

我们根据专家路由分解 GradDiff 梯度。考虑专家 \(e_{j,\ell}\) 的参数 \(\theta_{j,\ell}\) 所接收的梯度。由于专家仅由路由到它的词元更新,公式 (1) 关于 \(\theta_{j,\ell}\) 的梯度为

\[
\nabla_{\theta_{j,\ell}}
\]

相似文章

模型遗忘目标因语言功能不同而异

arXiv cs.CL

本文认为,LLM中的遗忘应依赖于目标,提出了一种基于余弦的元学习RMU变体用于危险知识遗忘,以及一种结合探针方向的多层目标用于毒性遗忘,在四个7-8B模型上取得了显著效果。

基于边际自校正的大规模快速遗忘

arXiv cs.LG

介绍了MASC(边际自校正),一种用于大型语言模型的高效遗忘方法,采用在线停止规则,以降低的计算成本实现有竞争力的遗忘-保持权衡,并在TOFU和MUSE基准上得到验证。