知识超越语言:弥合多语言机器遗忘评估中的鸿沟

arXiv cs.CL 论文

摘要

本文提出了两个新指标——知识可分性得分(KSS)和知识持久性得分(KPS)——用于评估大语言模型在多语言机器遗忘中的跨语言信息删除,弥补了以往单语言评估协议的不足。

arXiv:2605.14404v1 公告类型:新论文 摘要:尽管大语言模型在商业服务中的应用日益广泛,但它们也带来了隐私风险,例如敏感个人身份信息(PII)的泄露。对于在多语言语料库上训练的大语言模型,多语言机器遗忘(MMU)旨在跨多种语言移除信息。然而,以往的MMU评估未能捕捉到这种信息的跨语言分布,基本上局限于对单语言评估协议的直接扩展。为此,我们提出了两个指标来评估信息在语言间的扩散情况:知识可分性得分(KSS)和知识持久性得分(KPS)。KSS衡量跨多种语言的总体遗忘质量,而KPS则更具体地旨在评估不同语言对之间信息的一致移除。我们使用这些指标评估了多语言环境下的多种遗忘方法,并进行了全面分析。通过我们的研究,我们提供了对MMU特有现象的见解,并为MMU评估提供了新的视角。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:21

# 弥合多语言机器遗忘评估中的知识跨语言鸿沟
来源: https://arxiv.org/html/2605.14404
## 知识超越语言:弥合多语言机器遗忘评估中的鸿沟

Kyomin Hwang¹⁺ Hyeonjin Kim¹⁺ Sangyeon Cho³,⁴ Nojun Kwak¹,²† ¹GSCST, 首尔大学 ²AIIS, 首尔大学 ³人工智能系, 中央大学 ⁴韩国外科研究者基金会, 大韩民国 \{kyomin98, peaceful1, nojunk\}@snu.ac.kr [email protected]

###### 摘要

虽然大语言模型(LLM)在商业服务中应用日益广泛,但它们也带来了隐私风险,例如敏感的个人身份信息(PII)泄露。对于在多语言语料库上训练的LLM,多语言机器遗忘(MMU)旨在跨多种语言移除信息。然而,先前的MMU评估未能捕捉这种跨语言的信息分布,很大程度上局限于每语言评估协议的直接扩展。为此,我们提出两个指标来评估跨语言的信息传播程度:知识可分离性评分(KSS)和知识持久性评分(KPS)。KSS衡量跨多种语言的总体遗忘质量,而KPS更有针对性地评估不同语言对之间信息的一致移除。我们使用这些指标在各种遗忘方法的多语言设置中进行了评估,并进行了全面的分析。通过我们的研究,我们提供了对MMU特有现象的见解,并为MMU评估提供了新的视角。

知识超越语言:弥合多语言机器遗忘评估中的鸿沟

Kyomin Hwang¹⁺ Hyeonjin Kim¹⁺ Sangyeon Cho³,⁴ Nojun Kwak¹,²† ¹GSCST, 首尔大学 ²AIIS, 首尔大学 ³人工智能系, 中央大学 ⁴韩国外科研究者基金会, 大韩民国 \{kyomin98, peaceful1, nojunk\}@snu.ac.kr [email protected]

11脚注:同等贡献。22脚注:通讯作者。

## 1 引言

参见图注

图1:传统MMU评估方法示意图。现有方法独立评估每种语言的知识(例如,出生、爱好)。因此,这种按语言评估无法验证知识是否已跨语言传播并被成功移除。

机器遗忘(MU)旨在从大语言模型(LLM)中移除敏感信息(Wang等人,2024 (https://arxiv.org/html/2605.14404#bib.bib9))。自通过梯度上升证明遗忘的可行性以来,后续方法已在英文数据集上进行开发和评估,专注于擦除指定内容而不降低整体性能(Zhang等人,2024 (https://arxiv.org/html/2605.14404#bib.bib11);Liu等人,2022 (https://arxiv.org/html/2605.14404#bib.bib18);Maini等人,2024 (https://arxiv.org/html/2605.14404#bib.bib12);Shi等人,2024 (https://arxiv.org/html/2605.14404#bib.bib13))。然而,先前的工作使用仅含英语的数据集模拟MU,留下了与实际部署之间的差距。

为了弥合这一差距,最近的研究开始探索多语言MU(MMU)(Choi等人,2024 (https://arxiv.org/html/2605.14404#bib.bib17);Lu and Koehn,2024 (https://arxiv.org/html/2605.14404#bib.bib21);Hwang等人,2025 (https://arxiv.org/html/2605.14404#bib.bib43))。Choi等人 (https://arxiv.org/html/2605.14404#bib.bib17) 认为,如果目标知识是从多种语言中获取的,则仅依赖英语数据会导致遗忘不充分。Hwang等人 (https://arxiv.org/html/2605.14404#bib.bib43) 报告了由以英语为中心的遗忘引起的语言混淆增加,而Lu and Koehn (https://arxiv.org/html/2605.14404#bib.bib21) 的并行工作则展示了敏感信息跨语言传播的发生。这三项工作都建议采用多语言并行遗忘作为解决方案。然而,这些工作中的评估在很大程度上局限于以英语为中心的协议的直接扩展,仅依赖于每语言评估。这些评估是否足以完全捕捉MMU复杂的多语言特征,是值得怀疑的。

如图1 (https://arxiv.org/html/2605.14404#S1.F1) 所示,当前的评估协议可能具有误导性:模型可能看起来在评估的语言中遗忘了信息,而相同的知识在另一种语言中仍然可访问。因此,按语言评估无法确定底层信息是否真的被移除,并可能夸大遗忘效果。因此,可靠的评估需要能够跨所有语言一致验证信息不可访问性的指标。

在本文中,我们通过以下方式建立了一个全面的MMU场景:1)建议如何在多语言设置中定义知识;2)阐明其获取的两种不同机制。基于此场景,3)我们最终设计了两个适合多语言评估的指标。我们将MMU中的知识定义为已通过多种语言获取和表达的实例。这种知识可以通过直接记忆或间接的跨语言传播获得。为了模拟这两种设置,我们生成了一个涵盖10种语言的多语言并行数据集,每种语言包含3,800个实例,其中八种语言用于记忆,而其他语言则保留用于评估。我们使用我们设计的旨在捕捉知识多语言性质的指标评估了这两种场景:知识可分离性评分(KSS)评估所有语言的整体遗忘质量,以及知识持久性评分(KPS)专门量化语言对之间信息的一致移除。通过广泛的评估,我们提供了对MMU独特现象的更深层次见解,并提出了一个新的评估范式。

总而言之,我们的贡献如下:

- • 我们对各种遗忘方法进行了广泛的分析和实验。为此,我们构建了一个大规模的多语言并行数据集(3,800个问答对 × 10种语言)。
- • 我们提出了知识可分离性评分(KSS)和知识持久性评分(KPS)来评估MMU中的性能。
- • 通过使用KSS和KPS的广泛分析,我们展示了专门为准确测量MMU性能而量身定制的指标的实用性。

## 2 相关工作

### 2.1 机器遗忘

机器遗忘(MU)旨在从预训练的LLM中选择性地消除敏感信息,同时保留其余知识。现有方法通常分为基于优化的方法(Jang等人,2022 (https://arxiv.org/html/2605.14404#bib.bib10);Liu等人,2022 (https://arxiv.org/html/2605.14404#bib.bib18);Zhang等人,2024 (https://arxiv.org/html/2605.14404#bib.bib11))和基于剪枝的方法(Pochinkov and Schoots,2024 (https://arxiv.org/html/2605.14404#bib.bib46))。然而,现有的MU研究在很大程度上是以英语为中心的,这与现代LLM部署的多语言性质不一致。在此背景下,多语言MU(MMU)研究(Choi等人,2024 (https://arxiv.org/html/2605.14404#bib.bib17);Hwang等人,2025 (https://arxiv.org/html/2605.14404#bib.bib43);Lu and Koehn,2024 (https://arxiv.org/html/2605.14404#bib.bib21))已经出现,指出了仅使用英语遗忘的不足。它们分析了独特现象并开发了遗忘方法,然而,对多语言遗忘性能的有效评估仍未得到探索。

### 2.2 评估

到目前为止,MU评估协议主要是在以英语为中心的设置中开发的。现有指标大致可分为两类:1)基于概率的指标和2)基于生成的指标。基于概率的指标评估模型对信息了解的确信程度。例如,TOFU(Maini等人,2024 (https://arxiv.org/html/2605.14404#bib.bib12))使用分配给相应答案的概率来量化遗忘和保留的程度。相比之下,基于生成的指标要么衡量与参考输出的输出级一致性(Lin,2004 (https://arxiv.org/html/2605.14404#bib.bib29)),要么依赖于LLM-as-a-judge风格的评估(Liu等人,2025 (https://arxiv.org/html/2605.14404#bib.bib55))。

这些协议经常被直接应用于MMU而不做修改(Choi等人,2024 (https://arxiv.org/html/2605.14404#bib.bib17);Hwang等人,2025 (https://arxiv.org/html/2605.14404#bib.bib43))。然而,MMU场景与以英语为中心的场景有两个方面的不同。首先,知识不局限于单一语言,而是分布在多种语言中。其次,这种多语言信息是通过直接记忆(Choi等人,2024 (https://arxiv.org/html/2605.14404#bib.bib17))和间接的跨语言传播(Lu and Koehn,2024 (https://arxiv.org/html/2605.14404#bib.bib21))获得的。基于此观点,我们指出了将以英语为中心的评估直接应用于MMU的两个局限性:1)孤立地评估每种语言不足以验证特定信息是否已在所有语言中被完全移除;2)现有研究通常只处理两种知识获取机制中的一种。为此,我们提出了两个可以跨多种语言评估知识的指标,并在统一框架内的两种设置上进行了实验。

## 3 问题形式化

#### 多语言MU

在机器遗忘(MU)中,模型存在三种状态。预训练模型,\(F_{\theta_{0}}\),指的是尚未在特定数据集上进行微调的模型。在微调以记忆特定信息后,模型变为记忆模型,记为\(F^{M}_{\theta}\)。最后,已更新以忘记某些记忆知识的遗忘模型记为\(F^{U}_{\theta}\)。对于MU任务,需要三种类型的数据集:微调集\(\mathcal{D}\)、遗忘集\(\mathcal{D}_{f}\)和保留集\(\mathcal{D}_{r}\)。对于MMU任务,所有三个数据集\(\mathcal{D}_{f}\)、\(\mathcal{D}_{r}\)和\(\mathcal{D}\)都由多语言并行问答对组成,其中每个对在不同语言中包含语义等价的内容:

\[
\begin{aligned}
\mathcal{D} &=\{k_{i,l}\triangleq(q_{i,l},a_{i,l})\ \|\ i\in\mathcal{I},\ l\in\mathbb{L}\}, \\
\mathcal{D}_{f} &=\{k_{i,l}\triangleq(q_{i,l},a_{i,l})\ \|\ i\in\mathcal{I}_{f},\ l\in\mathbb{L}\}, \\
\mathcal{D}_{r} &=\{k_{i,l}\triangleq(q_{i,l},a_{i,l})\ \|\ i\in\mathcal{I}_{r},\ l\in\mathbb{L}\},
\end{aligned}
\]

其中\(\mathbb{L}\)表示语言集,\(k_{i,l}\)表示语言\(l\)中的第\(i\)个实例。\(\mathcal{I}\)是两个不相交的索引集\(\mathcal{I}_{f}\)和\(\mathcal{I}_{r}\)的并集,分别列举遗忘集和保留集中的实例(\(\mathcal{I}=\mathcal{I}_{f}\cup\mathcal{I}_{r},\ \mathcal{I}_{f}\cap\mathcal{I}_{r}=\emptyset\))。类似地,\(\mathcal{D}\)表示\(\mathcal{D}_{f}\)和\(\mathcal{D}_{r}\)的不相交并集。数据集\(\mathcal{D}\)可以看作一个二维的\(|\mathcal{I}|\times|\mathbb{L}|\)矩阵,行对应索引,列对应语言。

遗忘方法通常在\(F_{\theta}^{M}\)之上使用以下损失函数:

\[
\mathcal{L}(\mathcal{D}_{f},\mathcal{D}_{r}) = \mathcal{L}_{f}(\mathcal{D}_{f}) + \mathcal{L}_{r}(\mathcal{D}_{r}),
\]

其中\(\mathcal{L}_{f}\)和\(\mathcal{L}_{r}\)分别表示遗忘损失和保留损失。

参见图注

图2:我们设置的总体示意图。知识是指一个可能以多语言方式表达的实例。目标知识是遗忘集中的知识,而非目标知识是保留集中的知识。在此设置中,我们提出了专门用于知识评估的指标。

#### 我们的设置

在传统的以英语为中心的MU中,知识仅用英语表达。然而,与这种以英语为中心的方法不同,多语言MU(MMU)中的知识可以跨多种语言表达。这种知识可以直接通过多语言训练获得,或者源自跨语言传播。对于MMU,我们将知识分为目标知识(待遗忘)和非目标知识(待保留)。借用Matlab矩阵符号的用法,我们将第\(i\)个目标知识(\(k_{i}^{\text{T}}\))和第\(j\)个非目标知识(\(k_{j}^{\text{N}}\))正式定义为:

\[
k_{i}^{\text{T}} = k_{i,:},\ i\in\mathcal{I}_{f},\quad k_{j}^{\text{N}} = k_{j,:},\ j\in\mathcal{I}_{r}.
\]

参见图注

图3:多语言并行QA数据集生成流程概览

每个\(k_{i}^{\text{T}}\)和\(k_{j}^{\text{N}}\)由多种语言组成,但共享相同的语义。在此上下文中,MMU必须移除目标知识,同时保留非目标知识。

在多语言LLM中,以一种语言获取的知识会传播到其他语言,这种现象被称为跨语言传播(Lu and Koehn, 2024 (https://arxiv.org/html/2605.14404#bib.bib21))。为了衡量此背景下的遗忘性能,我们使用包含在记忆或遗忘阶段均未使用的保留语言的设置进行了实验。为了模拟此场景,我们使用了10种语言。其中五种选自高资源语言:英语、中文、德语、俄语和西班牙语,而其他五种选自低资源语言:孟加拉语、希伯来语、泰米尔语、南非荷兰语和阿尔巴尼亚语。

所选语言分为训练语言和保留语言用于观察。训练语言直接用于记忆和遗忘,而保留语言仅用于评估。

- • 训练:英语、中文、德语、俄语、孟加拉语、希伯来语、泰米尔语、阿尔巴尼亚语
- • 保留:南非荷兰语、西班牙语

在这里,我们将训练语言集和保留语言集分别记为\(\mathbb{L}_{\text{Train}}\)和\(\mathbb{L}_{\text{Hold}}\)。图2 (https://arxiv.org/html/2605.14404#S3.F2)总结了我们整体的设置。

## 4 数据集生成

### 4.1 概述

多语言LLM中的知识通常分布在不同的语言中,而不是局限于单一的语言语境。为了模拟这种设置,我们引入了一个多语言并行数据集。受TOFU(Maini等人,2024 (https://arxiv.org/html/2605.14404#bib.bib12))启发,我们首先生成了200个合成档案,以清晰地将遗忘效果与模型的预训练知识隔离开来。从这些档案中,构建了一个包含19个特定属性问答对的英语问答数据集。随后,我们将英语问答数据集翻译成其他9种语言(四种高资源语言和五种低资源语言),以进行MMU实验。图3 (https://arxiv.org/html/2605.14404#S3.F3)展示了数据生成流程的概览:1)生成英语合成档案,2)提示LLM为每个

相似文章

LLMs中的多语言去学习:迁移、动力学与可逆性

arXiv cs.CL

本文通过将TOFU基准扩展到五种语言,研究了LLMs中的多语言去学习。研究发现,去学习迁移因文字和语言家族而异,主要作用于后几层解码层,并且单个引导方向可以恢复跨语言被抑制的大部分知识。

利用多语言LLM嵌入发现词汇空缺

arXiv cs.CL

本文提出了一种数据驱动的框架,利用多语言LLM的嵌入来检测语言间的词汇空缺,在韩语-英语对中实现了高准确率。

模型遗忘目标因语言功能不同而异

arXiv cs.CL

本文认为,LLM中的遗忘应依赖于目标,提出了一种基于余弦的元学习RMU变体用于危险知识遗忘,以及一种结合探针方向的多层目标用于毒性遗忘,在四个7-8B模型上取得了显著效果。