利用非对称数据进行遗忘:通过公共数据改善遗忘-效用权衡
摘要
本文介绍了非对称朗之万遗忘(ALU),这是一种利用公共数据来改善机器遗忘中隐私-效用权衡的框架。研究表明,ALU 降低了遗忘成本,并在保持高模型效用的同时实现了大规模遗忘。
查看缓存全文
缓存时间: 2026/05/13 06:33
# 利用公共数据源改善机器遗忘与效用之间的权衡
**论文链接**: https://arxiv.org/html/2605.11170
###### 摘要
基于噪声的认证机器遗忘目前面临一个硬性上限:认证遗忘所需的噪声幅度通常会破坏模型效用,特别是在大规模删除请求的情况下。虽然利用公共数据是差分隐私(Differential Privacy, DP)中缓解这一张力的标准技术,但其在机器遗忘中的作用尚未得到探索。我们通过引入**非对称朗之万遗忘(Asymmetric Langevin Unlearning, ALU)**框架来填补这一空白,该框架利用公共数据来缓解隐私成本。我们证明,公共数据注入将遗忘成本降低了 $O(1/n_{\mathrm{pub}}^2)$ 倍,从而保证相对于重新训练具有严格的计算优势。这建立了一种新的控制机制:从业者可以通过增加公共数据量来减少对高噪声的需求——进而减少相关的效用损失。关键在于,我们分析了**分布不匹配**的现实设置,明确描述了公共源与私有源之间的分布偏移如何影响效用。我们表明,ALU 能够对恒定比例的私有数据集进行“大规模遗忘”——在这种状态下,标准的对称方法变得不切实际——同时保持高效用。使用变分 Rényi 散度和成员推理攻击进行的实证评估证实,ALU 在合理的分布偏移下既能有效抵御隐私攻击,又能保持效用。
机器学习, ICML
## 1 引言
机器学习在各类应用中的广泛采用促使监管措施出台,旨在保护用户隐私和数据权利。欧盟的《人工智能法案》(AI Act)(Parliament and of the European Union, 2024)和加拿大的《人工智能与数据法案》(AIDA)(Parliament of Canada, 2022)等立法框架确立了包括“被遗忘权”在内的基本原则,该原则要求个人可以请求从已训练系统中移除其个人数据。虽然处理这些请求最直接的方法——从头重新训练——提供了完美的保证,但对于现代深度学习模型而言,其计算成本是 prohibitive(难以承受的)。因此,该领域转向了近似方法,特别是基于噪声注入和微调的一族方法,如朗之万遗忘(Langevin Unlearning)(Chien et al., 2024a; Koloskova et al., 2025)。这些方法提供了可认证的隐私保证,但受到严格的权衡限制:认证数据擦除所需的噪声幅度会降低模型的效用。
在本工作中,我们通过探索在差分隐私(DP)中已确立但在机器遗忘中尚未被探索的一个想法来解决这一局限性:**公共数据(public data)的整合**。我们在现实假设下进行操作,即虽然敏感的用户数据必须能够被遗忘,但通常存在不受撤回请求约束的公共数据语料库。我们提出了**非对称朗之万遗忘(ALU)**,这是一个利用公共数据作为改善隐私-效用权衡机制的框架。据我们所知,唯一先前探索混合隐私遗忘的工作是 Golatkar et al. (2021),他们为计算机视觉任务引入了混合线性遗忘(Mixed-Linear Forgetting)。他们的方法需要架构修改才能通过网络线性化实现遗忘,限制了其适用性。相比之下,ALU 直接作用于标准训练流水线。
直观地说,公共数据充当稳定性锚点;它确保原始训练模型和重新训练模型的权重分布保持自然接近。这种接近度减少了对噪声注入以弥合分布间差距的需求,从而保留了效用。
- **我们证明**,注入公共数据为遗忘过程创造了更有利的初始化,将遗忘成本降低了 $O(1/n_{\mathrm{pub}}^2)$ 倍(定理 3.1 和 3.2)。这种结构优势实现了两项能力:
- **大规模遗忘(Mass Unlearning)**:与以往方法不同,以往方法中噪声需求独立于总数据集大小,ALU 允许遗忘私有数据集的**恒定比例**(推论 3.1),确保对大规模删除的鲁棒性。
- **计算优势**:我们重新审视了遗忘相对于从头重新训练的效率。虽然标准的朗之万遗忘已知在渐近情况下是高效的,但我们建立了更强的结果:即使有限步数 regime 下,ALU 也保持相对于重新训练的严格计算优势。
- **我们偏离**了私有-公共分布相同的理想化假设。我们推导了一个新的泛化界(定理 4.1),该界明确量化了噪声减少的好处与公共源和私有源之间分布不匹配的惩罚之间的权衡。
- **我们引入**了一种严谨的评估方法,使用变分估计 Rényi 散度来验证我们的界限。我们的实验证实,ALU 成功抵御了成员推理攻击(U-LiRA),同时在保持显著高于对称基线的效用。
## 2 相关工作
### 2.1 机器遗忘
机器遗忘算法在平衡遗忘有效性、模型效用和计算效率的同时,消除指定训练数据(**遗忘集**)的影响。三种典型策略说明了其中的权衡:随机重新初始化实现了完美遗忘但破坏了效用;从头重新训练提供了最佳保证但带来了难以承受的成本;不干预保留了效用但未能实现任何遗忘。遗忘范式分为**精确遗忘**(匹配重新训练基线但限制了表达能力或效率)(Cao and Yang, 2015; Yan et al., 2022)和**近似遗忘**(提供重新训练的可认证近似)(Nguyen et al., 2020; Guo et al., 2023; Chien et al., 2024b; Koloskova et al., 2025)。
### 2.2 朗之万遗忘
机器遗忘的一种常见方法是从训练后的权重开始运行带噪声的投影梯度法,目标是接近重新训练的分布。形式上,在迭代 $t$ 时:
$$ \theta_{t+1} = \Pi_{\Theta} \left[ \theta_t - \eta \nabla_{\theta} \mathcal{L}(\theta_t) + \xi_t \right], \quad (1) $$
其中 $\mathcal{L}$ 是代理损失(例如,在保留集上的经验损失),$\eta$ 是步长,$\xi_t$ 是注入的噪声(通常为高斯分布),控制分布的接近程度。朗之万遗忘(LU)(Chien et al., 2024a)通过 $\mathcal{L} = \mathcal{L}_{\mathcal{D}_r}$(保留集上的损失)和 $\xi_t \sim \mathcal{N}(0, I_d)$ 实例化了此方案。这简化为投影噪声梯度下降(PNGD)(伪代码见附录 E)。LU 通过最小化遗忘后和重新训练后权重分布之间的 Rényi 散度,提供了可认证的近似遗忘保证(Chien et al., 2024a, b)。然而,这些保证要求**整个原始训练过程**满足差分隐私(DP)。这需要在第一次训练迭代开始时就注入大量噪声,甚至在任何遗忘请求之前就会损害基础模型的效用。
在本工作中,我们通过利用公共数据来缓解这种“隐私税”,改进了 Chien et al. (2024a) 的工作。我们表明,用公共数据锚定训练过程可以让我们在学习和遗忘期间减少所需的噪声幅度,同时满足相同的保证。通过假设初始化满足对数-Sobolev 不等式(一种由高斯初始化满足的温和条件),我们推导出了数据相关的界限,表明公共数据充当稳定器,有效地为私有数据的隐私成本提供“补贴”。并行的方法如 Koloskova et al. (2025) 仅需要平滑性假设,但这种与数据无关的界限主要依赖于投影集的几何形状,而不是利用公共数据的结构优势。
## 3 非对称朗之万遗忘
### 3.1 预备知识
**动机。** 我们的方法受隐私机器学习文献中既定的现实数据设置所激励(Alon et al., 2019; Amidi et al., 2022; Ganesh et al., 2023; Lowy et al., 2024),该设置利用公共数据来改善隐私-效用权衡。我们将这种非对称数据模型引入朗之万遗忘,这使我们能够放宽对整个数据集的严格差分隐私(DP)假设。通过明确建模这种不对称性,我们可以利用公共数据来增强遗忘过程,以提高有效性和模型性能,而不损害隐私保证。
**符号。** 我们考虑定义在紧致参数空间 $\Theta$ 上的概率分布,其中随机性来源于三个来源:权重初始化分布 $\pi_0$、训练数据分布 $P_{\mathrm{train}}$ 以及优化过程的内在随机性。我们用 $\mathcal{P}(\Theta)$ 表示支撑在 $\Theta$ 上的概率分布集合。我们研究权重分布 $\pi_S^t$,其中 $S \in \{L, U, R\}$ 标识训练 regime,$t$ 表示迭代次数。我们分析中的一个关键量是分布 $P$ 和 $Q$ 之间的 $\alpha$ 阶 Rényi 散度,记为 $D_{\alpha}(P \| Q)$(定义 3.2)。我们用 $P_{\mathrm{pub}}$ 和 $P_{\mathrm{priv}}$ 分别表示公共数据和私有数据的分布。
**问题设置。** 我们考虑由两部分组成的数据集 $D = D_{\mathrm{pub}} \cup D_{\mathrm{priv}}$ 上的经验风险最小化:一个包含 $n_{\mathrm{pub}}$ 个来自分布 $P_{\mathrm{pub}}$ 的样本的公共集 $D_{\mathrm{pub}}$,以及一个包含 $n_{\mathrm{priv}}$ 个来自分布 $P_{\mathrm{priv}}$ 的样本的私有集 $D_{\mathrm{priv}}$。训练损失为 $\mathcal{L}_D(\theta) = \frac{1}{n_{\mathrm{pub}} + n_{\mathrm{priv}}} \sum_{x \in D} \ell(\theta, x)$。只有私有数据受遗忘请求约束,而公共数据永久可用。我们采用 $T$ 次 PNGD 迭代,投影到 $\Theta \subset \mathbb{R}^d$(半径 $R$)以获得 $\theta_T$。由于 PNGD 在每一步注入高斯噪声,它在参数空间上诱导出概率分布。为了确保收敛和可认证保证,我们假设初始化分布满足对数-Sobolev 不等式(LSI):
###### 定义 3.1. (对数-Sobolev 不等式 (Gross, 1975))
若对于所有 $Q \in \mathcal{P}(\mathbb{R}^d)$,概率测度 $P \in \mathcal{P}(\mathbb{R}^d)$ 满足常数 $C$ 的条件:
$$ D_{KL}(Q \| P) \leq \frac{C}{2} I(Q, P), \quad (2) $$
其中 $D_{KL}$ 表示 KL 散度,$I(Q, P) = E_Q \left[ \| \nabla \log \frac{q}{p} \|^2 \right]$ 是相对 Fisher 信息。
##### 权重分布
我们分析了给定遗忘请求 $D_{\text{forget}} \subseteq D_{\text{priv}}$ 时,PNGD 在 $D = D_{\text{pub}} \cup D_{\text{priv}}$ 上诱导的三种分布(图 1):
- **学习分布 $\pi_L^T$**:在 $D$ 上进行 $T$ 次迭代的结果,$\theta_0 \sim \pi_0$,代表遗忘前的模型;
- **遗忘分布 $\pi_U^K$**:在 $D \setminus D_{\text{forget}}$ 上进行 $K$ 次微调迭代的结果,初始化自 $\theta \sim \pi_L^T$;
- **重新训练分布 $\pi_R^T$**:在 $D \setminus D_{\text{forget}}$ 上进行 $T$ 次迭代的结果,$\theta_0 \sim \pi_0$,作为重新训练基线。
> **图 1**: 显示公共数据注入下学习、遗忘和重新训练之间关系的训练流水线。散度 $D_{\alpha}(\pi_R^T \| \pi_L^T)$ 量化了公共数据如何帮助保持重新训练和原始学习分布之间的相似性,从而促进随后的遗忘。
遵循 Chien et al. (2024a),我们通过 Rényi 散度来衡量遗忘质量。
###### 定义 3.2.
对于概率测度 $P, Q$ 且 $P \ll Q$,其 $\alpha \in (0, +\infty) \setminus \{1\}$ 阶 Rényi 散度为
$$ D_{\alpha}(P \| Q) = \frac{1}{\alpha - 1} \log \mathbb{E}_Q \left[ \left( \frac{dP}{dQ} \right)^{\alpha} \right], $$
其中 $\frac{dP}{dQ}$ 是 Radon-Nikodym 导数。这推广了 KL 散度($\alpha \to 1$)、反向 KL($\alpha \to 0$),并在 $\alpha \to \infty$ 时与 $\varepsilon$-差分隐私相关联(Mironov, 2017)。
遗忘的有效性由 $D_{\alpha}(\pi_U^K \| \pi_R^{T+K})$ 衡量,而公共数据的存在有助于控制 $D_{\alpha}(\pi_R^T \| \pi_L^T)$,为遗忘过程创造有利条件。
### 3.2 遗忘性能
我们现在提出非对称朗之万遗忘的理论保证,展示公共数据如何改善遗忘效率。我们的分析借鉴了 Chien et al. (2024a) 的先前工作,通过放宽全局差分隐私假设,并提供显式描述,说明公共和私有数据贡献在遗忘界限中的差异。以下结果解释了公共数据如何减少对差分隐私约束的依赖:
###### 定理 3.1(公共数据在缩小学习/重新训练不匹配中的作用)
假设损失是 $L$-平滑且 $M$-Lipschitz 的,并且初始化分布满足 $C_0$-对数 Sobolev 不等式。此外,假设 PNGD 更新投影到半径为 $R$ 的紧致集 $\Theta$ 上。那么在学习迭代 $T$ 时,我们有以下上界...相似文章
抵御重学攻击的鲁棒大语言模型遗忘:表征中的次要分量至关重要
本文介绍了次要分量遗忘(MCU),这是一种针对大语言模型遗忘的新颖方法,通过靶向表征中的次要分量来抵御重学攻击。它通过关注模型谱结构中的鲁棒方向,解决了现有方法的脆弱性问题。
智慧在于知道何时沉默:通过注意力转移实现无幻觉的大语言模型遗忘
本论文引入注意力转移(Attention-Shifting, AS)框架,用于大语言模型的选择性机器遗忘,在有效移除敏感信息与防止幻觉和保持模型性能之间取得平衡。该方法采用重要性感知的注意力抑制和保留增强机制,在标准基准上相比现有遗忘方法实现了高达15%的准确度保持率提升。
使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性
本文提出了一种分布对齐对抗性蒸馏(DisAAD)方法,该方法使用一个轻量级代理模型,仅以原始模型1%的规模来估计黑盒大语言模型的不确定性,实现了无需内部参数或多次采样的可靠量化。
大型语言模型能否重塑基础算法?
# 论文页面 - 大型语言模型能否重塑基础算法? 来源:[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后,它们还能从零重塑 Dijkstra、Euclid 等基础算法吗?** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域:先用“反学习”把目标算法从模型中抹去,再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。
通道级语义扰动:面向多样训练范式的不可学习示例
本文系统研究了不同训练范式下的不可学习示例,揭示了预训练权重会削弱现有方法的效果,并提出浅层语义伪装(SSC)方法,通过在语义有效子空间中生成扰动来维持不可学习性。