从隐私到泛化:DP-SGD的线性最大信息界

arXiv cs.LG 论文

摘要

本文证明了DP-SGD近似最大信息的一个有限样本界,该界最多与数据集大小成线性关系,从而为差分隐私训练的模型带来了PAC-Bayes泛化界。

arXiv:2605.26222v1 公告类型: 新 摘要:理解泛化与隐私之间的关系仍然是现代机器学习理论中的一个核心挑战,尤其是对于通过差分隐私随机梯度下降(DP-SGD)变体训练的深度网络而言。在这项工作中,我们通过证明DP-SGD近似最大信息的一个有限样本界,在这个长期存在的开放问题上取得了进展。该界的缩放性质与(Dwork et al, 2015)关于$\epsilon$-差分隐私算法的经典结果相当,即最多与数据集大小成线性关系。根据我们的结果,我们得到了一个通用的PAC-Bayes泛化界,其中所需的先验分布可以通过DP-SGD学习,同时还有针对DP-SGD训练模型本身的泛化界,其复杂度项完全显式且由优化超参数控制。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:06

# 从隐私到泛化:DP-SGD 的线性最大信息界

来源:https://arxiv.org/html/2605.26222

Christoph H. Lampert, Hossein Zakerinia  
奥地利科学技术学院 (ISTA)  
奥地利,克洛斯特新堡

###### 摘要

理解泛化与隐私之间的关系仍是现代机器学习理论的核心挑战,尤其是对于通过差分隐私随机梯度下降 (DP-SGD) 变体训练的深度网络而言。本文在这一长期存在的开放问题上取得了进展,证明了 DP-SGD 的近似最大信息的一个有限样本界,该界显示出与 Dwork 等人 (2015b (https://arxiv.org/html/2605.26222#bib.bib18)) 针对 ε\\epsilon \-差分隐私算法的经典结果相当的尺度特性,即最多与数据集大小呈线性关系。根据我们的结果,我们得到了一个通用的 PAC-Bayes 泛化界,其中所需的先验分布可以通过 DP-SGD 学习,以及一个专门针对 DP-SGD 训练模型本身的泛化界,其复杂度项是完全显式的,并由优化超参数控制。

## 1 引言

自 20 世纪 70 年代和 80 年代 PAC 学习的开创性工作 (Vapnik & Chervonenkis, 1971 (https://arxiv.org/html/2605.26222#bib.bib56); Valiant, 1984 (https://arxiv.org/html/2605.26222#bib.bib55)) 以来,如何从形式上保证学习算法能够从其训练集泛化到新数据的问题一直处于机器学习理论的核心。近年来,特别是 PAC-Bayes 界框架 (McAllester, 1999 (https://arxiv.org/html/2605.26222#bib.bib37); Seeger, 2002 (https://arxiv.org/html/2605.26222#bib.bib50); Catoni, 2007 (https://arxiv.org/html/2605.26222#bib.bib12)) 在即使对于过参数化模型(例如深度网络)(Dziugaite & Roy, 2017 (https://arxiv.org/html/2605.26222#bib.bib19); Zhou 等人, 2019 (https://arxiv.org/html/2605.26222#bib.bib60); Lotfi 等人, 2024 (https://arxiv.org/html/2605.26222#bib.bib31)) 提供有意义的泛化保证方面也取得了显著进展。非正式地说,核心见解之一是:如果模型不*过拟合*,即它们从训练集中提取信息但不*记忆*它,那么模型就能泛化。

在从通常包含个人数据的超大数据集进行学习的现代背景下,相关考虑出现在*带有数据隐私的模型学习*领域,特别是*差分隐私* (Dwork & Roth, 2014 (https://arxiv.org/html/2605.26222#bib.bib15); Ponomareva 等人, 2023 (https://arxiv.org/html/2605.26222#bib.bib43))。为了保证原始训练数据无法从训练好的模型中提取出来,必须对每个数据点影响模型参数的程度施加约束,即防止*数据记忆*。鉴于其在概念上的相似性,泛化与隐私的交集成为两个领域创新的丰饶之地。例如,在经典设定中,Dwork 等人 (2015b (https://arxiv.org/html/2605.26222#bib.bib18)); Bassily 等人 (2016 (https://arxiv.org/html/2605.26222#bib.bib5)) 建立并且 Jung 等人 (2020 (https://arxiv.org/html/2605.26222#bib.bib25)) 完善了针对统计查询和低敏感性查询的泛化保证。Bassily 等人 (2014 (https://arxiv.org/html/2605.26222#bib.bib4)) 证明了凸环境下私有风险最小化算法的界,而 Bombari & Mondelli (2025 (https://arxiv.org/html/2605.26222#bib.bib8)) 和 Shi 等人 (2026 (https://arxiv.org/html/2605.26222#bib.bib51)) 则分别针对随机特征模型和两层 ConvNet 的私有梯度下降证明了界。特别是在 PAC-Bayes 框架中,Dziugaite & Roy (2018 (https://arxiv.org/html/2605.26222#bib.bib20)) 证明了私有的数据相关分布可以取代通常的数据无关先验分布,仅需增加一个可控的附加惩罚项。

不幸的是,上述所有结果对于现代深度网络要么不适用,要么无效。现代深度网络往往过参数化、非凸,并且使用随机梯度下降的变体进行多个周期的训练。对于此类系统,主要的隐私概念是*近似差分隐私*,记为 (ε,δ)\\(\\epsilon,\\delta\\)-DP,其中 δ>0\\delta\>0。然而,对于实际深度网络,泛化与私有训练之间关系的精确刻画至今仍未实现。特别是已知 (ε,δ)\\(\\epsilon,\\delta\\)-DP 算法不会自动地很好地泛化 (Rogers 等人, 2016 (https://arxiv.org/html/2605.26222#bib.bib48); Stemmer & Nissim, 2019 (https://arxiv.org/html/2605.26222#bib.bib53); Blanco-Justicia 等人, 2023 (https://arxiv.org/html/2605.26222#bib.bib6)),甚至泛化良好的深度模型也可能容易受到数据提取攻击 (Carlini 等人, 2019 (https://arxiv.org/html/2605.26222#bib.bib10), 2021 (https://arxiv.org/html/2605.26222#bib.bib11))。

在这项工作中,我们通过聚焦于差分隐私模型训练的主要算法——*差分隐私随机梯度下降 (DP-SGD)* (Rajkumar & Agarwal, 2012 (https://arxiv.org/html/2605.26222#bib.bib44)),在这个问题上取得了进展。先前的工作主要在基于互信息的界框架内研究 DP-SGD 的泛化特性 (Xu & Raginsky, 2017 (https://arxiv.org/html/2605.26222#bib.bib59))。例如,Wang 等人 (2021 (https://arxiv.org/html/2605.26222#bib.bib58)) 研究了单周期 DP-SGD 在数据集期望上的泛化差距,而 Pensia 等人 (2018 (https://arxiv.org/html/2605.26222#bib.bib40)) 和 Issa 等人 (2023 (https://arxiv.org/html/2605.26222#bib.bib24)) 则为迭代中添加高斯噪声的 SGD 建立了高概率界。然而,得到的界随问题维度增长,并且这些工作没有展示在实际设定中获得非平凡界的可能性。

相反,我们通过采用最大信息和 PAC-Bayes 界的框架,目标是得到与维度无关且数值上紧的结果。我们的主要技术结果,定理 1 (https://arxiv.org/html/2605.26222#Thmtheorem1),建立了 DP-SGD 在包含 nn 个独立元素的数据集 SS 上的 β\\beta\-近似最大信息满足:

I∞β(DP-SGD(S),S)=O(Enζ2σ2(logE/β))\\displaystyle I^{\\beta}_{\\infty}(\\texttt{DP-SGD}(S),S)={O\\bigl(En\\frac{\\zeta^{2}}{\\sigma^{2}}(\\log E/\\beta)\\bigr)} (1)

其中 EE 是训练周期数,ζ\\zeta 是裁剪常数,σ\\sigma 是高斯机制添加噪声的强度¹¹我们将在第2节 (https://arxiv.org/html/2605.26222#S2) 中给出这些量的定义,并在第3节 (https://arxiv.org/html/2605.26222#S3) 中给出非渐近表达式。。据我们所知,对于*实际*的 (ε,δ)\\(\\epsilon,\\delta\\)-DP 学习算法,这是关于最大信息的首批保证,其意义在于它们适用于当今真实世界模型训练的场景——无论是在工业界,例如 Google 最近的私有视觉语言模型 *DP-Cap* (Sander 等人, 2024 (https://arxiv.org/html/2605.26222#bib.bib49)),或大型语言模型 *VaultGemma* (Sinha 等人, 2025 (https://arxiv.org/html/2605.26222#bib.bib52)),还是在学术界,例如最近的私有人类行为识别模型 (Luo 等人, 2024 (https://arxiv.org/html/2605.26222#bib.bib32); Nken 等人, 2025 (https://arxiv.org/html/2605.26222#bib.bib38))。

控制 DP-SGD 的最大信息的能力使我们能够建立主要的概念性结果,定理 2 (https://arxiv.org/html/2605.26222#Thmtheorem2):演示如何使用 DP-SGD 获得用于 PAC-Bayes 泛化界的数据相关先验。如同 (Dziugaite & Roy, 2018 (https://arxiv.org/html/2605.26222#bib.bib20)) 中一样,这一步的代价是增加一个加性校正项,我们证明其具有与 (1 (https://arxiv.org/html/2605.26222#S1.E1)) 类似的形式,因此我们可以通过适当选择 DP-SGD 的超参数来控制它。得到的泛化保证是*一致*的,即适用于任意训练的模型,而不仅仅是那些使用隐私训练的模型,DP-SGD 先验仅在复杂度项中充当参考测度。然而,通过评估该先验本身的界,我们立即得到一个专门针对 DP-SGD 训练模型的无需先验的 PAC-Bayes 泛化界。

总之,我们在这项工作中的主要贡献是 DP-SGD 算法近似最大信息的一个显式有限样本界。由此,我们推导出两个额外具有独立价值的贡献:一个新的 PAC-Bayes 泛化界,其中先验可以通过 DP-SGD 从实际训练数据中学习;以及一个新的、仅涉及 DP-SGD 超参数的、针对 DP-SGD 训练模型的泛化界。

## 2 背景

在本节中,我们介绍主要概念和所需符号。关于所涉及概念的更多细节和示例,请参见附录 A (https://arxiv.org/html/2605.26222#A1)。我们采用统计学习的标准设定,其中(随机)学习算法给定一个训练数据集 S=(x1,...,xn)∈XnS=(x_{1},\\dots,x_{n})\\in\\mathcal{X}^{n} 并输出一个模型 y∈Y⊂Rdy\\in\\mathcal{Y}\\subset\\mathbb{R}^{d}(此处及下文中,我们将模型与其参数化等同)。损失函数 l:X×Y→R+\\ell:\\mathcal{X}\\times\\mathcal{Y}\\to\\mathbb{R}_{+} 衡量模型 yy 在数据点 xx 上的质量。

#### 差分隐私。

随机化算法 A:Xn→Y\\mathcal{A}:\\mathcal{X}^{n}\\to\\mathcal{Y} 如果对于某个 ε>0\\epsilon\>0 和 δ∈(0,1)\\delta\\in(0,1),满足 ∀O⊂Y:\\displaystyle\\forall O\\subset\\mathcal{Y}:\\quadP{A(S)∈O}≤eεP{A(S′)∈O}+δ,\\displaystyle\\mathbb{P}\\{\\mathcal{A}(S)\\in O\\}\\leq e^{\\epsilon}\\mathbb{P}\\{\\mathcal{A}(S^{\\prime})\\in O\\}+\\delta, (2) 对于所有*相邻的*数据集 S,S′S,S^{\\prime}(即除了单个数据点外相同),则称该算法是*近似差分隐私的 ((ε,δ)\\(\\epsilon,\\delta\\)-DP)*。如果算法对于 δ=0\\delta=0 是 (ε,δ)\\(\\epsilon,\\delta\\)-DP,我们称之为*纯差分隐私的* (ε\\epsilon\-DP)。现代机器学习中实现差分隐私最常用的机制是*高斯机制* (Dwork 等人, 2006 (https://arxiv.org/html/2605.26222#bib.bib16))。对于任何函数 Ψ:Xn→Y\\Psi:\\mathcal{X}^{n}\\to\\mathcal{Y},记 Δ(Ψ):=supS∼S′‖Ψ(S)−Ψ(S′)‖\\Delta(\\Psi):=\\sup_{S\\sim S^{\\prime}}\\|\\Psi(S)-\\Psi(S^{\\prime})\\| 为其*敏感度*,其中 S∼S′S\\sim S^{\\prime} 表示两个数据集相邻。那么,噪声强度为 σ\\sigma 的高斯机制的工作方式为 MΨ(S)=Ψ(S)+σZ\\mathcal{M}_{\\Psi}(S)=\\Psi(S)+\\sigma Z,其中 Z∼N(0,I)Z\\sim\\mathcal{N}(0,\\text{I}) 是标准高斯噪声。对于任何 ε∈(0,1)\\epsilon\\in(0,1) 和 δ∈(0,1)\\delta\\in(0,1),只要 σ≥Δε2log(1.25/δ)\\sigma\\geq\\frac{\\Delta}{\\epsilon}\\sqrt{2\\log(1.25/\\delta)},MΨ\\mathcal{M}_{\\Psi} 就是 (ε,δ)\\(\\epsilon,\\delta\\)-DP 的。

**算法 1 DP-SGD-stream**  
0: 训练集 S=(x1,...,xn)S=(x_{1},\\dots,x_{n}),裁剪阈值 ζ\\zeta,噪声强度 σ\\sigma,批次大小 mm,每周期步数 T≤⌊nm⌋T\\leq\\lfloor\\frac{n}{m}\\rfloor,周期数 EE,学习率 η1,...,ηT\\eta_{1},\\dots,\\eta_{T}  
1: θ0←\\theta_{0}\\leftarrow 初始化模型参数  
2: for e=1,...,Ee=1,\\dots,E do  
3: I1,...,IT←CreateBatches()I_{1},\\dots,I_{T}\\leftarrow\\ \\text{CreateBatches}() // 创建不相交批次的索引集  
4: for t=1,...,Tt=1,\\dots,T do  
5: z←sample from N(0,Id)z\\leftarrow\\text{ sample from }\\mathcal{N}(0,\\text{I}_{d}) // 标准高斯噪声  
6: ut←∑i∈Itclip(∇l(xi,θt−1),ζ)+σz\\displaystyle u_{t}\\leftarrow\\sum\\nolimits_{i\\in I_{t}}\\text{clip}\\bigl(\\nabla\\ell(x_{i},\\theta_{t-1}),\\zeta\\bigr)+\\sigma z // 更新向量(裁剪梯度加噪声)  
7: θt←GradientUpdate(ut,ηt;θ1,...,θt−1)\\displaystyle\\theta_{t}\\leftarrow\\text{GradientUpdate}(u_{t},\\eta_{t};\\,\\theta_{1},\\dots,\\theta_{t-1}) // 添加噪声并更新模型参数  
8: yield θt\\theta_{t} // 输出参数但算法继续  
9: end for  
10: θ0←θT\\theta_{0}\\leftarrow\\theta_{T} // 为下一个周期准备  
11: end for

**算法 2 DP-SGD**  
0: 大小为 nn 的训练集 SS,裁剪阈值 ζ\\zeta,噪声强度 σ\\sigma,批次大小 mm,每周期步数 T≤⌊nm⌋T\\leq\\lfloor\\frac{n}{m}\\rfloor,周期数 EE,学习率 η1,...,ηT\\eta_{1},\\dots,\\eta_{T}  
1: (θ11,θ21,...,θTE)←DP-SGD-stream(S,ζ,σ,m,T,E,η1,...,ηT)(\\theta^{1}_{1},\\theta^{1}_{2},\\dots,\\theta^{E}_{T})\\leftarrow\\texttt{DP-SGD-stream}(S,\\zeta,\\sigma,m,T,E,\\eta_{1},\\dots,\\eta_{T})  
1: θTE\\theta^{E}_{T}

#### 差分隐私随机梯度下降 (DP-SGD)。

DP-SGD 算法 (Abadi 等人, 2016 (https://arxiv.org/html/2605.26222#bib.bib1)) 依赖于重复应用高斯机制:对于每个数据点批次,它通过将样本梯度裁剪到最大长度来强制限制敏感度。它对裁剪后的梯度之和应用高斯机制,并使用现在私有化后的聚合更新模型参数。注意,DP-SGD 在结构上是一种*流式*算法,可以在每次更新步骤后输出(yield)更新后的模型参数。然而,也可以将 DP-SGD 作为批处理算法运行,只需忽略除最后一个输出之外的所有输出即可。算法 1 (https://arxiv.org/html/2605.26222#alg1) 和 2 (https://arxiv.org/html/2605.26222#alg2) 提供了相应的伪代码。它们包含两个子例程,允许将过程定制到许多现实世界的设置中,同时保留我们后面定理 1 (https://arxiv.org/html/2605.26222#Thmtheorem1) 的保证:

*   **CreateBatches** 输出固定大小不相交批次的索引集。任何不依赖于数据样本值的程序(确定性的或随机性的)都是允许的,这样批次内和批次间的数据样本保持独立。例如,一个自然的例子是在每个周期开始时对数据集进行洗牌,然后等分地分割成连续的批次。
*   **GradientUpdate** 将先前的模型参数 θt−1\\theta_{t-1} 和更新向量 utu_{t} 结合成新的模型参数 θt\\theta_{t},给定学习率 ηt\\eta_{t}。经典的 SGD 选择是 θt←θt−1−ηut\\theta_{t}\\leftarrow\\theta_{t-1}-\\frac{\\eta}{u}_{t},但也可以使用其他确定性更新规则,例如包括动量、权重衰减,甚至 Adam,只要它们仅通过(受噪声保护的)更新向量依赖于数据集即可,参见附录 A (https://arxiv.org/html/2605.26222#A1)。

#### 近似最大信息。

一个与隐私相关但更侧重于研究泛化问题的概念是*近似最大信息*,它衡量算法输出 A(S)\\mathcal{A}(S) 包含关于其输入 SS 的统计信息量:

I∞β(A(S),S)\\displaystyle I^{\\beta}_{\\infty}\\big(\\mathcal{A}(S),S\\big)=D∞β((A(S),S)∥A(S)×S)\\displaystyle=D^{\\beta}_{\\infty}\\big((\\mathcal{A}(S),S)\\|\\mathcal{A}(S)\\times S\\big) (3)

其中 D∞β(X∥Y)=supO⊆Y,P{X∈O}>βlogP{X∈O}−βP{Y∈O}D^{\\beta}_{\\infty}(X\\|Y)=\\sup_{O\\subseteq

相似文章

基于差分隐私原始-对偶视角的可证明后门攻击鲁棒性

arXiv cs.LG

本文介绍了一个框架,通过隐私配置文件将随机平滑与差分隐私联系起来,从而能够针对同时影响训练和推理的后门攻击提供严格的可证明鲁棒性保证。该框架在DP-SGD和深度分区聚合上实例化,并在MNIST和CIFAR-10上进行了实验。

用于差分隐私的快速混合机制

arXiv cs.LG

本文介绍了一种基于快速变换的新型差分隐私草图机制,该机制实现了最先进的隐私保证并改善了运行时间,并将其应用于DP线性回归,从而获得了首个用于DP普通最小二乘法的快速方法。

物理信息机器学习泛化性的PAC-Bayesian视角

arXiv cs.LG

本文为物理信息机器学习开发了一种PAC-Bayesian框架,为无界损失提供了高概率泛化保证。它提出了一种多任务视角,联合处理数据保真度、偏微分方程残差和边界条件,并引入了一种自界限学习算法。