通过相关噪声DP-SGD训练的Kolmogorov-Arnold网络的总体风险界

arXiv cs.LG 论文

摘要

本文首次建立了使用小批量SGD和带有相关噪声的DP-SGD训练的Kolmogorov-Arnold网络的总体风险界,推动了在隐私敏感领域对KAN的理论理解。

arXiv:2605.12648v1 公告类型:新 摘要:我们首次建立了通过带有梯度裁剪的小批量SGD训练的Kolmogorov-Arnold网络(KANs)的总体风险界,涵盖了非隐私SGD以及带有高斯扰动的差分隐私SGD(DP-SGD),这些扰动在独立噪声和时间相关噪声之间插值。该设置沿两个维度显著更接近实践:训练采用小批量SGD(现代网络的标准方法),而非全批量梯度下降(GD);且相关噪声机制在经验上显示出比独立噪声机制更有利的隐私-效用权衡。我们的结果涵盖了Wang等人(2026)针对KANs的对应全批量GD和独立噪声DP-GD结果,同时得到了更锐化的固定第二层特例。技术核心是在非凸区域中对相关噪声差分隐私训练的新分析路径。时间依赖性打破了标准单步SGD论证所依赖的条件居中结构,而投影步骤阻碍了相关扰动的精确抵消结构。我们通过辅助无投影动态系统、吸收当前噪声扰动的移位迭代以及证明投影非活跃性的高概率自举来解决这些困难。将此优化分析与基于稳定性的泛化论证相结合,得到了所陈述的总体风险界。据我们所知,这是首个超出凸学习范畴,特别是针对神经网络的差分隐私训练中相关噪声机制的优化和总体风险分析。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:17

# 基于相关噪声的DP-SGD训练的Kolmogorov–Arnold网络的总体风险界来源:https://arxiv.org/html/2605.12648 Puyu Wang¹ Jan Schuchardt² Nikita Kalinin³ Junyu Zhou⁴ Sophie Fellenz¹ Christoph Lampert³ Marius Kloft¹ ¹德国凯泽斯劳滕-兰道工业大学,凯泽斯劳滕 ²摩根士丹利机器学习研究 ³奥地利科学与技术研究所,克洛斯特新堡 ⁴德国艾希施泰特-因戈尔施塔特天主大学,因戈尔施塔特 ###### 摘要 我们首次建立了通过带梯度裁剪的小批量SGD训练的Kolmogorov–Arnold网络(KAN)的总体风险界,涵盖了非私有SGD以及带有高斯扰动(在独立噪声和时间相关噪声之间插值)的差分私有SGD(DP-SGD)。该设定在实际应用上比先前的KAN理论更贴近两个维度:训练采用小批量SGD(现代网络的标准配方)而非全批量梯度下降(GD);并且相关噪声机制在经验上显示出比独立噪声机制更优的隐私-效用权衡。我们的结果涵盖了Wang等人(2026)针对KAN的全批量GD和独立噪声DP-GD结果,同时给出了更锐利的固定第二层特例。技术核心是相关噪声DP训练在非凸场景下的新分析路径。时间依赖性打破了标准单步SGD论证所依赖的条件中心化结构,而投影步骤又阻碍了相关扰动的精确抵消结构。我们通过引入辅助非投影动力学、吸收当前噪声扰动的移位迭代,以及证明投影不活跃的高概率自助法来解决这些困难。将此优化分析与基于稳定性的泛化论证相结合,得到了所述的总体风险界。据我们所知,这是凸学习之外(尤其是神经网络)相关噪声机制DP训练的首次优化和总体风险分析。 ## 1 引言 Kolmogorov–Arnold网络(KAN)(Liu等人,2025b) 最近作为多层感知机(MLP)的结构化替代方案出现。通过在边上参数化可学习的单变量函数,KAN允许显式函数分解,支持可解释性并在科学和工程领域展现出改进的外推能力。它们在分子和生物建模(Cherednichenko和Poptsova, 2025;Li等人,2025a)、物理知情学习(Patra等人,2025;Shukla等人,2024;Wang等人,2025d)以及时间序列预测(Vaca-Rubio等人,2024)方面表现出强大的实证性能,这些领域经常涉及敏感的患者、生物或工业数据。总体风险界量化了训练模型在新数据上的表现。它们给出了关于该性能的最坏情况保证,指明了哪些训练选择对此至关重要,并能够对训练算法如何随样本量扩展进行原则性比较。然而,对于KAN,总体风险界仍然局限于全批量梯度下降(GD)(Wang等人,2026),而实践中从业者使用小批量随机梯度下降(SGD)和裁剪。在此场景中,小批量采样和裁剪实质上改变了优化动态,进而影响训练模型的总体风险。因此一个自然的问题是:*是否能够在这一更实际的训练场景下为KAN提供总体风险保证*。

对于敏感数据,上述问题必须在额外约束下回答:正式的隐私保证。差分隐私(DP)(Dwork, 2006)是标准框架,其典型实现是DP-SGD(Song等人,2013),在每个步骤添加校准的高斯噪声以掩盖单个数据点。然而,私有KAN的现有分析再次限制于全批量训练(Wang等人,2026),在私有设定中小批量场景仍然是开放的。进一步的限制涉及噪声模型。标准的DP-SGD分析通常假设每一步都是新鲜独立的噪声。最近的相关噪声机制则跨扰动引入时间相关性,使得连续噪声项部分抵消,从而减少进入优化动态的累积噪声。这些机制已成为改善DP效用的领先方法,已部署在生产联邦学习系统中用于设备端语言模型(McMahan等人,2024),并在近期基准测试中展现出强大的经验优势(Kalinin等人,2026a)。然而,尽管有这一活跃的研究方向(Andersson和Pagh, 2023;Choquette-Choo等人,2024a, 2023a, 2023b;Denisov等人,2022;Fichtenberger等人,2023;Kalinin和Lampert, 2024;Kalinin等人,2026b;McKenna, 2025;Pillutla等人,2025;Rodio等人,2025),凸学习之外的相关噪声DP训练的总体风险理论仍然缺失。特别是对于非凸神经网络如KAN的训练,还没有这样的保证。本文通过建立由裁剪式小批量SGD训练的两层KAN的总体风险界,同时涵盖非私有和DP设定,来解决这两个空白。在DP设定中,我们考虑时间相关噪声机制,即DP-λ\lambdaCGD(Kalinin等人,2026a),形式为ξt=κ(Zt−λZt−1)\xi_t = \kappa(Z_t - \lambda Z_{t-1}),其中ZtZ_t为标准高斯噪声,κ≥0\kappa \geq 0为噪声乘子,λ=0\lambda=0恢复标准独立噪声机制。相关噪声DP设定带来了两个主要技术挑战:*(i)*时间依赖性打破了支撑标准单步递归的条件中心化论证;*(ii)*用于保持迭代局部化的投影打破了相关噪声所依赖的部分抵消结构(图1,右)。克服这些障碍是本文的技术核心。

请参阅说明 请参阅说明
图1:CIFAR-10上的CNN。左:适度的噪声相关性在DP-SGD中优于独立噪声(λ=0\lambda=0),尤其是在更大的隐私预算ε\varepsilon下。然而,增益并非随λ\lambda单调,当λ→1\lambda \rightarrow 1时精度可能下降。右:减去λ\lambda比例的先前噪声会部分抵消连续噪声扰动,减缓累积噪声增长,从而保持精度。图经作者许可转载自Kalinin等人(2026a)。

我们的主要贡献总结如下。
- • 我们首次建立了由裁剪式小批量SGD训练的两层KAN在非私有和DP设定下的总体风险界,并给出了保证成立的显式宽度范围。这使KAN理论超越了Wang等人(2026)的全批量GD/DP-GD设定。
- • 在DP设定中,据我们所知,我们提供了非凸设定下相关噪声DP训练的*首个*总体风险界。我们将此结果实例化到由裁剪式小批量DP-SGD训练的两层KAN。在一个代表性参数区间下,得到的KAN速率与Bassily等人(2019)的凸DP-SCO下界相匹配(至多对数因子)。
- • 我们的KAN界涵盖若干特例:非私有小批量SGD(κ=0\kappa=0)、独立噪声DP-SGD(λ=0\lambda=0)以及全批量训练(B=nB=n,BB为批量大小,nn为样本大小)。在固定第二层的全批量特例中,我们的非私有和私有界与Wang等人(2026)对应的GD和DP-GD样本/隐私缩放相匹配,同时锐化了对NTK边际的依赖并减少了所需宽度。
- • 技术上,我们提供了一种非凸场景下相关噪声DP训练的分析路径。该方法结合了辅助非投影动力学、暴露噪声抵消结构的移位迭代,以及证明投影不活跃的高概率自助法。该框架可能对KAN之外的领域也具有重要意义。

具体而言,在对数多项式宽度范围(m≍polylog(n)m \asymp \mathrm{polylog}(n))内,我们的非私有小批量SGD界给出阶为1/n1/n的平均优化风险和总体风险(忽略对数因子及对NTK边际γ\gamma的依赖)。在私有设定中,独立噪声和相关噪声DP-SGD在(ε,δ)(\varepsilon,\delta)-DP下均达到速率O(1n+dnε)\mathcal{O}\left(\frac{1}{\sqrt{n}} + \frac{\sqrt{d}}{n\varepsilon}\right)。完整的陈述,包括B,T,ηB,T,\eta的精确选择、宽度条件及λ\lambda依赖性,见第5节。

论文结构如下。第2节回顾相关工作。第3节介绍问题设定。第4节给出核心的相关噪声优化分析。第5节推导私有和非私有总体风险界。第6节总结全文。

## 2 相关工作

KAN理论迄今集中于逼近、表达性和优化方面(Eshtehardian等人,2026;Gao和Tan, 2025;Li等人,2025b;Liu等人,2025a;Wang等人,2025c)。最接近的先前工作Wang等人(2026)建立了由全批量GD训练的两层KAN的优化和总体风险界,并将其扩展到带独立高斯噪声的DP-GD。我们的结果将两者都作为特例涵盖(分别为B=nB=n,以及B=nB=n且λ=0\lambda=0),同时覆盖了小批量SGD和更广泛的相关噪声场景。

#### 神经网络DP训练的总体风险界。
除了Wang等人(2026),近期工作也在独立噪声设定下研究了神经网络的私有训练(Ding等人,2025;Shi等人,2026;Wang等人,2025a;Xu和Chen, 2026;Zhang等人,2026)。特别地,Wang等人(2025a)分析了回归任务中三层MLP的DP-GD,Shi等人(2026)研究了两层CNN的DP-GD。Ding等人(2025);Xu和Chen (2026);Zhang等人(2026)从特征学习角度研究神经网络的DP-SGD,分别关注有噪声特征学习动态、公平性/鲁棒性退化以及长尾数据上的记忆化。它们的结果无法扩展到KAN或相关噪声机制。

#### 相关噪声差分隐私的理论。
相关噪声机制的理论分析已从几个互补角度进行了研究(Denisov等人,2022;Koloskova等人,2023;Choquette-Choo等人,2024a)。特别地,Koloskova等人(2023)研究了带线性相关噪声的GD。在光滑非凸场景中,它们的界控制平均梯度范数而非优化或总体风险。Choquette-Choo等人(2024a)证明了私有凸学习中相关噪声和独立噪声之间的效用分离,并给出了线性回归的显式保证。这些结果都不涵盖非凸神经网络(尤其是KAN)的裁剪式小批量DP-SGD,也不提供基于稳定性的总体风险保证。更广泛的相关工作概述,包括神经网络理论和通过子采样的隐私放大,见附录A。

## 3 问题设定

现在我们介绍学习问题、两层KAN架构、带相关噪声的小批量DP-SGD算法、分析所依据的假设,以及我们的风险分解。

#### 符号与学习问题。
令P\mathcal{P}为X×Y\mathcal{X} \times \mathcal{Y}上的概率分布,其中X⊆{x∈Rd:‖x‖2≤1}\mathcal{X} \subseteq \{\mathbf{x} \in \mathbb{R}^d : \|\mathbf{x}\|_2 \leq 1\}且Y={−1,+1}\mathcal{Y} = \{-1, +1\}。对于正整数qq,令[q]={1,…,q}[q] = \{1, \ldots, q\}。我们用∥⋅∥2\|\cdot\|_2表示欧几里得范数,⟨⋅,⋅⟩\langle\cdot,\cdot\rangle表示内积。给定从P\mathcal{P}独立同分布抽取的训练数据集S={(xi,yi)}i=1nS = \{(\mathbf{x}_i, y_i)\}_{i=1}^n,我们通过总体风险L(f)=E(x,y)∼P[ℓ(yf(x))]\mathcal{L}(f) = \mathbb{E}_{(\mathbf{x},y) \sim \mathcal{P}}\!\left[\ell(y f(\mathbf{x}))\right]和经验风险LS(f)=1n∑i=1nℓ(yif(xi))\mathcal{L}_S(f) = \frac{1}{n}\sum_{i=1}^n \ell(y_i f(\mathbf{x}_i))来衡量分类器f:X→Rf: \mathcal{X} \to \mathbb{R}的质量,其中ℓ(z)=log(1+exp(−z))\ell(z) = \log(1 + \exp(-z))是逻辑损失。

### 3.1 架构:带B样条基的两层KAN

令mm为隐层宽度。遵循Gao和Tan (2025);Wang等人(2026)研究的基于样条的两层KAN公式,我们考虑一个带有B样条基{bk}k=1p\{b_k\}_{k=1}^p的模型。

相似文章

几何科爾莫戈羅夫-阿諾德網絡 (GeoKAN)

arXiv cs.LG

本文介紹了幾何科爾莫戈羅夫-阿諾德網絡 (GeoKAN),這是一個幾何感知模型家族,通過學習黎曼度量來適應坐標,從而實現更優函數近似和物理感知學習。

基于差分隐私原始-对偶视角的可证明后门攻击鲁棒性

arXiv cs.LG

本文介绍了一个框架,通过隐私配置文件将随机平滑与差分隐私联系起来,从而能够针对同时影响训练和推理的后门攻击提供严格的可证明鲁棒性保证。该框架在DP-SGD和深度分区聚合上实例化,并在MNIST和CIFAR-10上进行了实验。