物理信息机器学习泛化性的PAC-Bayesian视角
摘要
本文为物理信息机器学习开发了一种PAC-Bayesian框架,为无界损失提供了高概率泛化保证。它提出了一种多任务视角,联合处理数据保真度、偏微分方程残差和边界条件,并引入了一种自界限学习算法。
arXiv:2605.26341v1 Announce Type: new
Abstract: 物理信息机器学习(PIML)将机械知识(通常以偏微分方程(PDE)的形式)整合到数据驱动模型中。尽管有强大的实证性能,但其统计泛化性质仍未被充分理解,特别是在具有无界损失的回归设置中。现有的分析依赖于近似或稳定性论证,并未完全捕捉物理结构如何影响有限数据的泛化。在这项工作中,我们为PIML开发了一个PAC-Bayesian框架,在存在无界损失的情况下提供高概率泛化保证。我们采用多任务视角,联合处理数据保真度、PDE残差、初始条件和边界条件,避免了标准联合界方法导致的松散性。我们的分析利用物理信息目标的结构,推导出新颖的界限,其中复杂度随损失的输入梯度范数缩放,揭示了物理正则性与泛化之间的直接联系。我们在Sobolev和Poincar\'e-type假设下实例化了该框架,得到了两类界限,在不同情况下权衡统计复杂性和平滑性。基于这些结果,我们提出了一种自界限感知学习算法,直接优化所推导界限的可处理替代项,以及在实际设置中估计相关常数的实用程序。在标准PDE基准上的实证评估表明,我们的界限非空,显著比联合界基线更紧,并且可以在训练过程中有效最小化。总的来说,我们的结果为物理信息模型的泛化提供了原则性的统计基础。
查看缓存全文
缓存时间: 2026/05/27 09:08
# 物理信息机器学习的 PAC-Bayesian 泛化观点 **来源:** https://arxiv.org/html/2605.26341 **Thien V. Nguyen** 让·莫内大学圣艾蒂安,法国国家科学研究中心,光学研究所,于贝尔·居里实验室 UMR 5516,F-42023,圣艾蒂安,法国 [email protected] **Amaury Habrard** 让·莫内大学圣艾蒂安,法国国家科学研究中心,光学研究所,于贝尔·居里实验室 UMR 5516,Inria,F-42023,圣艾蒂安,法国 法国大学研究院 [email protected] **Benjamin Guedj** Inria 与伦敦大学学院,法国与英国 [email protected] ###### 摘要 物理信息机器学习(PIML)将机械知识(通常以偏微分方程(PDE)的形式)整合到数据驱动模型中。尽管经验性能强劲,但其统计泛化性质仍然鲜为人知,尤其是在具有无界损失的回归设定中。现有分析依赖于近似或稳定性论证,并未完全捕捉物理结构如何影响有限数据的泛化。在这项工作中,我们为 PIML 开发了一个 PAC-Bayesian 框架,该框架在存在无界损失的情况下提供高概率的泛化保证。我们采用多任务视角,联合处理数据保真度、PDE 残差、初始条件和边界条件,避免了标准联合界方法导致的松散性。我们的分析利用物理信息目标的结构来推导新的界限,其中复杂度与损失的输入梯度范数成比例,揭示了物理正则性与泛化之间的直接联系。我们在 Sobolev 和 Poincaré 型假设下实例化此框架,得到两类界限,在不同 regime 中权衡统计复杂性和光滑性。基于这些结果,我们提出了一种自界感知学习算法,该算法直接优化所推导界限的可处理代理,并提供了在实际设置中估计相关常数的实用程序。在标准 PDE 基准上的实证评估表明,我们的界限是非退化的,比联合界基线显著更紧,并且可以在训练期间有效最小化。总体而言,我们的结果为物理信息模型的泛化提供了一个原则性的统计基础。 ## 1 引言 物理信息机器学习(PIML, Karniadakis 等人,2021 (https://arxiv.org/html/2605.26341#bib.bib25))旨在将先验科学知识(通常以偏微分方程(PDE)的形式)整合到数据驱动模型中。通过物理定律约束假设空间,PIML 在包括正问题、反问题、科学模拟和混合建模等一系列应用中展现了强劲的经验性能。这些方法的一个核心前提是,物理结构应通过减少学习模型的有效复杂度来改善泛化。尽管有这种直觉,物理约束影响泛化的统计机制仍然鲜为人知。现有对 PIML 的理论分析主要关注近似误差或优化行为,仅部分解决了基本统计问题:在有限数据上训练的模型对未见输入的泛化效果如何?这种差距在现实设置中尤为突出,其中损失是无界的,并且多个异质目标(数据保真度、PDE 残差和边界条件)被联合优化。 在众多最突出的方法中,物理信息神经网络(PINNs)Raissi 等人(2019 (https://arxiv.org/html/2605.26341#bib.bib26))通过在训练期间惩罚对控制方程的违反来强制实施物理约束,而基于核方法(Doumèche 等人,2025a (https://arxiv.org/html/2605.26341#bib.bib34))和变分原理(Rojas 等人,2024 (https://arxiv.org/html/2605.26341#bib.bib44))的替代公式最近引起了关注。然而,对 PIML 方法泛化能力的理论理解仍然是一个具有挑战性的问题。大量结果研究了学习 PINNs 的难度,建立了收敛率(Shin 等人,2023 (https://arxiv.org/html/2605.26341#bib.bib33);Doumèche 等人,2025b (https://arxiv.org/html/2605.26341#bib.bib29))。Ryck 和 Mishra(2022 (https://arxiv.org/html/2605.26341#bib.bib27));Mishra 和 Molinaro(2022 (https://arxiv.org/html/2605.26341#bib.bib31))提出了一种基于稳定性性质和近似结果推导泛化界限的通用方案。一些论文基于(局部)Rademacher 复杂度研究了泛化(Jiao 等人,2022 (https://arxiv.org/html/2605.26341#bib.bib32);Lu 等人,2022 (https://arxiv.org/html/2605.26341#bib.bib30);Xu 等人,2025 (https://arxiv.org/html/2605.26341#bib.bib28))。相关工作在附录 D (https://arxiv.org/html/2605.26341#A4) 中讨论。 在本文中,我们通过 PAC-Bayes 理论(Alquier, 2024 (https://arxiv.org/html/2605.26341#bib.bib37);Guedj, 2019 (https://arxiv.org/html/2605.26341#bib.bib38);Hellström 等人,2025 (https://arxiv.org/html/2605.26341#bib.bib36))为 PIML 问题提供了一个新颖的视角。该理论提供了一个强大的框架来研究模型性能,考虑了随机预测器并建立了稳健、灵活的泛化保证。该框架的一个核心特征是经验性能与模型复杂度之间的权衡,通常通过数据相关的后验分布与先验之间的信息论散度来量化。这一视角对 PIML 特别有吸引力,因为它能够以结构化先验或假设空间上的约束形式整合物理知识。然而,将 PAC-Bayes 工具应用于 PIML 带来了重大挑战。早期的 PAC-Bayesian 工作集中于分类的有界损失,而 PIML 本质上是一个具有无界损失函数(例如,平方误差或微分算子的残差)的回归框架,这些损失函数可能表现出复杂的尾部行为。因此,标准 PAC-Bayes 界限(其推导通常依赖于有界性假设或次高斯尾部)并不直接适用。将 PAC-Bayesian 保证扩展到这种 PIML regime 因此需要控制可能具有重尾的损失的指数矩,这是一项非平凡的任务,需要额外的结构假设,例如假设损失的高阶矩有界(Haddouche 和 Guedj,2023 (https://arxiv.org/html/2605.26341#bib.bib40);Holland,2019 (https://arxiv.org/html/2605.26341#bib.bib39))或累积生成函数(CGF)有界(Casado 等人,2024 (https://arxiv.org/html/2605.26341#bib.bib4);Rodríguez-Gálvez 等人,2024 (https://arxiv.org/html/2605.26341#bib.bib16))。然而,这些假设引入了在实践中难以估计或优化的新参数或常数,并且它们与界限、数据或底层物理约束的联系仍然不那么直观。 在这项工作中,我们通过开发专为回归设定中具有无界损失的物理信息学习量身定制的 PAC-Bayesian 泛化界限来弥补这一空白。我们的方法明确考虑了 PIML 的混合性质,其中学习目标结合了数据拟合项和基于物理的正则化项,该正则化项通过微分算子编码先验知识。我们展示了如何在 PAC-Bayesian 框架内利用这一结构来推导超越经典有界损失设定的有意义的泛化保证。特别是,我们提供了捕捉数据、模型复杂度和物理先验强度之间相互作用的界限,从而为物理何时以及如何改善学习提供了新的见解。 我们的关键见解是,PIML 具有自然的多任务结构,其中数据和物理约束可以在单个 PAC-Bayesian 分析中联合处理。利用这一结构使我们能够推导出比基于独立处理每个损失的标准方法显著更紧的界限。此外,我们表明,物理约束与泛化之间的相互作用可以通过输入梯度相关的复杂度项来捕捉,揭示了物理诱导的光滑性与统计性能之间的直接联系。 我们的贡献如下: - 我们从多任务的角度处理 PIML 问题,并提出两种不同的光滑性假设,即 Sobolev(3.2 (https://arxiv.org/html/2605.26341#S3.Thmtheorem2))(较强)和 Poincaré(3.4 (https://arxiv.org/html/2605.26341#S3.Thmtheorem4))(较弱),以推导两个新的界限(定理 3.3 (https://arxiv.org/html/2605.26341#S3.Thmtheorem3) 和定理 3.4 (https://arxiv.org/html/2605.26341#S3.Thmtheorem4)),其中复杂度与损失相对于输入的梯度的加权范数成比例。 - 为了补充我们的理论,我们通过一个原则性的程序来估计 Sobolev 和 Poincaré 常数,以反映真实的模型和数据分布,从而检验底层假设的实际可行性。使用这些估计器,我们提出了一种自界 PIML,它通过最小化随机代理目标直接针对所推导的泛化界限,从而产生一种使优化与理论保证相一致的实用训练程序。 - 我们在 PDE 基准上评估了我们的算法及相关的泛化界限。结果表明,我们的界限比经典的联合界基线要紧得多,并且自界过程在实践中可靠地降低了界限。有趣的是,我们表明,仅利用输入域上的 PDE 结构(无需额外的标记数据来学习先验)就可以构建有信息的先验,从而在保持标签效率的同时提高界限的紧度。 ## 2 预备知识 ### 2.1 物理信息机器学习 一个具有方程约束、初始条件(ICs)和边界条件(BCs)的 PDE 可以表述为: D\[u\](x) = 0, x ∈ Ω; I\[u\](0, x) = 0, x ∈ Ω₀; B\[u\](x) = 0, x ∈ ∂Ω, (1) 其中 D, I, B 分别是(残差)导数算子、初始算子和边界算子。目标是学习目标函数 u : ℝᵈ → ℝ,它将输入向量 x ∈ Ω ⊂ ℝᵈ 映射到输出值 y ∈ ℝ。这里 x ∈ ℝᵈ 表示输入坐标,由时间和空间位置组成。Ω₀ 对应于 t=0 的实例,而 ∂Ω 对应于极端空间位置。 我们的目标是学习一个参数化模型 u_θ,该模型近似真实函数 u,其中 θ ∈ ℝᵈ 是属于模型类 Θ 的参数集。在不造成混淆的情况下,θ ∈ Θ 表示一个模型及其参数,令 d_θ := d,我们还假设 u_θ 属于 Sobolev 空间 H¹(Ω)。通常,学习是通过最小化以下物理信息机器学习风险来完成的: R̂_PIML_λ(θ) = λ_d R̂_d(θ) + λ_p R̂_p(θ) + λ_ic R̂_ic(θ) + λ_bc R̂_bc(θ) = λ_d / |S_d| ∑_{(x,y)∈S_d} ℓ_d(u_θ(x), y) + λ_p / |S_p| ∑_{x∈S_p} ℓ_p(D[u_θ](x)) + λ_ic / |S_ic| ∑_{x∈S_ic} ℓ_ic(I[u_θ](x)) + λ_bc / |S_bc| ∑_{x∈S_bc} ℓ_bc(B[u_θ](x)), (2) 其中 ℓ_d, ℓ_p, ℓ_ic, ℓ_bc 分别是数据保真度、PDE、IC 和 BC 损失函数。注意 ℓ_p, ℓ_ic, ℓ_bc 是基于物理的损失项。我们令 S_d, S_p, S_ic, S_bc 为对应的观测点集和 PDE、IC、BC 配置点集,这些点集跨数据集独立抽取,且在每个数据集内部独立同分布。我们考虑一个灵活的框架,其中每个样本可以由不同的概率分布生成,模拟可能不同的采集过程。注意 S_d 在 Ω × ℝ 上生成,而其他在 Ω 上生成。为方便起见,我们使用一个轻微的符号滥用,用通用损失 ℓ_i(θ, x) 表示,其中 x 根据所考虑的损失表示来自 Ω × ℝ 或 Ω 的数据,但输入梯度 ∇_x ℓ_i(θ, x) 始终相对于输入空间 Ω 考虑。 超参数 λ_d, λ_p, λ_ic, λ_bc 控制这些损失项的相对重要性。此公式鼓励学习模型不仅匹配观测数据,而且与由 PDE 编码的底层物理定律保持一致。它可以被视为一个多任务问题,具有共享主干和由控制 PDE 系统确定的确定性、非学习头。因此,为了简化后续的理论分析,我们考虑一个包含 N_L 个损失分量的物理信息优化问题,其中第 i 个分量是 ℓ_i,并在从底层分布 D_i 采样的数据集 S_i 上进行训练。 此外,对于任意损失函数 ℓ,记 R(θ) = E_x ℓ(θ, x) 和 R̂(θ) = 1/|S| ∑_{x∈S} ℓ(θ, x) 为其总体(真实)风险和在训练集 S 上的经验风险。这样,我们可以将上述加权经验 PIML 风险重写为: R̂_PIML_λ(θ) = ∑_{i=1}^{N_L} λ_i R̂_i(θ)。 训练 PINNs 具有挑战性,典型
相似文章
具有可学习损失平衡和迁移学习的物理信息神经网络
本文提出了一种自监督物理信息神经网络(PINN)框架,该框架通过可学习的混合神经元自适应地平衡基于物理和数据驱动的损失,并结合迁移学习以提高数据稀缺情况下的效率。该框架在仅有87个数据点的液态金属微型散热器CFD数据上进行了验证,误差低于8%。
基于空间相关性的物理信息神经网络课程学习
本文提出了一种基于空间相关性的物理信息神经网络(PINNs)课程学习框架,通过利用子区域间的空间相关性来提高训练稳定性和求解精度,解决了高维非凸损失景观和多目标约束不平衡等问题。
PIMSM: 物理信息驱动的多尺度Mamba:分布偏移下稳定的神经表示
本文提出物理信息驱动的多尺度Mamba(PIMSM),这是一种状态空间架构,它将模型记忆与物理时间尺度对齐,以提升在科学时间序列分布偏移下的鲁棒性,并在fMRI和天气预报任务上展示了改进。
MMD球作为信度集:测试时自适应中认知不确定性的PAC-贝叶斯框架
本文开发了一种用于测试时自适应的PAC-贝叶斯框架,该框架使用MMD球作为信度集,提供了形式化的泛化界,并在分布偏移下区分认知不确定性与偶然不确定性。
从隐私到泛化:DP-SGD的线性最大信息界
本文证明了DP-SGD近似最大信息的一个有限样本界,该界最多与数据集大小成线性关系,从而为差分隐私训练的模型带来了PAC-Bayes泛化界。