具有可处理不确定性量化的结构保持神经替代模型

arXiv cs.LG 论文

摘要

本文提出了针对偏微分方程的结构保持神经替代模型,该模型集成了Gaussian process regression以提供可处理的不确定性量化,从而能够实现具有闭式误差估计的实时仿真。

arXiv:2606.11650v1 Announce Type: new 摘要:科学机器学习的最新进展为偏微分方程(PDE)提供了近乎实时的求解方法,但这些方法缺乏支持当代验证与确认的传统模拟器的理论基础。在这项工作中,我们构建了数据驱动的降阶模型,作为保持结构的实时替代模型。值得注意的是,施加物理守恒结构的外微分也暴露了拓扑结构,我们利用该拓扑结构构建了状态-通量关系中不确定性的Gaussian process (GP)表示,最终为目标量(quantities of interest)生成了具有后验不确定性闭式表达的Dirichlet-to-Neumann映射。我们特别提出了由轻量级Transformer定义的常规Raviart--Thomas和$dgP_0$单元的结构保持$H(\mathrm{div})$--$L^2$子空间。通过提出一个守恒定律来学习与该子空间一致的降阶动力学,其中GP描述了体积之间的通量。这项工作的关键在于混合FEM空间与GP回归之间的新颖接口;当训练被表述为最优恢复问题(ORP)时,得到的GP回归可以写成一个带等式约束的优化问题,这些约束施加了守恒结构,适合使用快速的Schur-complement训练策略。训练后的模型可以实时求解,并利用闭式估计量计算由给定Dirichlet数据驱动的边界通量。本文还提供了用于不确定性量化的线性泛函RKHS后验误差界,以及展示后验分布作为误差估计替代模型准确性的数值实验。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:51

# 结构保持且可处理不确定性量化的神经替代模型††thanks: \funding本工作基于美国能源部科学办公室高级科学计算研究办公室支持,奖项编号 DE-SC0024563 和 DE-SC0023163。来源:https://arxiv.org/html/2606.11650 \\newsiamremark remarkRemark\\newsiamremarkhypothesisHypothesis\\newsiamthmclaimClaim\\newsiamremarkfactFact\\headers结构保持且可处理不确定性的神经替代模型Zhang 等人\\externaldocument\[\]\[nocite\]ex\_supplement Handi Zhang应用数学与计算科学,宾夕法尼亚大学,费城,PA,美国。Adrienne M. Propp计算与数学工程研究所,斯坦福大学,斯坦福,CA,美国。Brooks KinchHouman Owhadi计算与数学科学系,加州理工学院,帕萨迪纳,CA,美国。Nathaniel Trask机械工程与应用力学,宾夕法尼亚大学,费城,PA,美国。###### 摘要 科学机器学习的最新进展为偏微分方程(PDE)的近实时求解提供了手段,但缺乏支持当代验证与确认的传统模拟器的理论基础。在本工作中,我们构建了数据驱动的降阶模型,作为结构保持的实时替代模型。值得注意的是,强加物理守恒结构的外微积分也暴露了拓扑结构,我们利用该拓扑结构构建了状态-通量关系中不确定性的高斯过程(GP)表示,最终得到了感兴趣量的狄利克雷到诺伊曼映射,并具有后验不确定性的闭式表达式。我们特别提出了由轻量级 transformer 指定的传统 Raviart–Thomas 和 dgP\_0 元素的 H(div)–L^2 子空间中的结构保持降阶。与该子空间一致的降阶动力学是通过提出一个守恒律来学习的,其中 GP 描述了体积之间的通量。本工作依赖于混合有限元空间与 GP 回归之间的新颖接口;当训练被表述为最优恢复问题(ORP)时,得到的 GP 回归可写为具有等式约束的优化问题,这些约束施加了守恒结构,并且适用于快速的 Schur 补训练策略。然后,可以在实时中求解训练后的模型,并提供闭式估计器,用于由指定狄利克雷数据驱动的边界通量。本文包含线性泛函的 RKHS 后验误差界,以支持不确定性量化,以及数值实验,展示了后验分布作为误差估计替代物的准确性。###### 关键词: 科学机器学习, Whitney 形式, 有限元外微积分, 最优恢复, 不确定性量化 {MSCcodes} 65N30, 81Q30, 68T07, 60G15, 90C70 ## 1问题概述及与文献的关系 神经算子和其他机器学习替代模型因其计算效率以及跨问题实例泛化的能力,正成为经典模拟的实用替代方案。然而,这些方法的黑箱性质仍然是其在科学和工程应用中被采纳的主要障碍,并为不确定性量化(UQ)带来了挑战,因为误差可以通过学习到的解算子传播,并进一步影响下游预测,且缺乏清晰的追溯性 [abdar2021review, NAP29212]。此外,对于由偏微分方程(PDE)控制的系统,学习到的替代模型还应尊重底层的物理约束,例如守恒律以及初始条件和边界条件。受这一差距的启发,我们提出了一个用于 PDE 控制系统的替代框架,该框架支持快速模拟,同时提供可处理的后验不确定性。考虑以下抽象问题,我们将在第 4 节详细阐述。设 u∈Q 是 Ω⊂R^d 上的场(自然地,Q⊂L^2(Ω)),假设满足未知的守恒律 ∇·F(u)=f,其中 F∈V 是给定的通量函数(自然地,V⊂H(div;Ω))。我们假设可以访问由采样状态和通量场 u 和 F 组成的数据。此外,我们允许对条件变量 Z 的参数依赖性,该变量可以表示本构关系、几何或其他因素,从而得到训练集 D\_N = {(z^(n), u_data^(n), F_data^(n))}_{n=1}^N。我们的目标是确定 F 的函数形式,该形式与可用数据一致,支持可处理的后验估计,并能泛化到训练中未见过的边界数据。这个学习问题必须在适当的离散设置中提出,以便得到的替代模型保留底层 PDE 的结构。我们假设通量可以分解为以下形式 (1) F = -ε∇u + N[u], ∇·F = f,其中包含一个用于数值稳定性的扩散项(ε>0)和一个从数据中识别状态到通量映射的非线性修正 N。在之前的工作中,我们展示了神经算子如何充当 N [kinch2025structure];这里我们将 N 视为高斯过程(GP)。经典 GP 在小数据、低维设置中最易处理,本工作的一个主要贡献是,下面开发的简化图表示将原本无限维的状态-通量学习问题带入了正好这样的一个机制。参见图 1 的说明。图 1: 具有量化不确定性的结构保持替代模型路线图。Transformer 学习 H(div)-协调基,并构建一个适应条件变量 Z 的保守粗图(框 1-3)。图的边承载状态-通量定律的 GP 模型,而守恒被作为精确的散度约束强制执行(框 4),得到的降阶模型充当狄利克雷到诺伊曼替代模型,并带有边界通量的后验误差估计(框 5)。所提出的方法将学习任务分为两部分:一个数据驱动模型,将细尺度空间映射到粗尺度空间(P1);以及一个用于通量修正的随机模型,支持不确定性量化(P2)。由于完整的构造是技术性的,我们首先总结各自的主要特征。H(grad) H(curl) H(div) L^2 Λ0 Λ1 Λ2 Λ3 V_h^c Q_h^c d d d d ∇ ∇× ∇· ∇· r_V r_Q H(div)–L^2 子复形图 2: 构造 H(div)-协调的降阶子空间。我们设计了一个 transformer,它输出适用于强加守恒律的 de Rham 复形的子空间。虽然之前的工作构建了“自底向上”的双 Λ0/Λ1 降阶子复形 [actor2024data],但本工作提供了 Λd/Λd-1 上的“自顶向下”原始子复形。Transformer 指定了以 Z 为条件的限制映射 r_Q,并且我们提供了 r_V 的兼容构造,该构造定义了粗化的 RT0-dgP\_0 子空间,保留了散度的满射性。在 P1 中,我们使用低阶 Whitney 形式 [arnold2010finite],这些形式提供了协调的有限元空间,编码了与守恒结构相关的拓扑和上同调性质。这里 Raviart–Thomas 和不连续分段常数(RT0/dgP0)对是自然协调的,有 RT0⊂H(div;Ω) 和 dgP0⊂L^2(Ω),并且具有满射性 ∇·: RT0→dgP0。由于这个空间插值了基于单元的数量自由度与基于面的通量自由度,它提供了一个离散的散度定理,允许离散的 div/grad 矩阵被解释为单元与面之间的邻接矩阵。这种 div/grad 的双重解释是场上贝叶斯分析的关键要素:在之前的工作 [owhadi2022computational, propp2026discovery] 中,我们展示了如何使用最优恢复来学习具有可处理后验的电路模型,而这种联系使我们能够将分析扩展到有限元场。目标是识别降阶空间 Q_h^c(z;θ)⊂Q_h^f 和 V_h^c(z;θ)⊂V_h^f,其中上标 ·f 和 ·c 分别表示细空间和粗空间,下标 ·h 表示离散化。为了在降阶空间中保持外微积分结构,我们需要一种构造,其中限制映射 r_Q: Q_h^f→Q_h^c 和 r_V: V_h^f→V_h^c 与散度算子交换,使得 ∇· V_h^c ⊆ Q_h^c。为了实现这一点,我们首先设计一个 transformer,通过输出一个粗化矩阵 W 来计算 r_Q,使得 Q_h^c = span{∑\_a W\_ia χ\_a}\_i,其中 χ\_a 是覆盖 Q_h^f 的单元上的指示函数。然后,我们通过识别与粗单元之间共享的粗面对应的粗化自由度来设计 V_h^c。这种新颖的构造代表了 (Λd/Λd-1) 子复形的“自顶向下”粗化,与之前开发的 (Λ0/Λ1) 的“自底向上”粗化 [actor2024data] 形成对比。因此,P1 产生了一个可以以 Z 为条件的降阶 H(div)-协调有限元空间。在 P2 中,我们将物理的离散表示作为最优恢复问题 [owhadi2022computational] 提出。我们通过基系数 F̂ 和 û 来识别 F∈V_h^c 和 u∈Q_h^c,其中每个粗通量自由度 F̂\_ij 与 P1 诱导的图中粗单元 û\_i 和 û\_j 共享的粗定向边界相关联。我们通过高斯过程逐边建模非线性:N = GP(u\_ij),其中 u\_ij 连接了状态 û\_i, û\_j 以及跨网格泛化通量定律所需的附加度量特征。在传统的 GP 回归中,后验分布通过 Schur 补从联合正态分布导出。其均值可以通过求解最优恢复问题等价获得:给定一个核 K 及其再生核希尔伯特空间(RKHS)H\_K,以及 N 个含噪声的数据对 (X,Y) = {(x\_i, y\_i)}_{i=1}^N,噪声方差为 σ\_ε^2,则最小化 RKHS 范数与数据失配惩罚的 (2) f̂ = argmin\_{f∈H\_K} ||f||\_{H\_K}^2 + (1/σ\_ε^2) ∑\_{i=1}^N (f(x\_i) - y\_i)^2,恢复了传统的 GP 估计器 f̂(·) = K(·,X) (K(X,X) + σ\_ε^2 I)^{-1} Y。以这种方式重新表述传统的 GP 问题允许我们直接包含等式约束。在 P1 的图解释中,V_h^c 上的通量是节点之间(节点与 Q_h^c 中的状态相关联)的边电流。在每条边上,我们施加一个最优恢复问题,将状态映射到通量,同时受限于每个节点处守恒律成立的等式约束。粗基的连通性通过度量加权在这个稠密图上施加稀疏性,训练后我们得到一个离散边值问题,其边界通量由 GP 编码。由于这是一个约束优化问题,其 KKT 条件暴露了一个鞍点结构,我们利用该结构推导了一个快速优化器(第 4.2 节)。共同地,P1 和 P2 构成一个图发现问题:通过同时训练 transformer 和求解最优恢复问题,我们将降阶 div/grad 有限元空间的识别解释为一个稠密图的识别,该图由基的连通性稀疏化,编码了守恒量通过系统的流动(图 1)。虽然电路类比在工程中很常见(例如,半导体器件的紧凑模型 [pmlr-v107-aadithya20a, fan2023two],流体动力学中的液压回路 [9385620, vacca2021hydraulic],或传热的热回路 [wang2017microscale]),但它们通常是通过简化的解析解和经验曲线拟合通过缓慢的迭代过程构建的。相比之下,我们的方法可以自主执行,以获得快速、不确定性量化的替代模型,同时保持保守的输入/输出关系。我们通过考虑两个代表性例子来演示这一点。在费城自由钟的三角形网格上的对流-扩散问题,用于说明如何在复杂几何上构造具有量化不确定性的实时替代模型;在此设置中,我们将对流方向作为条件变量,作为如何构建参数化模型的例子。最后,我们构建了一个半导体器件(具体是 p-n 二极管)的数字孪生。训练数据可以通过求解器件漂移-扩散方程的 TCAD 模拟 [musson2022charon] 构建,提供内部器件输运的例子以及如何定义控制器件的电压-电流关系。该问题特别展示了这里开发的 UQ 如何识别学习到的替代模型可以信赖的输入范围。 ### 1.1 与文献的关系 上述构造将通常分别追求的三个目标结合在一起:快速降阶模拟、物理结构的精确强制以及不确定性量化。我们依次评述每个方面。诸如有限元方法之类的经典离散化方法产生准确、可验证的预测,但成本高昂,这催生了大量科学机器学习(SciML),它牺牲严谨性以换取速度。物理信息神经网络(PINNs)将控制 PDE 嵌入训练损失中 [karniadakis2021physics, yu2022gradient];神经算子,如 DeepONet [deeponetNatureML, pideeponet] 和傅里叶神经算子 [li2020fourier],学习函数空间之间的映射;数据驱动的降阶模型(ROMs)通过在低维子空间中工作来加速参数化模拟 [fresca2022pod, jung2025accelerating, kapteyn2022data]。这些替代模型可以很快,但通常放弃了标准。

相似文章

使用随机梯度马尔可夫链蒙特卡罗的大样本准确不确定性量化

arXiv cs.LG

本文提出了针对带动量和不带动量的随机梯度Langevin动力学(SGLD)的新离散时间近似方法,能够准确预测平稳协方差、迭代平均协方差和积分自相关时间。该方法为大样本不确定性量化提供了改进的调参指导,尤其在模型错误指定情况下。