几何感知的神经算子事后不确定性量化

arXiv cs.LG 论文

摘要

提出REEF-GP,一种事后不确定性量化框架,通过将高斯过程拟合到冻结神经算子的残差上并利用其内部嵌入,以低成本实现几何感知且校准的不确定性。

arXiv:2606.17513v1 公告类型:新 摘要:神经算子为偏微分方程提供了快速替代模型,但其确定性预测限制了其在需要不确定性量化(UQ)的任务中的使用,尤其是在几何变化情况下。现有方法主要对网络参数中的不确定性进行建模,很大程度上忽略了算子本身学习到的几何感知表示。我们提出REEF-GP(基于嵌入特征残差的高斯过程),一种事后UQ框架,该框架将高斯过程拟合到冻结神经算子的残差上,其内部嵌入定义了核特征空间。REEF-GP并非学习单独的特征映射,而是调整算子内在的坐标-特征表示以构建几何感知的不确定性。为了确保在非结构化域上的稳定性和可扩展性,REEF-GP引入了谱归一化投影、异方差几何感知噪声以及高效的基于子集的训练,从而避免了限制性的低秩近似。在五个不同几何形状的PDE基准测试中,REEF-GP在保持预测精度的同时,实现了与深度集成相竞争但成本仅为其一小部分的校准不确定性估计。我们的方法在几何分布偏移下仍保持鲁棒性,不确定性集中在物理上有意义的区域(例如激波前沿)。我们的结果表明,直接在神经算子学习到的特征空间中实现准确且可扩展的事后UQ是可行的,为以参数为中心的方法提供了一种实用的替代方案。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:39

# 几何感知的算子学习事后不确定性量化 来源:https://arxiv.org/html/2606.17513 Oriol Vendrell\-Gallart Nima Negarandeh Ramin Bostanabad 加州大学欧文分校机械与航空航天工程系 欧文,CA 92617 \{ovendrel,nnegaran,raminb\}@uci\.edu ###### 摘要 神经算子为偏微分方程提供了快速替代模型,但其确定性预测限制了它们在需要不确定性量化(UQ)的任务中的应用,尤其是在几何可变性下。现有方法主要对网络参数进行不确定性建模,很大程度上忽略了算子本身学习到的几何感知表示。我们提出 REEF\-GP(残差嵌入特征高斯过程),一种事后 UQ 框架,它将高斯过程拟合到冻结神经算子的残差上,该算子的内部嵌入定义了核特征空间。REEF\-GP 并非学习独立的特征映射,而是利用算子内在的坐标-特征表示来构建几何感知的不确定性。为确保在非结构域上的稳定性和可扩展性,REEF\-GP 集成了谱归一化投影、异方差几何感知噪声以及高效的子集训练,避免了受限的低秩近似。在五个具有不同几何形状的 PDE 基准测试中,REEF\-GP 在保持预测精度的同时,实现了与深度集成竞争但成本仅为其一小部分的校准不确定性估计。我们的方法在几何分布偏移下仍然稳健,不确定性集中在物理上有意义的区域(例如激波前沿)。我们的结果表明,可以直接在神经算子的学习特征空间中实现准确且可扩展的事后 UQ,为以参数为中心的方法提供了一种实用替代方案。 ## 1 引言 神经算子在气候学、流体动力学、等离子体物理学和固体力学等领域越来越被用于近似偏微分方程的解。受此广泛采用的推动,近年来其架构设计和训练策略取得了显著进展,以缩小与传统求解器的精度差距,同时提高可扩展性并适应不同几何形状上的 PDE 解。在这方面,Transolver 及其扩展是突出的例子,它们利用基于变压器的主干实现高精度、有效扩展到大规模问题,并原生地在点云或基于网格的数据集上运行。 尽管取得了成功,但大多数神经算子是确定性地构建的,只能提供点估计而忽略了不确定性。这一限制阻碍了它们在需要 UQ 的科学应用或依赖概率预测的下游任务中的采用。解决此问题的现有方法大致分为训练时和事后两类。训练时方法包括黄金标准的深度集成、通过随机正则化技术(如 MC Dropout)的贝叶斯近似,以及本质上概率性的模型如 DINOZAUR,后者使用扩散乘子向傅里叶神经算子引入随机性。与训练时 UQ 相比,事后方法在推理时向预训练模型添加概率组件。这种替代方案特别有吸引力,因为训练神经算子可能是昂贵且资源密集的过程,尤其是对于本质上概率性的变体。最后一层拉普拉斯近似是一种流行且通用的事后技术,最近已应用于算子学习。我们的方法属于事后类别,但与拉普拉斯近似不同,它构建了高斯过程,其均值和核函数围绕预训练的神经算子构建,见图 1。核方法和 GP 最近被用于算子学习,并受益于理论保证和与贝叶斯推断的联系。然而,它们面临与数据集大小和维度相关的可扩展性问题,尤其是在基于网格的数据情况下。此外,无限维空间中的贝叶斯推断本质上是脆弱的:与有限设置不同,如果假设的先验在算子正则性上甚至略有误设,后验可能以高置信度收敛到不正确的解,而不是收缩到真实值。因此,对底层问题的无限维性质不了解的标准近似会引入归纳偏差,容易产生未校准的预测。可靠的 UQ 因此不仅需要近似固定模型的后验,还需要从数据中主动学习最能描述算子几何形状的先验。 我们提出 REEF\-GP,一种新颖的事后 UQ 框架,将冻结的预训练神经算子相对真实解的差异建模为空间坐标和潜在几何特征的函数。我们的主要贡献如下: - • 我们设计了一种几何感知深度核,利用预训练算子的内部表示。这些隐藏层编码了输入几何的变形表示,REEF\-GP 复用它们而不是施加自身的先验。 - • 我们开发了基于随机子集优化和专家乘积的训练和推理过程,使 REEF\-GP 在算子学习数据集的规模上实用。 - • 我们在五个具有挑战性的 2D 和 3D 基准测试中展示了有竞争力的校准性能,包括几何分布偏移的设置。 参见图注 图 1:REEF\-GP 架构。Gθ\mathcal{G}_\theta 是一个冻结的神经算子,将输入函数 u,a 映射到输出函数 v。REEF\-GP 通过在函数回归形式 F 中操作 u,x,h 的拼接 C 来建模 Gθ\mathcal{G}_\theta 的残差差异。在内部,它变换 ρ 从 Gθ\mathcal{G}_\theta 内部层 (h1, hl, hL) 学习到的几何感知嵌入到一个新的空间,核在其中操作。在此示例中,特征-坐标核空间中的嵌入恰好沿着激波位置撕裂几何。差异 δ 在恢复 R 点云形式后加到基础预测上,以获得输出分布。 ## 2 背景与相关工作 ### 2.1 几何感知算子学习 设 U\mathcal{U} 和 V\mathcal{V} 是定义在参考有界域 Ω⊂Rd\Omega\subset\mathbb{R}^d 上的两个 Banach 空间,其中 d 表示空间维度。每个 PDE 实例与一个连续的几何描述符 a∈Aa\in\mathcal{A} 相关联,对应一个特定的物理域 Da⊆ΩD_a\subseteq\Omega。对于任意输入函数与几何对 (u,a)∈U×A(u,a)\in\mathcal{U}\times\mathcal{A},对应的 PDE 解 v∈Vv\in\mathcal{V} 定义在 D_a 上并满足控制方程: P(v,u)(x)\displaystyle\mathcal{P}(v,u)(\mathbf{x}) =0,x∈Da,\displaystyle=0,\quad\mathbf{x}\in D_a, (1) B(v,u)(x)\displaystyle\mathcal{B}(v,u)(\mathbf{x}) =0,x∈∂Da,\displaystyle=0,\quad\mathbf{x}\in\partial D_a, 其中 P\mathcal{P} 和 B\mathcal{B} 分别表示微分算子和边界算子。假设唯一解算子 G†\mathcal{G}^\dagger 存在,我们可以写出: G†:U×A→V.\mathcal{G}^\dagger:\mathcal{U}\times\mathcal{A}\to\mathcal{V}. (2) #### 神经算子。在此框架下,目标是根据给定数据学习无限维算子 G†\mathcal{G}^\dagger。为此,这些模型构建一个参数化算子 Gθ\mathcal{G}_\theta 来逼近 G†\mathcal{G}^\dagger,通过在包含 M 个三元组 {(ui,ai,vi)}i=1M\{(u_i,a_i,v_i)\}_{i=1}^M 的数据集 D\mathcal{D} 上最小化经验风险,其中 vi=G†(ui,ai)v_i=\mathcal{G}^\dagger(u_i,a_i)。虽然 G†\mathcal{G}^\dagger 作用于连续空间,但实际中我们只能访问离散数值评估 {(ui,ai,vi)}i=1M\{(\mathbf{u}_i,\mathbf{a}_i,\mathbf{v}_i)\}_{i=1}^M。对于给定实例,连续域被离散为网格或点云 ai={xj}j=1N⊂Dai\mathbf{a}_i=\{\mathbf{x}_j\}_{j=1}^N\subset D_{a_i},而 vi={vi(xi,j)}j=1N∈RN\mathbf{v}_i=\{v_i(\mathbf{x}_{i,j})\}_{j=1}^N\in\mathbb{R}^N 收集相应的节点解值。算子学习中的大量工作集中于设计能够跨离散化和几何表示解算子的架构。早期的谱方法如 FNO 在规则离散化上特别有效,但最近的几何感知变体适应了不规则域、网格和点云。基于变压器的架构如 Transolver 在此设置中特别相关,因为它们原生地处理一般几何形状,并保留空间对齐的隐藏状态,这些状态随后可用于 UQ。 ### 2.2 高斯过程 GP 提供了一个原则性的贝叶斯回归框架,产生具有校准不确定性估计的闭式后验。我们通过*函数回归*视角将其应用于算子学习:不直接学习输出无限维函数的 G†\mathcal{G}^\dagger,而是学习其评估泛函,因此算子的逐点评估由一个有限维替代表示: G~†:Rdu×Rda×Ω→R,(u,a,x)↦v(x),\widetilde{\mathcal{G}}^\dagger:\mathbb{R}^{d_u}\times\mathbb{R}^{d_a}\times\Omega\to\mathbb{R},\qquad(\mathbf{u},\mathbf{a},\mathbf{x})\mapsto v(\mathbf{x}), (3) 其中 u∈Rdu\mathbf{u}\in\mathbb{R}^{d_u} 和 a∈Rda\mathbf{a}\in\mathbb{R}^{d_a} 是输入函数 u 和几何 a 的离散编码,x∈Da\mathbf{x}\in D_a 是查询坐标。因此,算子学习简化为对增强输入 z=(u,a,x)\mathbf{z}=(\mathbf{u},\mathbf{a},\mathbf{x}) 的标量回归。完整推导见附录 A。给定 M 个样本,每个在 N 个空间点处评估,训练集包含 MN 对 {(zi,vi)}i=1MN={Z,v}\{(\mathbf{z}_i,v_i)\}_{i=1}^{MN}=\{\mathbf{Z},\mathbf{v}\},其中每个 zi=(us(i),as(i),xi)\mathbf{z}_i=(\mathbf{u}_{s(i)},\mathbf{a}_{s(i)},\mathbf{x}_i),s(i) 标识点 i 所属的样本。潜在函数 f(z)f(\mathbf{z}) 上的 GP 先验形式为: f(z)∼GP(m(z;β),k(z,z′;φ)),f(\mathbf{z})\sim\mathcal{GP}\big(m(\mathbf{z};\boldsymbol{\beta}),\ k(\mathbf{z},\mathbf{z}';\boldsymbol{\phi})\big), (4) 具有参数化均值函数和协方差函数 m(⋅)m(\cdot) 和 k(⋅,⋅)k(\cdot,\cdot)。给定带噪声观测 vi=f(zi)+εv_i=f(\mathbf{z}_i)+\epsilon,其中 ε∼N(0,λ2)\epsilon\sim\mathcal{N}(0,\lambda^2),超参数 {β,φ,λ2}\{\boldsymbol{\beta},\boldsymbol{\phi},\lambda^2\} 通常通过最大似然估计优化。测试输入 z∗\mathbf{z}_* 处的后验均值和协方差具有闭式形式: m¯(z∗)=m(z∗)+k(z∗,Z)(K+λ2I)−1(v−m(Z))\bar{m}(\mathbf{z}_*)=m(\mathbf{z}_*)+k(\mathbf{z}_*,\mathbf{Z})(\mathbf{K}+\lambda^2\mathbf{I})^{-1}(\mathbf{v}-m(\mathbf{Z})) 和 k¯(z∗,z∗′)=k(z∗,z∗′)−k(z∗,Z)(K+λ2I)−1k(Z,z∗′)\bar{k}(\mathbf{z}_*,\mathbf{z}_*')=k(\mathbf{z}_*,\mathbf{z}_*')-k(\mathbf{z}_*,\mathbf{Z})(\mathbf{K}+\lambda^2\mathbf{I})^{-1}k(\mathbf{Z},\mathbf{z}_*')。 #### 可扩展性与核设计。标准 GP 从根本上受限于 O(N3)\mathcal{O}(N^3) 时间和 O(N2)\mathcal{O}(N^2) 空间复杂度,使得在算子学习数据集中(可能包含数百万离散点)进行精确推断变得难以处理。此外,常用的可扩展 GP 近似可能引入与几何变化 PDE 替代模型匹配不佳的结构性假设。例如,张量积核自然与规则网格绑定,并施加可分离协方差结构,这对于不规则域上的非平稳和各向异性解场可能具有限制性。同样,基于诱导点的近似如 Nyström、SGPR 和 SVGP 依赖低秩结

相似文章

知识图谱中的可扩展不确定性推理

arXiv cs.AI

本论文提出了一个模块化框架,用于知识图谱中的可扩展不确定性推理,通过定制的代数、逻辑和几何技术,处理不精确的属性值、概率性三元组存在以及不完整的模式知识。

从语言模型轨迹中读取校准后的不确定性

arXiv cs.LG

本文介绍了一种校准语言模型不确定性的方法,该方法从每层MLP更新轨迹中提取十一个尺度不变几何特征,并将其输入稀疏线性探测器,在选择性弃权条件下比MSP表现更好,AURC分数最高提升21点。