神经算子的定量 Sobolev 逼近界及其在 Burgers 方程上的实证验证

arXiv cs.LG 论文

摘要

本文建立了神经算子的定量 Sobolev 逼近界,证明了算子可以以显式的复杂度-误差关系进行一致逼近。通过在 Burgers 方程上对 Fourier 神经算子(FNOs)进行验证,展示了 Sobolev 空间逼近理论能够准确预测其缩放行为。

arXiv:2605.08170v1 公告类型:新论文 摘要:神经算子已成为学习无限维函数空间之间映射的强大工具。然而,即便 Sobolev 范数同时控制函数值及其导数,并且是偏微分方程适定性、稳定性和泛化能力的自然度量,神经算子在此类范数下的逼近性质仍未得到充分量化。我们开发了一个用于 Sobolev 空间中算子学习的泛函分析框架,并将其与 Fourier 神经算子(FNOs)在典型偏微分方程上的数值表现联系起来。首先,对于连续非线性算子 $\mathcal{G}: H^{s}(D)\to H^{t}(D')$(其中 $s > d/2$,且输入限制在 $H^{s}(D)$ 的一个紧子集内),我们证明了该算子可以通过具有 $\mathcal{O}(\varepsilon^{-d/s})$ 个可训练参数的神经算子在 $H^{t}$-范数下进行一致逼近。这得出了形式为 $\|\mathcal{G}-\mathcal{G}_\theta\|_{H^{t}} \lesssim C N^{-s/d}$ 的显式复杂度-误差关系。随后,我们研究了有界 $H^{1}$-球上的一维粘性 Burgers 解算子 $\mathcal{G}: u_{0}\mapsto u(\cdot,1)$,并使用 $H^{1}$-损失训练 FNOs。在跨越不同模型大小的测试中,我们获得了低至 $\mathcal{O}(10^{-7})$ 的测试 $H^{1}$ 误差和 $10^{-3}$ 量级的相对误差,其预测结果在保留数据上准确匹配了真实解及其空间导数。Sobolev 误差与参数数量之间的对数-对数图显示出近似幂律关系 $\|\mathcal{G}-\mathcal{G}_\theta\|_{H^{1}} \approx C N^{-\alpha}$,经验指数 $\alpha \approx 1.4$;此外,长周期训练揭示了大型 FNOs 中的优化不稳定性,这提供了定量证据,表明 Sobolev 空间逼近理论能够有意义地预测神经算子的缩放行为。
查看原文
查看缓存全文

缓存时间: 2026/05/12 06:55

# 神经算子在Burgers方程上的Sobolev逼近界定量分析及实证验证

来源: https://arxiv.org/html/2605.08170
Nicole Hao 康奈尔大学数学系 yh397@cornell\.edu

###### 摘要

神经算子(Neural Operators)已成为学习无限维函数空间之间映射的强大工具。然而,尽管Sobolev范数能够同时控制函数值及其导数,并且是偏微分方程(PDE)适定性、稳定性和泛化能力的自然度量,但神经算子在Sobolev范数下的逼近性质仍未得到充分的量化。我们建立了一个用于Sobolev空间中算子学习的泛函分析框架,并将其与傅里叶神经算子(Fourier Neural Operators, FNOs)在典型PDE上的数值行为联系起来。首先,对于一个连续非线性算子 $\mathcal{G}: H^s(D) \to H^t(D')$,其中 $s > d/2$,且输入限制在 $H^s(D)$ 的一个紧子集上,我们证明了 $\mathcal{G}$ 可以被一个具有 $O(\varepsilon^{-d/s})$ 个可训练参数的神经算子在 $H^t$-范数下均匀逼近。这得出了一种形式的显式复杂度-误差关系:$\|\mathcal{G} - \mathcal{G}_\theta\|_{H^t} \lesssim C N^{-s/d}$。随后,我们研究了一维粘性Burgers方程的解算子 $\mathcal{G}: u_0 \mapsto u(\cdot, 1)$ 在有界 $H^1$-球上的表现,并使用 $H^1$-损失函数训练FNO。在不同模型规模的实验中,测试集的 $H^1$-误差降至 $O(10^{-7})$ 级别,相对误差量级为 $10^{-3}$,预测结果在保留数据上与真实解及其空间导数高度吻合。Sobolev误差与参数数量的对数-对数图显示了近似的幂律关系 $\|\mathcal{G} - \mathcal{G}_\theta\|_{H^1} \approx C N^{-\alpha}$,经验指数 $\alpha \approx 1.4$。长期训练揭示了大型FNO中的优化不稳定性,提供了定量证据,表明Sobolev空间逼近理论能够有意义地预测神经算子的缩放行为。

## 1 引言

从复杂度的角度来看,神经算子虽然强大,但其理论尚不够清晰。在科学机器学习中,它们越来越多地被用作PDE求解器的分辨率无关的替代模型,但从业者仍然凭经验选择模型规模,缺乏关于Sobolev范数误差如何随参数变化的指导。我们通过证明Sobolev空间的逼近界并在经典PDE上进行验证来弥合这一差距,旨在为算子学习流水线中的原则性模型尺寸选择和精度控制提供依据。

算子学习指的是近似无限维函数空间之间映射的任务,例如由依赖于初始条件或系数的偏微分方程解所产生的映射。形式上,我们要学习一个算子

$\mathcal{G}: \mathcal{X} \to \mathcal{Y},$

其中 $\mathcal{X}$ 和 $\mathcal{Y}$ 通常是函数的Banach或Hilbert空间,例如Sobolev空间。

这种学习范式在科学机器学习社区引起了广泛关注,因为它可以绕过传统的数值求解器,直接从数据中对复杂的解算子进行建模。从泛函分析的角度来看,在Sobolev空间 $\mathcal{X} = H^s(D)$ 和 $\mathcal{Y} = H^t(D')$ 之间学习算子,引发了在高维 regime 下关于逼近理论、连续性和泛化的重要问题。尽管如DeepONet(Lu et al., 2021 (https://arxiv.org/html/2605.08170#bib.bib4))等神经算子在经验上取得了成功,但它们在Sobolev范数下的逼近性质(控制函数值及其导数)仍然相对研究不足。澄清这些性质与机器学习实践直接相关。它提供了架构规模、底层PDE的正则性以及下游模拟、控制和设计任务中学到的替代模型的准确性之间的原则性联系。

本文旨在将泛函分析(特别是Sobolev空间)的研究与科学机器学习中的算子学习联系起来。我们的贡献如下:

1. 1\. 建立深度神经网络在Sobolev空间 $\mathcal{X} = H^s(D) \to \mathcal{Y} = H^t(D')$ 之间映射的逼近界,明确依赖于领域维度和平滑度,作为神经网络通用逼近定理的延续和细化。
2. 2\. 在PDE解算子学习设定中进行数值验证,展示基于Sobolev的界限如何在傅里叶神经算子的具体缩放定律中体现(参见结论与未来工作部分,以获取指向代码及关联GitHub仓库中正在进行的数值更新的链接)。

这些目标对科学机器学习有直接的影响。许多物理系统,特别是那些受PDE支配的系统,自然地由函数之间的映射来描述。例如,求解PDE通常相当于给定初始或边界条件 $u_0(x)$ 后计算解 $u(x,t)$。这类映射不是逐点的,而是涉及整个函数作为输入和输出,使它们成为*算子*。如果没有逼近界,我们就没有严格的保证表明神经网络可以以指定的Sobolev精度学习目标算子,也无法定量地了解为了实现给定的误差容忍度,模型规模必须如何增长。

为了严格地对这类映射进行建模,我们特别考虑Sobolev空间。Sobolev空间自然地纳入了弱导数,使其非常适合可能无法经典可微的PDE解(例如激波)。空间 $H^s(D)$ 是Hilbert空间,提供了内积、正交基和投影定理,我们在构造中利用了这些性质。最后,根据Rellich–Kondrachov紧性定理,$H^s$ 的有界子集紧嵌入到低阶Sobolev空间或连续空间中,这使得使用有限维神经网络来近似无限维映射在数学上成为可能。我们将专门用一个章节来讨论Rellich–Kondrachov定理,并解释它如何支撑我们为神经算子建立的Sobolev逼近界。

## 2 Sobolev空间与算子学习

### 2\.1 问题设定

令 $D \subset \mathbb{R}^d$ 为一个有界Lipschitz域 (https://arxiv.org/html/2605.08170#A1.SS1)。对于 $s \in \mathbb{N}$,Sobolev空间 (https://arxiv.org/html/2605.08170#A1.SS2) $H^s(D)$ 由平方可积函数 (https://arxiv.org/html/2605.08170#A1.SS4) 组成,其直至阶数 $s$ 的弱导数也是平方可积的:

$H^s(D) := \left\{ f \in L^2(D) \; \middle|\; \partial^\alpha f \in L^2(D), \; \forall |\alpha| \le s \right\},$

其范数为

$\|f\|_{H^s(D)} := \left( \sum_{|\alpha| \le s} \int_D \|\partial^\alpha f(x)\|^2 \, dx \right)^{1/2}.$

令

$\mathcal{X} = H^s(D)$

和

$\mathcal{Y} = H^t(D'),$

其中 $D' \subset \mathbb{R}^{d'}$ 是另一个有界Lipschitz域,且 $t \in \mathbb{N}$。

给定一个非线性算子 $\mathcal{G}: \mathcal{X} \to \mathcal{Y}$,如引言中定义,当前目标是用深度神经网络 $\mathcal{G}_\theta$ 逼近 $\mathcal{G}$,其中 $\theta$ 代表参数,使得逼近在紧集 $\mathcal{K} \subset \mathcal{X}$ 上一致准确。

$\sup_{f \in \mathcal{K}} \|\mathcal{G}(f) - \mathcal{G}_\theta(f)\|_{H^t(D')} < \varepsilon.$

这是函数空间中算子学习的经典表述,其目标是在控制逼近误差的情况下学习无限维空间之间的映射。在本文中,我们将使用有限维神经网络。

### 2\.2 基于Rellich–Kondrachov定理的紧性

如前所述,我决定选择Sobolev空间的一个重要原因是,$\mathcal{G}$ 的有限维可逼近性依赖于Sobolev嵌入的紧性。

**Rellich–Kondrachov定理**:令 $D \subset \mathbb{R}^d$ 为一个有界Lipschitz域。如果 $s > t + d/2$,则嵌入 $H^s(D) \hookrightarrow H^t(D)$ 是紧的。

###### 证明概要。

令 $\{f_n\} \subset H^s(D)$ 为有界序列。根据Banach–Alaoglu定理,它在 $H^s$ 中有一个弱收敛的子序列。Rellich–Kondrachov定理保证了在 $H^t(D)$ 中的强收敛性,因此具有预紧性。我们将在后面的两个证明中使用该定理(见第3节 (https://arxiv.org/html/2605.08170#S3) 和第4节 (https://arxiv.org/html/2605.08170#S4))。 ∎

这种紧性意味着,对于任意紧集 $\mathcal{K} \subset H^s$,其在 $\mathcal{G}$ 下的像可以在 $H^t$ 中被有限维投影均匀逼近,这是神经算子逼近的关键步骤。

## 3 Sobolev范数下通用逼近的重述

我们现在形式化Sobolev设定下算子学习的通用逼近结果。我将从一个形式化的逼近结果开始。不同于Le和Dik (2024) (https://arxiv.org/html/2605.08170#bib.bib2) 中定理3.10那样的基于网格的证明,我尝试通过重述使用泛函投影和基展开来做出贡献。

令 $\mathcal{G}: H^s(D) \to H^t(D')$ 为一个连续非线性算子,且令 $\mathcal{K} \subset H^s(D)$ 为紧集。

则对于任意 $\varepsilon > 0$,存在一个ReLU神经网络 $\mathcal{G}_\theta$ 使得:

$\sup_{f \in \mathcal{K}} \|\mathcal{G}(f) - \mathcal{G}_\theta(f)\|_{H^t(D')} < \varepsilon.$

###### 证明。

我们分三步构造逼近:

令 $\{\phi_k\}_{k=1}^\infty \subset H^s(D)$ 为一个正交基。定义投影算子 $P_N(f)$ 为

$P_N(f) = \sum_{k=1}^N \langle f, \phi_k \rangle \phi_k.$

由于 $\mathcal{K} \subset H^s(D)$ 是紧的,且 $P_N f \to f$ 在 $H^s$ 中,我们也拥有(由 $\mathcal{G}$ 的连续性保证)在 $\mathcal{K}$ 上

$\mathcal{G}(P_N(f)) \to \mathcal{G}(f)$

在 $H^t$ 中一致成立。

为了简化为有限维学习,令

$\mathbf{c}_N(f) = (\langle f, \phi_1 \rangle, \dots, \langle f, \phi_N \rangle) \in \mathbb{R}^N.$

那么 $\mathcal{G} \circ P_N$ 可以被视为映射

$\mathbb{R}^N \to H^t(D').$

定义 $\psi_j$ 为 $H^t(D')$ 的基,并定义

$\mathcal{G}_N(f) := \sum_{j=1}^M g_j(\mathbf{c}_N(f)) \psi_j$

对于合适的连续函数 $g_j$。

由于 $\mathbf{c}_N(\mathcal{K}) \subset \mathbb{R}^N$ 是紧的,且 $g_j$ 是连续的,我们可以使用有限维中的通用逼近定理,用ReLU网络 $g_{j,\theta}$ 在该集合上一致逼近每个 $g_j$。定义:

$\mathcal{G}_\theta(f) := \sum_{j=1}^M g_{j,\theta}(\mathbf{c}_N(f)) \psi_j.$
$(1)$

则对于 $f \in \mathcal{K}$:

$\|\mathcal{G}(f) - \mathcal{G}_\theta(f)\|_{H^t} \le \|\mathcal{G}(f) - \mathcal{G}(P_N f)\|_{H^t} + \|\mathcal{G}(P_N f) - \mathcal{G}_\theta(f)\|_{H^t}.$

所以,如果我们选择足够大的 $N$ 使得第一项小于 $\varepsilon/2$,并足够好地逼近 $g_j$ 使得第二项 $< \varepsilon/2$。

因此,总误差在 $\mathcal{K}$ 上一致小于 $\varepsilon$。证明完毕。 ∎

在本节中,我们将紧Sobolev嵌入 $H^s \hookrightarrow H^t$(通过Rellich–Kondrachov定理)与有限维空间中神经网络的通用逼近性质结合起来。更直观地说,我们利用投影到有限维基上,将无限维算子学习问题简化为标准函数逼近任务,这可以通过神经网络实现。

## 4 算子学习的定量逼近误差界

既然我们已经解释了Sobolev范数下的通用逼近,我们可以在此基础上推导一个原创定理,给出逼近Sobolev空间之间非线性算子所需的神经网络复杂度的显式界。

令 $\mathcal{G}: H^s(D) \to H^t(D')$ 为Sobolev空间之间的连续算子,其中 $D, D' \subset \mathbb{R}^d$ 为有界Lipschitz域,且 $s > d/2$。令 $\mathcal{K} \subset H^s(D)$ 为紧集。则对于任意 $\varepsilon > 0$,存在一个具有 $O(\varepsilon^{-d/s})$ 个参数的ReLU神经网络算子 $\mathcal{G}_\theta$,使得

$\sup_{f \in \mathcal{K}} \|\mathcal{G}(f) - \mathcal{G}_\theta(f)\|_{H^t(D')} < \varepsilon.$

###### 证明。

令 $\{\phi_k\} \subset H^s(D)$ 为一个正交基,并定义投影

$P_N f := \sum_{k=1}^N \langle f, \phi_k \rangle \phi_k.$

根据Rellich–Kondrachov定理和 $\mathcal{G}$ 的连续性,存在 $N$ 使得

$\sup_{f \in \mathcal{K}} \|\mathcal{G}(f) - \mathcal{G}(P_N f)\|_{H^t(D')} < \varepsilon/2.$

$F(\mathbf{c}) = \sum_{j=1}^M g_j(\mathbf{c}) \psi_j.$

每个 $g_j$ 在紧集 $\mathbf{c}(\mathcal{K}) \subset \mathbb{R}^N$ 上是连续的,因此我们可以用ReLU神经网络 $g_{j,\theta}$ 一致逼近它,使得

$\sup_{\mathbf{c} \in \mathbf{c}(\mathcal{K})} \|g_j(\mathbf{c}) - g_{j,\theta}(\mathbf{c})\| < \frac{\varepsilon}{2M}.$

定义神经网络算子:

$\mathcal{G}_\theta(f) := \sum_{j=1}^M g_{j,\theta}(\mathbf{c}(f)) \psi_j.$

则对于所有 $f \in \mathcal{K}$,

$\|\mathcal{G}(f) - \mathcal{G}_\theta(f)\|_{H^t} \le \|\mathcal{G}(f) - \mathcal{G}(P_N f)\|_{H^t} + \|\mathcal{G}(P_N f) - \mathcal{G}_\theta(f)\|_{H^t} < \varepsilon.$

最后,根据 $\mathbb{R}^N$ 中神经网络逼近的经典结果,以精度 $\delta$ 逼近Lipschitz函数 $g_j$ 需要 $O(\delta^{-N})$ 个参数。由于投影误差的缩放约为 $O(N^{-s/d})$,我们选择 $N = O(\varepsilon^{-d/s})$

相似文章

多输入神经算子学习在Sobolev空间中的泛化保证

arXiv cs.LG

本文提供了多输入神经算子在Sobolev范数下测量的近似误差和泛化误差估计,分析了多个输入函数(具有不同定义域和正则性)如何影响误差界,适用于偏微分方程和科学计算问题。

非线性算子及其导数的通用逼近

arXiv cs.LG

本文证明了在无限维空间中非线性算子及其导数的首个通用逼近定理,将经典结果扩展到DeepONet和PCA-Net等算子学习架构。

Operator Learning for Cubic Nonlinear Schr\"odinger Equation on Periodic Domains

arXiv cs.LG

本文提出了一种几何条件傅里叶神经算子(FNO),用于学习周期域上具有不同纵横比的立方非线性薛定谔方程的解算子。数值实验表明,该模型捕捉了有理环面和无理环面上不同的索伯列夫范数行为,展示了用于色散偏微分方程的几何感知神经算子。