多输入神经算子学习在Sobolev空间中的泛化保证

arXiv cs.LG 2026/06/17 04:00 论文

摘要

本文提供了多输入神经算子在Sobolev范数下测量的近似误差和泛化误差估计，分析了多个输入函数（具有不同定义域和正则性）如何影响误差界，适用于偏微分方程和科学计算问题。

arXiv:2606.17419v1 公告类型：新摘要：我们为多输入神经算子建立了近似误差和泛化误差估计，输出误差以Sobolev范数衡量。与标准算子学习设置（单个输入函数）不同，我们的框架允许多个输入函数定义在可能不同的定义域上，并具有不同的维数和Sobolev正则性。推导出的速率明确量化了每个输入空间对最终误差界的贡献。特别地，在平衡状态下，近似和泛化速率受输入维度、正则性和Sobolev阶数之间的相互作用控制，而对模型复杂度的依赖则保留了\(\log\log/\log\)型结构。我们的分析为多输入算子学习（包括Sobolev训练）提供了一个通用的理论框架，并适用于由偏微分方程和科学计算产生的算子学习问题。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:38

# 多输入神经算子学习在Sobolev空间中的泛化保证

来源: https://arxiv.org/html/2606.17419

Yahong Yang  
数学学院，佐治亚理工学院，686 Cherry Street, Atlanta, GA 30332-0160, USA.  
邮箱: [email protected], [email protected], [email protected]  

Zecheng Zhang  
应用与计算数学与统计系，圣母大学，Notre Dame, IN 46556, USA.  
邮箱: [email protected]  

Wenjing Liao¹⁰  

Hao Liu  
数学系，香港浸会大学，FSC1202, 方树泉楼，香港浸会大学，九龙塘，香港.  
邮箱: [email protected]. 通讯作者.

###### 摘要

我们建立了多输入神经算子的逼近与泛化误差估计，其中输出误差在Sobolev范数下度量。与标准算子学习设置中只有一个输入函数不同，我们的框架允许定义在可能不同域上的多个输入函数，这些函数具有不同的维度和Sobolev正则性。推导出的速率明确量化了每个输入空间对最终误差界的贡献。特别是，在平衡状态下，逼近和泛化速率由输入维度、正则性和Sobolev阶数之间的相互作用决定，而对模型复杂度的依赖则保留了 \(\log\log/\log\) 类型的结构。我们的分析为多输入算子学习（包括Sobolev训练）提供了一个通用的理论框架，并适用于由偏微分方程和科学计算产生的算子学习问题。

## 1 引言

算子学习旨在逼近无限维函数空间之间的映射，并已成为求解参数化偏微分方程（PDE）族的重要工具。著名的例子包括 DeepONet [32, 45, 30, 31, 25]、傅里叶神经算子（FNO）[28] 以及其他保持结构的算子学习架构 [28, 27, 23, 19]。与必须为每个新实例重复应用的传统求解器相比，训练好的神经算子可以通过单次前向评估来逼近新输入函数、源项、边界条件或物理参数的解映射。这一特性使得神经算子在涉及多查询或实时模拟PDE模型的科学计算任务中特别有用。一个简单的例子是椭圆边值问题

\[
-\Delta u + a(x)u = f, \qquad u|_{\partial\Omega} = g.
\tag{1}
\]

在这种情况下，解算子依赖于三个输入，即系数 \(a\)、源项 \(f\) 和边界条件 \(g\)，因此可以写成 \(\mathcal{G}(a,f,g) = u\)。这说明了科学计算中许多PDE问题的一个基本特征：解通常同时依赖于几个变化的量。例如，系数 \(a\) 可能编码材料属性或底层介质，源项 \(f\) 可能代表外部强迫，边界条件 \(g\) 也可能因实例而异。因此，在多输入设置中研究算子学习是自然的，其中学习的算子将所有输入作为变量，而不是仅将其中一两个作为变量。

受需要将算子学习应用于更复杂的科学计算问题的驱动，多输入算子学习最近引起了越来越多的关注 [3, 21, 46, 48, 22, 47]。例如，在 [3] 中，作者首先提出了对由函数索引的算子的通用逼近，这是一个双输入算子设置。更一般地，目标算子依赖于多个输入函数。确切地说，考虑一个算子

\[
\mathcal{G}: \prod_{i=1}^{\lambda} \mathcal{X}_i \to \mathcal{V}, \qquad \lambda \ge 2,
\tag{2}
\]

并旨在构建一个神经算子 \(\mathcal{G}_{\boldsymbol{\theta}}\) 来一致地或以适当的统计意义逼近 \(\mathcal{G}\)。多输入算子学习架构的通用逼近结果已在 [21, 3, 22] 中建立，并且理论和数值研究都证明了这类框架的有效性。然而，多输入神经算子的定量缩放规律和误差率仍然未得到充分理解。最近的工作 [46, 48, 47] 建立了由函数索引的算子学习的缩放规律 [3]。他们的框架主要关注双输入设置，并假设在 \(L^\infty\) 意义下是利普希茨连续的。在这项工作中，我们分析一般的多输入算子学习，其中输入数量可以是任何大于或等于二的整数。此外，重要的是，我们允许输入位于Sobolev空间中，这样每个输入的正则性就明确地反映在速率中，从而可以量化不同输入的平滑性如何影响最终的泛化速率和相应的神经网络设计。最后，我们在Sobolev范数下测量输出误差，而不仅仅是在 \(L^\infty\) 范数下，这在科学计算应用中更为自然且信息量更大。

本文旨在精确量化输入维度和正则性如何影响最终的学习速率，并设计复杂度反映这种结构的神经算子架构。这些扩展对于科学计算应用尤其重要。首先，许多偏微分方程依赖于两个以上的输入。例如，典型的边值问题 (1) 可能涉及系数 \(a\)、源项 \(f\) 和边界条件 \(g\)。因此，双输入设置不足以捕捉许多实际相关的PDE模型。其次，不同的输入在底层方程中通常扮演着根本不同的角色，并且可能具有非常不同的正则性和内在维度。因此，与不同输入相关联的网络结构不应被统一对待。理解如何设计反映每个输入的维度和平滑性的神经网络架构，是一个重要且具有挑战性的问题。在实践中，这种设计选择通常只能通过大量的试错来做出，而我们的框架为这个问题提供了有数学依据的视角。最后，如果要将算子学习应用于科学计算中的PDE问题，那么在Sobolev范数下测量误差而不仅仅是在 \(L^\infty\) 范数下是至关重要的。即使对于弱解，也常常需要导数信息，因此向Sobolev范数的扩展既自然又必要。这也与科学机器学习中一个非常活跃的方向密切相关，通常称为Sobolev训练 [11, 43, 44, 42, 20, 15]。

我们首先给出主要逼近结果的非正式版本；完整表述见推论2。

###### 定理1 (非正式Sobolev逼近结果)
设 \(\ell \in \{0,1\}\)。设 \(\mathcal{X}_i \subset W^{n_i,\infty}([-1,1]^{d_i})\)，\(i=1,\ldots,\lambda\)，为一致有界的输入类，且设 \(\mathcal{G}: \prod_{i=1}^{\lambda} \mathcal{X}_i \to W^{\ell,\infty}(\Omega_{\lambda+1})\) 为一个 \(\lambda\) 输入算子。假设 \(\mathcal{G}\) 关于输入 \(L^\infty\) 范数分别利普希茨连续，且其输出的 \(W^{n_{\lambda+1},\infty}(\Omega_{\lambda+1})\) 范数一致可控，其中 \(n_{\lambda+1} > \ell\)。则存在一个具有 \(N_{\mathrm{tot}}\) 个可训练参数的ReLU神经算子 \(\mathcal{G}_{\boldsymbol{\theta}}\)，使得，忽略低阶对数因子，

\[
\sup_{\prod_{i=1}^{\lambda} \mathcal{X}_i} \left\| \mathcal{G}(f_1,\ldots,f_\lambda) - \mathcal{G}_{\boldsymbol{\theta}}(f_1,\ldots,f_\lambda) \right\|_{W^{\ell,\infty}(\Omega_{\lambda+1})} \lesssim \left( \frac{\log N_{\mathrm{tot}}}{\log \log N_{\mathrm{tot}}} \right)^{-\frac{1}{Q_{\max}}} (\log \log N_{\mathrm{tot}})^{\sum_{i=1}^{\lambda} d_i},
\]

其中 \(Q_{\max} := \max_{1 \le i \le \lambda} d_i / n_i\)。

上述速率表明，最终的逼近复杂度由最困难的输入空间控制。更精确地说，输入空间 \(\mathcal{X}_i\) 通过有效复杂度 \(d_i / n_i\) 贡献。如果 \(\mathcal{X}_i\) 具有低维域或高正则性，则 \(d_i / n_i\) 很小。这样的输入不会改变主指数，除非它成为所有输入复杂度中最大的。相反，具有大维度或低正则性的输入可能主导最大值 \(Q_{\max}\)，从而决定最终的逼近速率。证明还暗示了神经算子应该如何构建。该架构具有共享的分支-主干形式

\[
\mathcal{G}_{\boldsymbol{\theta}}(f_1,\ldots,f_\lambda)(\boldsymbol{x}) := \sum_{s_1=1}^{J_1} \cdots \sum_{s_\lambda=1}^{J_\lambda} \sum_{p=1}^{P} e_{s_1,\ldots,s_\lambda,p} \prod_{i=1}^{\lambda} \mathcal{B}_{i,s_i}(\mathcal{D}_{m_i} f_i) \, \mathcal{T}_p(\boldsymbol{x}).
\tag{3}
\]

这里 \(\mathcal{D}_{m_i} f_i\) 表示第 \(i\) 个输入函数的有限维离散化，\(\mathcal{B}_{i,s_i}\) 是输入分支网络，而 \(\mathcal{T}_p\) 是共享主干网络。该神经算子架构的示意图如图1所示。

![图1: 用于 \(\lambda\) 输入神经算子的共享分支-主干架构示意图。](https://arxiv.org/html/2606.17419#S1.F1)

图1：用于 \(\lambda\) 输入神经算子的共享分支-主干架构示意图。每个输入函数 \(f_i\) 首先由 \(\mathcal{D}_{m_i}\) 离散化，然后通过输入分支网络 \(\mathcal{B}_{i,s_i}\)。分支输出相乘，与共享主干网络 \(\mathcal{T}_p\) 结合，并对指标 \(s_1,\ldots,s_\lambda,p\) 求和。

如果输入空间 \(\mathcal{X}_i\) 具有高维度或低正则性，则需要更大的离散化级别 \(m_i\) 来控制离散化误差。这反过来又需要更大的分支秩 \(J_i\)。在平衡构造中，忽略对数因子，有

\[
(m_i+1)^{d_i} \asymp \varepsilon^{-d_i / n_i}, \qquad \log J_i \asymp (m_i+1)^{d_i} \log (m_i+1).
\]

因此，推导出的速率不仅量化了逼近复杂度，还提供了如何在不同输入函数之间分配网络能力的指导。更详细的讨论见备注2。

利用第3节建立的逼近误差估计，结合网络大小和参数幅度的显式界限，我们在第4节推导了所提出的多输入神经算子类的泛化误差估计。该分析在分层采样设置下进行：对于每个外部输入，观察到多个内部输入样本和空间评估点。由于共享同一外部输入的样本在外部级别上不完全独立，主要的统计误差由外部样本的数量控制。证明遵循了 [31] 的经验过程策略，但Sobolev训练带来了额外的困难。在我们的设置中，损失涉及导数观测，而ReLU激活函数的导数不是利普希茨连续的。因此，标准的参数扰动覆盖论证不能直接应用于导数类。为克服这个问题，我们使用统一经验覆盖数，并通过基于 [2, 50] 的伪维数估计来界定它们。这产生了依赖于网络复杂度和训练样本量的定量泛化界。下面的非正式定理总结了最终的泛化速率。

###### 定理2 (非正式Sobolev泛化结果)
设 \(\ell \in \{0,1\}\)。设 \(\mathcal{X}_i \subset W^{n_i,\infty}([-1,1]^{d_i})\)，\(i=1,\ldots,\lambda\)，为一致有界的输入类，且设 \(\mathcal{G}: \prod_{i=1}^{\lambda} \mathcal{X}_i \to W^{\ell,\infty}(\Omega_{\lambda+1})\) 为一个 \(\lambda\) 输入算子。假设 \(\mathcal{G}\) 关于输入 \(L^\infty\) 范数分别利普希茨连续，并且输出具有足够的Sobolev正则性 \(n_{\lambda+1} > \ell\)。设 \(n_1^{\mathrm{samp}}\) 表示分层采样设置中外部训练样本的数量，并定义

\[
Q_{\max} := \max_{1 \le i \le \lambda} \frac{d_i}{n_i}.
\]

则存在一个ReLU神经算子类，使得基于Sobolev经验损失训练的

多输入神经算子学习在Sobolev空间中的泛化保证

相似文章

神经算子的定量 Sobolev 逼近界及其在 Burgers 方程上的实证验证

非线性算子及其导数的通用逼近

变系数波动方程下神经算子的频率偏差与分布外泛化

Operator Boosting 生成帕累托高效的 PDE 替代模型

物理信息机器学习泛化性的PAC-Bayesian视角

提交意见反馈