半群一致性作为学习型物理模拟器的诊断指标

arXiv cs.LG 2026/05/27 04:00 论文

摘要

提出将半群一致性作为评估学习型物理模拟器的诊断指标，展示了在使用ConvNet和FNO基线的热力学和伯格斯动力学中，归一化半群误差与展开退化相关。

arXiv:2605.26324v1 公告类型：新摘要：学习型物理模拟器通常通过单步或短时域预测误差来评估，但这些指标可能会忽略时间组合和长时域展开中的失败。对于自治、状态完备的系统，精确解映射满足半群定律：直接演化$s+t$应与先演化$s$再演化$t$一致。我们提出归一化半群误差作为一种事后、模型无关的诊断指标，用于比较这些直接和组合学习预测。在一维热力学和伯格斯动力学中，使用时间条件化的ConvNet和FNO基线，半群误差与展开退化呈正相关，轨迹级别的斯皮尔曼相关系数$\rho = 0.635$，95%置信区间$[0.621, 0.649]$。半群正则化效果不一，支持半群一致性主要作为评估诊断而非普遍有益的训练目标。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:08

# 作为学习型物理模拟器诊断的半群一致性
来源：https://arxiv.org/html/2605.26324
###### 摘要

学习型物理模拟器通常通过单步或短视距预测误差进行评估，但这些指标可能遗漏时间组合和长视距展开中的失败。对于自治、状态完备的系统，精确解映射满足半群律：直接演化 \(s+t\) 应与先演化 \(s\) 再演化 \(t\) 的结果一致。我们提出归一化半群误差，作为一种事后、模型无关的诊断方法，比较这些直接和组合的学习预测。在一维热传导和Burgers动力学（使用时间条件ConvNet和FNO基线）上，半群误差与展开退化呈正相关，轨迹级Spearman相关系数 \(\rho=0.635\)，95%置信区间 \([0.621, 0.649]\)。半群正则化的效果不一，支持半群一致性主要作为一种评估诊断工具，而非普遍有效的训练目标。

科学机器学习，偏微分方程，神经算子，学习型物理模拟器，半群一致性，时间演化模型，展开稳定性，模型评估

## 1 引言

学习型物理模拟器为扩散、流体、波动等PDE控制系统提供了快速替代模型。神经算子及相关模型对此尤为自然，因为它们学习函数空间之间的映射而非有限维向量（20 (https://arxiv.org/html/2605.26324#bib.bib10); 16 (https://arxiv.org/html/2605.26324#bib.bib11)）。这种算子学习视角已成为PDE替代建模的标准框架（9 (https://arxiv.org/html/2605.26324#bib.bib19)）。相关的算子学习模型包括多极和图结构（14 (https://arxiv.org/html/2605.26324#bib.bib12); 15 (https://arxiv.org/html/2605.26324#bib.bib13)）。更广泛的神经算子公式进一步推动了科学模拟这一方向的发展（1 (https://arxiv.org/html/2605.26324#bib.bib17)）。近期工作通过物理信息损失和物理信息算子学习扩展了这些思想（27 (https://arxiv.org/html/2605.26324#bib.bib22); 6 (https://arxiv.org/html/2605.26324#bib.bib21)）。物理信息神经算子提供了另一种结合算子学习与方程结构的途径（19 (https://arxiv.org/html/2605.26324#bib.bib20)）。其他扩展包括Transformer风格架构和图算子（13 (https://arxiv.org/html/2605.26324#bib.bib15); 31 (https://arxiv.org/html/2605.26324#bib.bib16)）。大规模学习型模拟管线进一步展示了学习替代模型在物理系统中的潜力（7 (https://arxiv.org/html/2605.26324#bib.bib18)）。

标准评估通常侧重于单步或短视距预测误差。这虽有用但不充分：模型可能在局部表现良好，但在展开、时间步偏移、边界条件偏移或更广泛的分布偏移下失败。这些问题出现在物理信息学习和自回归PDE基准中（10 (https://arxiv.org/html/2605.26324#bib.bib37); 8 (https://arxiv.org/html/2605.26324#bib.bib28)）。它们也出现在大型PDE数据集和学习替代模型的分布外研究中（24 (https://arxiv.org/html/2605.26324#bib.bib29); 23 (https://arxiv.org/html/2605.26324#bib.bib35)）。近期关于神经物理求解器的工作同样强调了分布外泛化失败（36 (https://arxiv.org/html/2605.26324#bib.bib36)）。最近的失败模式研究也表明，分布内精度可能掩盖展开和模态转移误差（32 (https://arxiv.org/html/2605.26324#bib.bib30)）。模拟器不应仅仅预测下一帧，而应定义一个连贯的时间演化规则。

对于自治适定系统，精确解映射 \(\{S_t\}_{t\ge 0}\) 满足半群律（25 (https://arxiv.org/html/2605.26324#bib.bib1); 5 (https://arxiv.org/html/2605.26324#bib.bib2)）：
\[
S_{t+s}=S_t\circ S_s,\qquad S_0=I.
\]
(1)
因此，直接按 \(t+s\) 演化应与先按 \(s\) 演化再按 \(t\) 演化的结果一致。类似的组合结构出现在流映射学习和神经ODE中（4 (https://arxiv.org/html/2605.26324#bib.bib3); 26 (https://arxiv.org/html/2605.26324#bib.bib4)）。模态空间的数据驱动PDE学习也研究演化映射结构（37 (https://arxiv.org/html/2605.26324#bib.bib5)）。类似思想出现在Koopman建模和变分马尔可夫模型中（12 (https://arxiv.org/html/2605.26324#bib.bib7); 21 (https://arxiv.org/html/2605.26324#bib.bib8)）。半群感知学习使这种结构在学习演化模型中显式化（3 (https://arxiv.org/html/2605.26324#bib.bib6)）。类似的稳定性问题也出现在混沌系统的学习耗散动力学中（17 (https://arxiv.org/html/2605.26324#bib.bib9)）。

本文提出**半群一致性**作为学习型物理模拟器的一种诊断方法。对于学习模型 \(G_\theta(u,t)\approx S_t u\)，我们比较直接预测 \(G_\theta(u,s+t)\) 与组合预测 \(G_\theta(G_\theta(u,s),t)\)。如果差异很大，说明学习映射在时间上不一致，即使监督误差很小。这与以下担忧一致：神经算子可能学习到脆弱、针对特定模态或边界索引的解族，而非鲁棒的物理演化规则（33 (https://arxiv.org/html/2605.26324#bib.bib31); 22 (https://arxiv.org/html/2605.26324#bib.bib32)）。它还与领域泛化的更广泛担忧相关（38 (https://arxiv.org/html/2605.26324#bib.bib33)）。

1. PDE轨迹 \(u(t_0),\ldots,u(t_T)\)
2. 学习模拟器 \(G_\theta(u,\Delta t)\approx S_{\Delta t}u\)
3. 比较两条学习路径：\(\hat{u}_{\mathrm{dir}}=G_\theta(u,s+t)\)，\(\hat{u}_{\mathrm{comp}}=G_\theta(G_\theta(u,s),t)\)
4. 半群误差 \(\|\hat{u}_{\mathrm{comp}}-\hat{u}_{\mathrm{dir}}\|_2/(\|\hat{u}_{\mathrm{dir}}\|_2+\varepsilon)\)
5. 诊断测试：比较半群误差与展开误差

图1：半群一致性评估管道。学习模拟器在PDE轨迹上训练，然后通过在保留状态上比较直接与组合的学习演化进行评估。

我们的主张是，半群误差补充了标准预测指标。它可以揭示展开不稳定性、时间步外推失败、固定步过拟合以及直接与自回归模拟之间的分歧。由于它不需要架构改变或重新训练，因此可应用于神经算子、自回归模拟器和连续时间模型（28 (https://arxiv.org/html/2605.26324#bib.bib24); 2 (https://arxiv.org/html/2605.26324#bib.bib25)）。它也适用于物理预测中使用的其他学习替代模型（11 (https://arxiv.org/html/2605.26324#bib.bib26)）。实验上，我们发现半群误差与热传导和Burgers动力学上的展开退化呈正相关，而半群正则化效果不一，并未产生可靠的总体展开改进。

我们的贡献如下：

1. 我们将半群一致性形式化为一种事后、模型无关的诊断方法，用于学习型物理模拟器。
2. 我们定义了一个归一化半群误差，用于比较直接与组合的学习演化，无需额外的真实解计算。
3. 我们证明了半群误差与展开退化呈正相关，并能揭示单步预测指标所隐藏的失败。
4. 我们澄清了半群一致性作为评估诊断与作为训练正则化器之间的区别。

## 2 背景与相关工作

### 2.1 演化方程与半群

许多物理模拟器模拟自治、状态完备的演化。这里，自治意味着动力学不显式依赖于绝对时间，而状态完备意味着当前状态包含决定未来演化所需的信息。这与马尔可夫性质密切相关，但与自治性不同：一个系统可以是马尔可夫但非自治的，或者自治但非马尔可夫的（如果所选状态忽略了相关历史）。令 \(\mathcal{X}\) 为状态空间，\(S_t:\mathcal{X}\to\mathcal{X}\) 将初始状态 \(u_0\) 映射到经过时间 \(t\) 后的状态。在标准适定性假设下，自治解映射形成一个单参数半群（25 (https://arxiv.org/html/2605.26324#bib.bib1); 5 (https://arxiv.org/html/2605.26324#bib.bib2)），
\[
S_{t+s}=S_t\circ S_s,\qquad S_0=I.
\]
(2)
这个恒等式说明，先演化 \(s\) 再演化 \(t\) 必须与直接演化 \(s+t\) 一致。因此，半群视角不仅仅是泛函分析的，它也是跨时间划分进行一致预测的一个结构条件，通过半群生成元将局部微分描述与全局演化映射联系起来（25 (https://arxiv.org/html/2605.26324#bib.bib1); 5 (https://arxiv.org/html/2605.26324#bib.bib2)）。

这种算子层面的视角也出现在数据驱动动力学中。流映射学习直接从轨迹近似演化映射（26 (https://arxiv.org/html/2605.26324#bib.bib4); 37 (https://arxiv.org/html/2605.26324#bib.bib5)）。神经ODE通过学习微分方程定义连续时间预测（4 (https://arxiv.org/html/2605.26324#bib.bib3)）。Koopman和变分马尔可夫方法通过可组合算子研究学习演化（12 (https://arxiv.org/html/2605.26324#bib.bib7); 21 (https://arxiv.org/html/2605.26324#bib.bib8)）。学习耗散动力学同样强调长时间稳定性和组合效应（17 (https://arxiv.org/html/2605.26324#bib.bib9)）。Deep-OSG与我们的设置最为接近，因为它明确研究具有半群结构和时间划分一致性的算子学习（3 (https://arxiv.org/html/2605.26324#bib.bib6)）。先前工作利用半群结构设计学习演化模型（3 (https://arxiv.org/html/2605.26324#bib.bib6)）；我们则研究半群一致性作为事后诊断方法，用于检测展开和时间步失败。

### 2.2 学习型物理模拟器

学习型物理模拟器用数据驱动替代模型取代或加速数值求解。神经算子至关重要，因为它们学习函数空间之间的映射，而非固定的有限维离散化（20 (https://arxiv.org/html/2605.26324#bib.bib10); 16 (https://arxiv.org/html/2605.26324#bib.bib11)）。通用神经算子理论形式化了PDE的这种函数空间视角（9 (https://arxiv.org/html/2605.26324#bib.bib19); 1 (https://arxiv.org/html/2605.26324#bib.bib17)）。DeepONet引入了分支-主干算子逼近（20 (https://arxiv.org/html/2605.26324#bib.bib10)），而傅里叶神经算子使用全局谱混合，是参数化PDE的标准基线（16 (https://arxiv.org/html/2605.26324#bib.bib11)）。后来的变体通过图和多极构造扩展了算子学习（15 (https://arxiv.org/html/2605.26324#bib.bib13); 14 (https://arxiv.org/html/2605.26324#bib.bib12)）。卷积、Transformer和有限正则性构造进一步拓宽了神经算子架构（29 (https://arxiv.org/html/2605.26324#bib.bib14); 13 (https://arxiv.org/html/2605.26324#bib.bib15); 31 (https://arxiv.org/html/2605.26324#bib.bib16)）。物理信息方法将方程残差或物理结构纳入训练（27 (https://arxiv.org/html/2605.26324#bib.bib22); 6 (https://arxiv.org/html/2605.26324#bib.bib21)）。物理信息神经算子将这一思想扩展到算子学习（19 (https://arxiv.org/html/2605.26324#bib.bib20); 18 (https://arxiv.org/html/2605.26324#bib.bib38)）。

在流体和物理模拟中，学习模型支持替代CFD和流场重建（28 (https://arxiv.org/html/2605.26324#bib.bib24); 2 (https://arxiv.org/html/2605.26324#bib.bib25)）。它们还支持机器学习加速的CFD和湍流模拟（7 (https://arxiv.org/html/2605.26324#bib.bib18); 34 (https://arxiv.org/html/2605.26324#bib.bib23)）。天气预报提供了另一个大规模学习物理替代模型的场景（11 (https://arxiv.org/html/2605.26324#bib.bib26)）。这些应用使得长时间跨度的一致性变得重要：模型可能在固定训练间隔上表现良好，但在展开、未见时间步或物理参数偏移下失败。时间条件和可变时间模型通过学习 \(G_\theta(u,\Delta t)\approx S_{\Delta t}u\) 而不是单个固定步映射来应对这一问题（26 (https://arxiv.org/html/2605.26324#bib.bib4); 37 (https://arxiv.org/html/2605.26324#bib.bib5)）。半群感知算子学习也直接针对跨时间划分的一致性（3 (https://arxiv.org/html/2605.26324#bib.bib6)）。这种设置使得半群一致性可以直接通过比较 \(s+t\) 的直接预测与经过 \(s\) 和 \(t\) 的组合预测来检验。

### 2.3 超越单步误差的可靠性

单步或短视距预测误差是必要的但不完整。诸如PDEBench和APEBench等基准将评估扩展到展开、分辨率传递、参数偏移和扰动（35 (https://arxiv.org/html/2605.26324#bib.bib27); 8 (https://arxiv.org/html/2605.26324#bib.bib28)）。Well进一步扩展了用于机器学习的大规模物理模拟数据集（24 (https://arxiv.org/html/2605.26324#bib.bib29)）。最近的鲁棒性研究同样表明，分布内精度可能无法预测在PDE族、参数、边界或终端条件、分辨率或展开视距变化下的行为（38 (https://arxiv.org/html/2605.26324#bib.bib33); 30 (https://arxiv.org/html/2605.26324#bib.bib34)）。其他研究强调了神经PDE和物理求解器中的分布外泛化失败（23 (https://arxiv.org/html/2605.26324#bib.bib35); 36 (https://arxiv.org/html/2605.26324#bib.bib36)）。边界和终端条件尤其重要，因为改变它们可以将一个算子学习问题转化为一族条件索引的算子（22 (https://arxiv.org/html/2605.26324#bib.bib32)）。

这些失败促使人们寻找超越逐点精度的结构性诊断。已知问题包括物理信息优化的病态（10 (https://arxiv.org/html/2605.26324#bib.bib37)）。神经算子也可能表现出频谱或离散化敏感性（9 (https://arxiv.org/html/2605.26324#bib.bib19); 1 (https://arxiv.org/html/2605.26324#bib.bib17)）。自回归展开可能引入额外的不稳定性（17 (https://arxiv.org/html/2605.26324#bib.bib9); 8 (https://arxiv.org/html/2605.26324#bib.bib28)）。半群误差针对一种互补的失败模式：直接演化与组合演化之间的不一致。与监督误差不同，它不需要在每个组合中间状态进行真实解计算；与守恒或能量诊断不同，它在自治演化方程中是模型无关的。它不足以正确性（因为一个错误的模型可能在内部一致），但它是一个轻量级测试，用于判断学习模拟器是否表现得像一个连贯的时间演化映射。因此，我们报告半群一致性以及单步误差、展开误差和物理特定检查。

## 3 问题设置

### 3.1 物理系统

半群一致性作为学习型物理模拟器的诊断指标

相似文章

Onnes：一种基于物理的多智能体LLM模拟器，用于量子计算基础设施的低温故障诊断

基于物理引导的卷积神经网络用于守恒动力学系统中畴生长的预测

神经算子的共形预测：物理模拟中的无分布不确定性量化

测试前沿大语言模型在平行物理世界中的物理素养

用于$\textit{Norne}$油藏系统的连续物理约束神经算子正向建模

提交意见反馈