揭示SciML中的多模态模式:不同的失败模式与模态特定优化
摘要
本文识别了科学机器学习模型中一致的三模态结构,表明优化效果是模态特定的,并可能挑战传统的损失景观解释。它提出了一个模态感知的诊断框架,并在PINN、神经算子以及神经ODE上得到验证。
arXiv:2605.29153v1 公告类型:新
摘要:在不同超参数设置下训练的神经网络可能陷入不同的训练“模态”,且同一模态内行为一致,不同模态之间存在定性差异。本文通过模态感知的诊断框架,联合分析性能、训练动态和损失景观几何,研究了科学机器学习(SciML)模型中的这种多模态行为。我们识别了三个关键发现:(i) 在许多标准SciML模型、不同约束执行方式及多种优化器设计中,一致地出现了三模态结构;(ii) 优化效果是模态特定的,没有单一方法在所有模态中表现良好;(iii) SciML模型可能表现出细粒度的失败模式,挑战标准损失景观指标的传统解释。我们的结果提供了一种方法,可建立对SciML失败模式的统一、任务无关的视角,并为提升鲁棒性提供模态感知的指导。我们在常用的SciML模型(包括物理信息神经网络、神经算子以及神经常微分方程)上验证了这些发现,所采用的基准测试涵盖了代表性的常微分方程和偏微分方程。
查看缓存全文
缓存时间: 2026/05/29 09:17
# 不同的失败模式与区域特定的优化
来源: https://arxiv.org/html/2605.29153
## 揭示科学机器学习中的多区模式: 不同的失败模式与区域特定的优化
袁哲·胡 钟晓坤 王晓鹏 卢海泉 庞天宇 迈克尔·W·马奥尼 严宇军 任蒲 杨耀庆
###### 摘要
在不同超参数设置下训练的神经网络可能会落入不同的训练“区”,在区内行为一致,而在区间存在定性差异。本文通过一个*区域感知的诊断框架*,联合分析性能、训练动态和损失景观几何,研究科学机器学习(SciML)模型中的这种多区行为。我们发现了三个关键发现:(i)许多标准SciML模型、不同的约束施加方式和不同的优化器设计中都一致出现一个三区结构;(ii)优化效果具有区域特异性,没有单一方法能在所有区域中表现良好;(iii)SciML模型可能表现出精细的失败模式,这些模式会挑战对标准损失景观指标的传统解读。我们的结果为建立统一的、任务无关的SciML失败模式视角提供了方法,并为提升鲁棒性提供了区域感知的指导。我们在广泛使用的SciML模型(包括物理信息神经网络、神经算子、神经常微分方程)上,针对代表常微分方程和偏微分方程的基准问题验证了这些发现。
科学机器学习, 损失景观, 多区分析
## 1 引言
科学机器学习(SciML)提供了将数据驱动的机器学习模型与领域驱动的物理模型相结合的机会。流行的SciML模型族包括:(i)物理信息神经网络(PINN),它试图通过优化惩罚来强制执行物理定律 (Raissi et al., 2019 (https://arxiv.org/html/2605.29153#bib.bib19); Karniadakis et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib82));(ii)神经算子(NO),它试图学习无限维函数空间之间的映射 (Li et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib23); Lu et al., 2021a (https://arxiv.org/html/2605.29153#bib.bib124));(iii)神经常微分方程(NODE),它试图参数化连续时间动力学并通过可微分的ODE求解器进行训练 (Chen et al., 2018 (https://arxiv.org/html/2605.29153#bib.bib121))。这些方法已应用于科学发现和工程设计,以期加速研究并改进计算工作流 (Karniadakis et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib82); Wang et al., 2023 (https://arxiv.org/html/2605.29153#bib.bib134); Azizzadenesheli et al., 2024 (https://arxiv.org/html/2605.29153#bib.bib76))。尽管这些方法前景广阔,但在实际SciML工作流中使用它们可能具有挑战性,最近的研究已经指出了这些挑战的根本原因。这包括PINN中的优化和训练困难 (Krishnapriyan et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib20))、NO中的分辨率和混叠问题 (Sakarvadia et al., 2025 (https://arxiv.org/html/2605.29153#bib.bib118)),以及NODE中的离散化和连续性失败 (Krishnapriyan et al., 2023 (https://arxiv.org/html/2605.29153#bib.bib125))。这些问题指向一个更广泛的不适定性:许多SciML问题在物理区域(例如刚性和高频特征)与训练区域(例如有限监督和约束执行)之间表现出强烈的相互作用,导致行为高度敏感且往往病态,从而难以仅从任务层面的性能来理解。这激发了诊断视角。
借鉴先前对神经网络损失景观中局部与全局结构进行分类的工作 (Yang et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib9); Zhou et al., 2023b (https://arxiv.org/html/2605.29153#bib.bib10)),我们采用诊断方法来分析并应对这些挑战。我们提供的经验证据表明,在许多情况下,SciML模型的失败模式在常用的SciML模型族中展现出结构化且一致的模式,同时也存在不同的模型特有行为。为支持这一分析,我们开发了一个*区域感知的诊断框架*,系统性地绘制出这些模型族在物理区域和训练区域中*何时*以及*为何*表现出各种属性。遵循 Yang et al. (2021 (https://arxiv.org/html/2605.29153#bib.bib9)) 和 Zhou et al. (2023b (https://arxiv.org/html/2605.29153#bib.bib10)) 的定义,这里的*区*指的是配置空间中的一个区域,在该区域内损失景观属性(如尖锐度 (Foret et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib45); Keskar et al., 2016 (https://arxiv.org/html/2605.29153#bib.bib52))、连通性 (Garipov et al., 2018 (https://arxiv.org/html/2605.29153#bib.bib54); Draxler et al., 2018 (https://arxiv.org/html/2605.29153#bib.bib55)) 和表示相似性 (Kornblith et al., 2019 (https://arxiv.org/html/2605.29153#bib.bib56)))在定性上保持同质,从而对应相似的模型质量。基于此概念,我们旨在将这些发现转化为可操作的指导,包括揭示何时、更好的条件化模型设计和优化方法能降低敏感性并提供更稳定的隐式偏置。我们的方法尤其受到以下观察的启发:许多SciML的损失景观结构比典型的计算机视觉(CV)或自然语言处理(NLP)模型更丰富、更复杂 (Li et al., 2018 (https://arxiv.org/html/2605.29153#bib.bib39); Kwon et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib11); Bahri et al., 2022 (https://arxiv.org/html/2605.29153#bib.bib63); Hoogland et al., 2024 (https://arxiv.org/html/2605.29153#bib.bib46); Chen et al., 2025 (https://arxiv.org/html/2605.29153#bib.bib62)),因此需要更精细的诊断工具来诊断其属性并加以理解。例如,我们在第2.5节 (https://arxiv.org/html/2605.29153#S2.SS5) 中经验地展示,SciML损失景观可能缺乏标准CV模型中常见的良好条件盆地,反而展现出强烈的非凸性和对问题设置的敏感性。这种定性的新区域结构来源源于数据表示、物理约束和优化之间的相互作用,所有这些都呼唤针对SciML的新型诊断工具。
为了超越临时的超参数调优,并使上述观察变得可操作,我们采用了一种区域感知的经验评估方法,系统性地改变*物理区域*(例如偏微分方程的参数和类型)和*训练区域*(例如优化器配置、约束处理和配置点设计)。通过联合分析这些轴上的模型性能、训练动态和损失景观结构,我们构建了模型行为的经验区域图,揭示了SciML模型中的一致模式。通过纳入来自底层物理和离散化的问题相关结构,我们的框架将先前在CV/NLP中的系统性诊断分析工作 (Yang et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib9)) 扩展到了SciML设置。尽管现有的SciML研究已经探索了相关的失败现象 (Krishnapriyan et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib20); Rathore et al., 2024 (https://arxiv.org/html/2605.29153#bib.bib58); Krishnapriyan et al., 2023 (https://arxiv.org/html/2605.29153#bib.bib125); Sakarvadia et al., 2025 (https://arxiv.org/html/2605.29153#bib.bib118)),但它们通常局限于少量设置,并未提供关于方法*何时*可靠、*为何*失败以及哪种干预(优化/训练技巧 vs. 更好的条件化模型设计)最能有效提升鲁棒性的可操作视角。
总结起来,我们的主要贡献如下:
- • 我们引入了*基于区域的评估分类法*,将训练后的SciML模型划分为三个区,这些区在训练和测试误差图上由清晰的边界分隔:良好训练、欠训练和过训练。这种三区模式一致出现在不同的模型类别、物理系统以及优化/训练方法中。
- • 我们开发了*统一的评估框架*,将优化器行为与损失景观特征和下游性能联系起来。利用该框架,我们刻画了SciML模型优化方法的*有效性边界*,并展示了不同方法在不同区域中有效。
- • 我们识别并分析了SciML模型中先前未被表征且反直觉的病态现象,这些现象可能导致标准的(受CV/NLP启发的)性能指标歪曲底层损失行为。例如,我们观察到*欺骗性尖锐度*,其中Hessian矩阵病态,导致其迹和主导特征值持续增长,即使模型变得越来越优化(由损失降至接近零所指示)(图7 (https://arxiv.org/html/2605.29153#S2.F7) 和图11 (https://arxiv.org/html/2605.29153#A6.F11) (a))。我们还观察到*欺骗性平坦度*,其中Hessian矩阵看似良好,而训练损失却保持较高——这是欠训练的明显标志 (图11 (https://arxiv.org/html/2605.29153#A6.F11) (b) 和图13 (https://arxiv.org/html/2605.29153#A6.F13))。我们将SciML中Hessian-损失正相关的崩溃归因于其损失景观的非平凡性质,这从根本上区别于(相对)良好行为的CV景观 (Yang et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib9))。我们讨论了五种与CV和NLP模型训练困难或失败相关的损失景观异常;并考察其中哪些能够或不能解释SciML模型中观察到的特定失败。
总体而言,我们的工作提供了基于区域的经验视角来理解SciML模型,补充了现有的方法论进展;通过使失败模式可测量,我们的框架为提升SciML应用的鲁棒性和稳定性提供了实用指导。更多相关工作请参见附录A (https://arxiv.org/html/2605.29153#A1);后续附录包含附加信息。我们的代码可从 https://github.com/leastima/sciml_multi_regime 获取。
## 2 多区分析结果
在本节中,我们沿着三个互补的维度呈现多区经验分析:模型族、物理系统和优化或训练策略。我们考察这些因素如何塑造区域的几何结构、可训练性和泛化能力。然后我们提供几个SciML任务中观察到的损失景观的案例研究。
### 2.1 实验设置
##### 数据集和模型。
我们研究了涵盖五种主要SciML模型的代表性区域结构,包括PINN、傅里叶神经算子(FNO)、物理信息神经算子(PINO)、神经常微分方程(NODE)和物理信息神经常微分方程(PINODE)。这些模型被广泛使用且在概念上各具特点,涵盖了物理约束的机器学习方法、算子学习与时序动力学建模。对于PINN,我们在1D对流、反应、波动和反应-扩散方程上进行训练,遵循先前工作中的设置 (Krishnapriyan et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib20); Rathore et al., 2024 (https://arxiv.org/html/2605.29153#bib.bib58))。对于FNO,我们使用2D泊松和对流-扩散系统 (Subramanian et al., 2023 (https://arxiv.org/html/2605.29153#bib.bib26)),对于PINO使用2D达西流 (Li et al., 2024 (https://arxiv.org/html/2605.29153#bib.bib93));对于NODE和PINODE,我们使用先前工作中的非线性摆基准 (Krishnapriyan et al., 2023 (https://arxiv.org/html/2605.29153#bib.bib125))。
##### 训练与优化。
我们考虑了一系列优化和训练策略,包括标准的一阶和二阶方法(Adam (Kingma 和 Ba, 2015 (https://arxiv.org/html/2605.29153#bib.bib136)) 和L-BFGS (Zhu et al., 1997 (https://arxiv.org/html/2605.29153#bib.bib141)))、先进的二阶方法NysNewton-CG(NNCG)(Rathore et al., 2024 (https://arxiv.org/html/2605.29153#bib.bib58))、通过增广拉格朗日方法(ALM)的硬约束优化 (Lu et al., 2021b (https://arxiv.org/html/2605.29153#bib.bib41))、课程学习(CL)(Krishnapriyan et al., 2021 (https://arxiv.org/html/2605.29153#bib.bib20)) 以及RoPINN稳定化框架 (Wu et al., 2024 (https://arxiv.org/html/2605.29153#bib.bib69))。这些方法在不同的算法中扮演不同角色:Adam、L-BFGS和NNCG修改参数更新动态;ALM改变约束执行公式;CL改变训练轨迹;RoPINN旨在通过PINN特定的稳定化改进配置点条件。因此,我们广义地研究优化和训练干预,而非狭义上的优化器。每种SciML模型和基准系统的详细实验配置总结在表1 (https://arxiv.org/html/2605.29153#A3.T1)中。除非另有说明,PINN和FNO实验使用五个随机种子,其余实验使用三个随机种子。第2.5节 (https://arxiv.org/html/2605.29153#S2.SS5)中讨论的ResNet-18模型 (He et al., 2016 (https://arxiv.org/html/2605.29153#bib.bib138))(我们将其纳入进行比较)使用随机梯度下降(SGD)训练。
##### 区域图与边界。
我们将展示的区域图(参见图1 (https://arxiv.org/html/2605.29153#S2.F1) 示例)总结了代表性SciML模型在训练和测试上的性能。在每个图中,xx轴对应问题的特定物理参数,例如1D对流方程中的PDE系数ββ。改变该参数会改变由控制方程诱导的解结构和目标复杂度,从而以问题相关的方式改变训练难度。yy轴表示监督量,对PINN用配置点数量衡量,对其他模型用训练样本数量衡量。计算Hessian相关量、定义区域边界和生成区域图的具体实现细节分别在附录D.2 (https://arxiv.org/html/2605.29153#A4.SS2)、D.3 (https://arxiv.org/html/2605.29153#A4.SS3) 和 D.4 (https://arxiv.org/html/2605.29153#A4.SS4) 中描述。具体来说,区域边界是使用训练误差和测试误差阈值从区域图中自动提取的。*泛化边界*(虚线)由测试误差阈值 TtestT_{\text{test}} 确定,并将成功泛化的区域与模型训练但未能良好泛化的区域分隔开。*训练边界*(实线)由训练损失阈值 TtrainT_{\text{train}} 确定,并将可训练区域与优化仍不足以达到的区域分隔开。为评估鲁棒性,我们将百分位阈值扰动±20%±20% 并重新计算区域边界。
### 2.2 跨SciML模型的区域
参见图注 (*a*) PINN (*b*) FNO (*c*) PINO (*d*) NODE (*e*) PINODE 图1: 跨不同模型族的代表性区域图。较浅(黄色)和较深(绿色)颜色分别表示较低的训练损失/测试误差。在所有模型中,训练-测试区域图一致地相似文章
上下文-参数冲突的三种机制:预测框架与实证验证
本文提出了一个三机制框架,以解决大型语言模型(LLM)在处理训练知识与新文档之间冲突时出现的实证矛盾,并在五大主流模型上进行了验证。该框架区分了参数强度与参数唯一性,并展示了任务框架和证据连贯性如何显著影响模型行为。
超越模式崩溃:面向多样化推理的分布匹配
本文识别了同策略强化学习方法(如GRPO)中的模式崩溃问题,并提出了DMPO,该方法通过近似前向KL散度最小化来保持解的多样性。在NP难组合优化和数学推理任务上取得了显著改进。
@MaximeRivest: 乍一看:> 结构方程模型 (SEM/路径分析) > 神经常微分方程 (Neural OD…
作者将结构方程模型、神经常微分方程和类似DSPy的AI程序进行比较,认为它们都是用于定义和优化计算图的声明性框架,并论证了结构化流程对于可信AI代理至关重要。
模型能力主导:AIMO 3推理时优化的经验启示
本论文分析了AIMO 3的推理时优化技术,发现模型能力优于提示工程和多样化采样策略。研究表明高温度采样已经能够最大程度地去相关化误差,为基于提示的改进留下了很少余地,并识别出单个模型pass@20与多数投票共识之间存在6分的选择损失差距。
用于多相输运和热系统数据驱动建模的开放多模态数据集与开源软件
本文介绍了用于可复现的AI驱动热流体研究的开放多模态数据集和开源软件包,提出了时空维度框架及SeqReg等序列回归工具。