一种全GPU工作流:构建高超声速流动物理仿真器
摘要
本文介绍了一种全GPU工作流,通过可微分求解器(JAX-Fluids)和基于残差的精化方法加速高超声速流动神经仿真器的数据生成与训练,提高训练分布之外的物理一致性和可靠性。
arXiv:2606.13742v1 公告类型:新
摘要:以高保真度和低计算成本解决复杂物理现象的能力,是应对现代工程关键挑战的核心。高超声速流动是一个典型例子,其中精确预测整个流场拓扑,特别是激波位置和强度,至关重要。然而,超声速和高超声速流动仍然是传统降阶模型和神经仿真器的绊脚石,这些方法难以在工业相关应用中捕捉流动状态中的陡峭梯度并保持物理一致性。为此,我们提出了一种全GPU工作流,该工作流将加速数据生成与神经仿真器训练相结合,并辅以不确定性量化和物理感知精化。我们的工作流依赖于一个可微分的高保真求解器(JAX-Fluids),用于快速数据集创建和基于残差的神经仿真器改进,以增强物理一致性。在此基础上,我们首先展示了一系列模型架构,并分析其扩展行为,以揭示其优缺点。然后,我们证明基于残差的精化能够在仅有网格和输入参数的情况下进行训练,显著降低残差并提高物理一致性。可微分仿真与基于残差的精化相结合,使得物理仿真器在训练分布之外仍保持可靠性,这是在真实工程设计循环中部署代理模型的关键要求。
查看缓存全文
缓存时间: 2026/06/15 09:07
# 全面的基于 GPU 的高超声速流动物理模拟器构建流程
来源:https://arxiv.org/html/2606.13742
Fabian Paischer\(^{2,3}\),Dylan Rubini\(^{1\*}\),Deniz A. Bezgin\(^1\),Aaron B. Buhendwa\(^1\),David Hauser\(^3\),Florian Sestak\(^{2,3}\),Johannes Brandstetter\(^{2,3}\),Sebastian Kaltenbach\(^3\),Nikolaus A. Adams\(^1\)
\(^1\) 慕尼黑工业大学空气动力学与流体力学教席,德国
\(^2\) ELLIS 单元,林茨约翰·开普勒大学机器学习研究所
\(^3\) EMMI AI,林茨
###### 摘要
以高保真度和低计算成本解析复杂物理现象的能力,是解决现代工程关键问题的核心。高超声速流动是一个典型的例子,其中精确预测整个流场拓扑结构,特别是激波位置和强度,至关重要。然而,超声速和高超声速流动对于传统的降阶模型和神经模拟器来说仍然是一个障碍,这些模型和模拟器难以在具有工业相关性的应用中,以物理一致的方式捕捉流动状态中的陡峭梯度。为此,我们介绍了一种完全基于 GPU 的工作流程,该流程将加速数据生成与神经模拟器的训练相结合,并辅以不确定性量化和物理感知细化。我们的工作流程得益于一个可微分的高保真求解器(JAX-Fluids),我们利用它来快速创建数据集并基于残差改进神经模拟器,以增强物理一致性。基于此框架,我们首先展示了一套模型架构,并分析它们的扩展行为,以揭示其优势和不足。然后,我们表明基于残差的细化能够对仅提供网格和输入参数的情况进行训练,从而显著减少残差并提高物理一致性。可微分模拟与基于残差的细化相结合,产生了在其训练分布之外也能保持可靠的物理模拟器,这是在真实工程设计循环中部署替代模型的关键要求。
## 1 引言
流体动力学是自然界和技术中许多过程的基础,其数值模拟通常位列 Tier 0 计算设施顶级计算资源分配的范畴 [Slottnick 等人,2014 (https://arxiv.org/html/2606.13742#bib.bib47)]。尽管其具有复杂且固有的多尺度特性,但流场表现出由普遍依赖性所决定的相干行为。预测模拟的一个长期挑战,特别是在高速运输和推进领域,是多尺度流动结构(如相干涡旋、涡流和激波)的同时存在。激波是这些现象中最具影响力的之一,控制着从星系演化 [McKee and Hollenbach (1980 (https://arxiv.org/html/2606.13742#bib.bib3))] 到高速推进可行性 [Urzay (2018 (https://arxiv.org/html/2606.13742#bib.bib2))] 的过程。它们的特征是宏观流动状态的不连续性,例如压力、密度、温度和动量的极端梯度,当局部流速 \(\|\mathbf{u}(\mathbf{x},t)\|\) 超过局部声速 \(a(\mathbf{x},t)\),即局部马赫数 \(Ma(\mathbf{x},t) = \|\mathbf{u}\|/a \geq 1\) 时就会出现。高超声速流场预测对于数值模拟和数据驱动建模都极具挑战性。其特点是马赫数超过约五,并表现出强烈的激波相互作用、高焓效应和严格的守恒要求。这类流动问题历来是高性能计算的主要驱动应用,推动了方法学的发展和社区基准测试 [Wilfong 等人 (2025 (https://arxiv.org/html/2606.13742#bib.bib6)); Rossinelli 等人 (2013 (https://arxiv.org/html/2606.13742#bib.bib7))]。数值模拟的高计算成本使得数据驱动的替代方案成为经典计算流体力学(CFD)领域的首要研究兴趣 [Brunton 等人 (2020 (https://arxiv.org/html/2606.13742#bib.bib8)); Brenner 等人 (2019 (https://arxiv.org/html/2606.13742#bib.bib32)); Karniadakis 等人 (2021 (https://arxiv.org/html/2606.13742#bib.bib43))]。这些方法包括从通过物理模拟器(PE)完全替代数值求解器,到通过机器学习(ML)加速现有 CFD 方法。在这项工作中,我们提出了一种完全基于 GPU 的高超声速流动工作流程,该流程由可微分的有限体积求解器 JAX-Fluids [Bezgin 等人,2023 (https://arxiv.org/html/2606.13742#bib.bib12), 2025a (https://arxiv.org/html/2606.13742#bib.bib11)] 实现。该工作流程包括:(i) GPU 加速的数据生成,(ii) 神经模拟器的预训练,以及 (iii) 无目标、基于残差的细化。
数据生成基于笛卡尔多块网格,该网格能够在 GPU 上实现高效并行化,并与各种 ML 架构和训练范式无缝集成。对于预训练,我们研究了两种互补的架构:基于不规则网格的 AB-UPT [Alkin 等人,2025 (https://arxiv.org/html/2606.13742#bib.bib14)] 和基于规则网格的视觉变换器(ViT, Dosovitskiy 等人,2021 (https://arxiv.org/html/2606.13742#bib.bib15))]。此外,我们还研究了确定性和概率性训练范式之间的权衡。我们对所有架构和训练范式进行了关于模型大小和数据集大小的扩展研究。对于无目标、基于残差的细化,预训练的 PE 生成一个候选解,然后根据可微分求解器计算的底层偏微分方程(PDE)残差进行评估。由此产生的梯度信号反向传播到模拟器权重中,无需任何目标流场,且精确地模拟了数据生成过程中使用的数值离散化。我们的实验揭示了在高超声速范围内,为 PE 选择架构、训练范式和细化的几个关键发现。在这两种架构中,AB-UPT 在数据丰富的设置下实现了最高的精度,而 ViT 在数据稀缺的情况下表现更优,这得益于其规则网格结构提供的强大归纳偏置。流匹配将逐点精度换成了生成建模能力,但提供了现成的不确定性并充当隐式数据增强,导致其分布内和分布外性能之间的差距比任何一种确定性架构都小。对于物理感知细化,我们发现通过 PDE 残差的反向传播导致守恒残差大幅减少,而场级精度几乎没有变化,这表明预训练模型已经捕捉到了主要的流动结构,细化主要纠正了局部的物理一致性。值得注意的是,无目标设置(即仅基于计算网格和输入参数进行条件化,而无需参考流场)在残差方面表现出最大的改进。总体而言,我们的贡献如下:
- • 我们提出了一种完全基于 GPU 的高超声速流动模拟工作流程,该流程将数据生成、代理预训练和物理感知细化集成在一个基于 JAX-Fluids 求解器的单一可微分管道中。
- • 我们通过结合基于物理空间坐标的绝对和相对位置编码,使得规则网格 ML 架构能够对网格拓扑参数(例如,块结构网格的块数和块顺序)保持无关性。
- • 我们评估了两种互补的神经架构(AB-UPT 和 ViT)以及两种训练范式(确定性 vs 概率性),并针对模型大小和数据集大小进行了扩展研究,在不同场景下识别出了独特的数据效率和精度权衡。
- • 我们引入了一个无目标细化阶段,该阶段通过将 PDE 残差反向传播到预训练的神经 PE 权重中,而无需参考流场,从而提高了物理一致性,并证明了其相对于场值微调的优势。
## 2 相关工作
机器学习已通过多种互补方式集成到 CFD 工作流程中。一条工作路线是用学习到的组件来增强经典数值格式。神经网络(NN)已被用作有问题的像元指示器,用于定位高阶离散化中需要限制的位置 [Ray and Hesthaven (2018 (https://arxiv.org/html/2606.13742#bib.bib34))];作为物理约束的隐式大涡模拟(LES)中的局部且简约的修改,导致经典激波捕捉格式的修改 [Bezgin 等人 (2025b (https://arxiv.org/html/2606.13742#bib.bib10))];以及作为从粗网格求解器中恢复细网格精度的学习校正算子 [Kochkov 等人 (2021 (https://arxiv.org/html/2606.13742#bib.bib31))]。另一条相关路线使用强化学习来发现有效的封闭模型 [Novati 等人 (2021 (https://arxiv.org/html/2606.13742#bib.bib46)); Fischer 等人 (2025 (https://arxiv.org/html/2606.13742#bib.bib45))]。第三条路线则完全绕过求解器,将神经网络训练为端到端的 PE,例如深度卷积模型,将翼型几何直接映射到雷诺平均纳维-斯托克斯(RANS)场 [Thuerey 等人 (2020 (https://arxiv.org/html/2606.13742#bib.bib33))]。所有这些设置的共同支撑点是拥有一个具备端到端可微算法的先进 CFD 求解器 [Bezgin 等人 (2023 (https://arxiv.org/html/2606.13742#bib.bib12), 2025a (https://arxiv.org/html/2606.13742#bib.bib11))]。
一个更一般的公式旨在学习 PDE 的参数到解的算子,作为函数空间之间的映射。神经算子提供了一个可扩展且分辨率不变的映射学习框架,并且相对于传统数值求解器提供了数量级的速度提升 [Li 等人 (2020 (https://arxiv.org/html/2606.13742#bib.bib38)); Lu 等人 (2021 (https://arxiv.org/html/2606.13742#bib.bib39)); Azizzadenesheli 等人 (2024 (https://arxiv.org/html/2606.13742#bib.bib18))]。此外,对于非结构化离散化,基于网格的图网络利用模拟网格的邻接结构来学习局部更新规则 [Pfaff 等人 (2020 (https://arxiv.org/html/2606.13742#bib.bib40))]。最近,纯基于变换器的 [Vaswani 等人,2017 (https://arxiv.org/html/2606.13742#bib.bib23)] 公式 [Alkin 等人 (2024 (https://arxiv.org/html/2606.13742#bib.bib37), 2025 (https://arxiv.org/html/2606.13742#bib.bib14))] 已经显示出能够扩展到工业相关的复杂性并有效捕捉长程依赖。
尽管具有灵活性,神经 PE 仍然面临一些有据可查的实际限制,例如大量的数据需求、对训练分布变化的敏感性、缺乏推演鲁棒性以及在复杂范围内无法保证物理一致性 [Vinuesa and Brunton (2022 (https://arxiv.org/html/2606.13742#bib.bib17))]。因此,目前大多数工作都集中在优化模型误差上,例如 RANS 方程 [Gupta and Duraisamy (2026 (https://arxiv.org/html/2606.13742#bib.bib19))]。关于可扩展性以及在此类范围(包括高超声速飞行)之外适用性的问题仍然悬而未决。虽然速度、压力和密度上的小尺度波动原则上可以在足够细的网格上解析,但激波仍然是真正的不连续性,需要专门的非线性格式 [F. (2009 (https://arxiv.org/html/2606.13742#bib.bib5))]。激波是底层流动方程的弱解,并遵循激波前后状态之间精确的跳跃关系,即兰金-于戈尼奥条件 [LeVeque (1992 (https://arxiv.org/html/2606.13742#bib.bib13))]。这些特性使得即使对于经典格式而言,可靠且高分辨率的激波及激波相互作用预测也具有挑战性,而对于纯数据驱动的代理模型则尤为困难。只有显式地加入物理一致性的归纳偏置,物理信息神经网络 [Karniadakis 等人,2021 (https://arxiv.org/html/2606.13742#bib.bib43)] 才能提供具有正确激波位置、满足跳跃条件并保持流动状态正性的预测 [Mao 等人 (2020 (https://arxiv.org/html/2606.13742#bib.bib35)); Jagtap 等人 (2022 (https://arxiv.org/html/2606.13742#bib.bib4))]。最近,通过在选定网格上由控制方程的数值离散化提供的离散损失的优化,已被证明足以解决三维稳态跨声速和超声速流动中的逆推问题 [Buhendwa 等人 (2025 (https://arxiv.org/html/2606.13742#bib.bib20)); Paischer 等人 (2025 (https://arxiv.org/html/2606.13742#bib.bib62))],尽管在该设置中仍然需要一些流场数据。
对于生成任务,去噪扩散模型已开始在流体力学中得到探索。它们产生样本多样化的预测,并自然地提供一个后验分布,从中可以估计不确定性 [Ho 等人 (2020 (https://arxiv.org/html/2606.13742#bib.bib16))]。扩散模型能够快速预测高维动力系统中感兴趣分布量 [Gao 等人 (2024 (https://arxiv.org/html/2606.13742#bib.bib41)); Molinaro 等人 (2024 (https://arxiv.org/html/2606.13742#bib.bib42))]。在不可压缩湍流中,扩散模型已经能够从零开始生成物理上合理的三维流动状态 [Lienen 等人 (2024 (https://arxiv.org/html/2606.13742#bib.bib36))],并为一系列雷诺数和攻角下的翼型流动提供校准的不确定性 [Liu and Thuerey (2024 (https://arxiv.org/html/2606.13742#bib.bib44))]。在可压缩范围内,去噪扩散模型已被研究用于适度的超声速流动 [Abaidi and Adams (2025 (https://arxiv.org/html/2606.13742#bib.bib21))]。然而,一个结合了参数化数据生成、跨互补架构的神经模拟器训练、不确定性量化以及复杂高超声速流动物理感知细化的全面基于 GPU 的工作流程尚未得到展示。
## 3 神经物理模拟器管道
构建物理模拟器的端到端可微分工作流程
(a) 高保真数据生成
(b) 数据驱动预训练
(c) 物理信息微调
参考图注
来自 CAD 的 STL 文件
参考图注
多块网格
参考图注
JAX-Fluids CFD 求解器
参考图注
流场
训练数据
参考图注
Transformer AB-UPT
参考图注
预测
监督损失 \(\mathcal{L}_\mathrm{data}\)
参考图注
预训练 Transformer
参考图注
预测
参考图注
JAX-Fluids 可微分算子
PDE 残差 \(\mathcal{L}_\mathrm{PDE}\)
前向传递/信息流
反向传递/梯度
反向传递/物理信息梯度
GPU 加速
端到端可微分
物理引导学习
图 1: 一个完全 GPU 加速且端到端可微分的工作流程,用于构建复杂流动现象的物理模拟器。该工作流程由三个阶段组成。(a) 高保真数据生成:从几何的 STL 表示开始,自动生成多块网格。然后,JAX-Fluids 执行高保真 CFD 模拟,直到获得稳态解,从而得到训练数据集。(b) 数据驱动预训练:物理模拟器在相似文章
物理信息卷积神经网络用于多孔介质流体流动
本文提出了一种物理信息卷积编码器-解码器网络,用于从多孔介质几何结构预测孔隙尺度速度场,并证明使用网络预测初始化格子玻尔兹曼模拟可在超过90%的情况下加速收敛。
AeroJEPA:学习用于可扩展3D气动场建模的语义潜在表示
本文介绍了AeroJEPA,一种用于可扩展3D气动场建模的联合嵌入预测架构。它通过预测流场的语义潜在表示,解决了当前代理模型在可扩展性和设计实用性方面的局限性,从而实现了高效的高保真分析和设计优化。
流体模拟入门指南
基于Jos Stam论文的实时3D流体模拟分步教程,面向程序员,注重实际编码而非繁重的物理和数学。
DiffAero:一个用于高效四旋翼策略学习的GPU加速可微仿真框架
DiffAero 是一个面向四旋翼控制策略学习的GPU加速、完全可微仿真框架,支持环境级与智能体级并行、多种动力学模型以及可定制传感器。它能够在消费级硬件上数小时内完成鲁棒飞行策略的学习,并以开源形式发布。
面向物理系统群体动力学学习的双参数流
提出了双参数流方法,从无标签样本学习高维概率密度的动力学,利用条件流匹配提取物理时间速度场。