AeroJEPA:学习用于可扩展3D气动场建模的语义潜在表示

arXiv cs.LG 论文

摘要

本文介绍了AeroJEPA,一种用于可扩展3D气动场建模的联合嵌入预测架构。它通过预测流场的语义潜在表示,解决了当前代理模型在可扩展性和设计实用性方面的局限性,从而实现了高效的高保真分析和设计优化。

arXiv:2605.05586v1 公告类型:新发布 摘要:气动代理模型越来越多地被用于在许多次查询的设计场景中替代重复的高保真CFD评估,但当前的方法仍面临两个重要局限:它们往往难以扩展以处理真实3D气动中产生的极大流场,且很少产生对分析和设计直接有用的潜在表示。我们引入了AeroJEPA,一种用于气动场建模的联合嵌入预测架构,旨在解决这两个问题。与直接从几何形状预测完整流场不同,AeroJEPA根据几何形状和工作条件的上下文潜在表示,预测流场的目标潜在表示,并可选地通过连续隐式解码器重构流场。这种形式将潜在预测与场分辨率解耦,同时鼓励潜在空间在语义上进行组织。我们在两个互补的数据集上对AeroJEPA进行了评估:HiLiftAeroML,该方法在高保真 regime 下通过极大边界层流场对方法提出挑战;SuperWing,该方法在广泛的跨音速机翼系列上测试大规模泛化能力和潜在空间优化。在这些基准测试中,AeroJEPA作为气动场的连续代理具有竞争力,能够自然地扩展到高分辨率输出,并学习到编码了未直接用作监督信号的几何形状和气动量的上下文及预测潜在表示。我们进一步表明,所得潜在空间支持受控插值、线性探测、概念向量算术以及约束设计的潜在优化实验。这些结果表明,预测性潜在学习是可扩展且具有设计意义的气动代理建模的一个有前途的方向。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:03

# AeroJEPA:学习语义潜表示以实现可扩展的3D空气动力学场建模
来源:https://arxiv.org/html/2605.05586
Francisco Giral,马德里理工大学 & Abhijeet Vishwasrao,密歇根大学;Andrea Arroyo Ramo,巴伦西亚理工大学 & Mahmoud Golestanian,普渡大学 & Federica Tonti,密歇根大学;Adrian Lozano-Durán,加州理工学院 & Steven L. Brunton,华盛顿大学 & Sergio Hoyas,巴伦西亚理工大学;Hector Gomez,普渡大学 & Soledad Le Clainche,马德里理工大学 & Ricardo Vinuesa11footnotemark:1,密歇根大学

###### 摘要
空气动力学代理模型越来越多地用于取代多查询设计场景中的重复高保真CFD评估,但当前方法仍面临两个重要限制:它们往往难以扩展至真实3D空气动力学中产生的极大场域,且很少产生直接可用于分析和设计的潜表示。我们提出了AeroJEPA,一种用于空气动力学场建模的联合嵌入预测架构(Joint-Embedding Predictive Architecture),以解决这两个问题。AeroJEPA不是直接从几何形状预测完整的流场,而是从几何形状和工作条件的上下文潜表示中预测流的目標潜表示,并通过连续隐式解码器可选地重建场。这种 formulations 将潜预测与场分辨率解耦,同时鼓励潜空间进行语义组织。我们在两个互补的数据集上评估了AeroJEPA:HiLiftAeroML在高保真 regime 下测试该方法,涉及具有极大规模边界层场的情况;SuperWing则测试了跨宽泛跨音速翼族的大规模泛化能力及潜空间优化。在这些基准测试中,AeroJEPA作为空气动力学场的连续代理模型具有竞争力,自然扩展至高解析度输出,并学习了编码未直接作为监督使用的几何和空气动力学量的上下文及预测潜表示。我们进一步表明,由此产生的潜空间支持受控插值、线性探测、概念向量算术以及受限设计潜优化实验。这些结果表明,预测性潜学习是用于可扩展且具有设计意义的空气动力学代理建模的一个有前途的方向。

## 1 引言

空气动力学设计日益处于多查询 regime 中:工程师必须在大量几何形状和工作条件空间中反复评估高维流场,以筛选概念、比较设计变体并完善有希望的候选方案。高保真CFD仍然是这些任务的金标准,但其成本使得直接优化、大规模探索和快速迭代变得代价高昂。这种矛盾长期以来一直推动空气动力学分析的代理建模(Forrester et al., 2006; 2008; Yondo et al., 2018),最近更推动了用于空气动力学预测的神经代理、神经算子和连续场表示的发展(Azizzadenesheli et al., 2024; Catalani et al., 2024; Duvall and Duraisamy, 2025)。

尽管取得了这些进展,在真实的3D空气动力学中仍有两个主要限制。首先,许多现有代理模型针对固定离散化上的直接场预测进行了优化,这使得它们难以扩展至高保真设置中产生的极大输出。其次,即使它们准确,它们在表示空间本身中也往往缺乏结构:它们预测场,但并未产生与几何、工作条件、基础物理或下游空气动力学性能清晰对齐的潜变量。然而,这种结构正是使学习到的代理在科学理解与设计方面更有用的关键(Vishwasrao et al., 2026; Vinuesa et al., 2026)。

语义组织的潜空间可以支持探测、插值,甚至梯度基于的优化,而无需在每次内循环步骤中重复操作网格或解码完整场。

> **图1:AeroJEPA框架概览。** 上下文编码器将几何点云映射到上下文令牌 $Z_c$,而目标编码器将真实流点云映射到目标令牌 $Z_t$。预测器以操作变量 $c$(例如,$\alpha$,$Re$,Mach)为条件作用于 $Z_c$,并输出预测的目标令牌 $\hat{Z}_t$。训练始终包括潜匹配损失 $\mathcal{L}_{\text{lat}}$ 和防崩溃正则化项 $\mathcal{L}_{\text{sig}}$。当包含解码器时,预测令牌还会被解码为物理场,并通过重建损失 $\mathcal{L}_{\text{rec}}$ 进行掩码监督。在推理时,目标编码器被丢弃;仅在需要全场重建时才使用解码器。

这一挑战处于两条活跃工作线的交叉点。在空气动力学方面,最近的方法展示了紧凑潜表示、基于Transformer的代理和用于高维CFD数据的隐式解码器的潜力(Solera-Rico et al., 2024; Francés-Belda et al., 2024; Eivazi et al., 2022; Choy et al., 2025; Wu et al., 2024a; Adams et al., 2025; Zou et al., 2026)。这些方法证明了压缩和连续表示的价值,但它们通常仍然通过直接的几何到场预测或重建进行训练。在表示学习方面,联合嵌入预测架构(JEPAs)通过从上下文嵌入预测目标嵌入而不是重建原始输入来进行学习(Assran et al., 2023; Sobalet al., 2022)。最近的发展,如LeJEPA和LeWorldModel表明,JEPA式训练可以通过显式潜正则化来稳定,相关工作也已将该范式扩展到3D、多模态和科学设置中(Balestriero and LeCun, 2025; Maes et al., 2026; Hu et al., 2024; Perera et al., 2025; Chen et al., 2025; Qu et al., 2026; Yee and Koh, 2026)。然而,这一系列工作尚未完全开发用于空气动力学代理建模,其中上下文是几何加上工作条件,而目标是完整流场的潜表示。

在本文中,我们介绍了AeroJEPA,一种专为3D空气动力学问题定制的JEPA式预测潜架构。AeroJEPA不是学习直接从几何重建流场,而是从几何形状和工作条件的上下文潜表示中预测流的目標潜表示。然后,连续隐式解码器可以从预测的潜状态在任意查询位置重建场。这种设计将昂贵的预测问题与输出场的空间分辨率解耦,同时鼓励模型在潜空间中组织信息,使其超出纯粹的重建准确性之外仍可被分析和利用。

我们在两个互补的数据集上评估了AeroJEPA。HiLiftAeroML在高保真 regime 下测试该方法,涉及真实高升力飞机几何形状上极大规模的边界层场,其中可扩展性和连续解码至关重要。SuperWing则强调在大型参数化跨音速翼族上的广泛泛化,并允许我们测试学习到的潜空间是否支持概念验证优化工作流。在这些数据集上,我们表明AeroJEPA作为空气动力学场的连续代理具有竞争力,其上下文和预测潜捕捉了未直接作为监督使用的几何和空气动力学信息,且由此产生的潜空间足够平滑,以支持受控插值和受限设计空间搜索。

我们的贡献有三方面。首先,我们为空气动力学代理建模制定了JEPA式预测潜架构,结合了以几何为条件的潜预测和连续隐式神经表示(INR)解码器。其次,我们表明这种 formulation 产生了语义上有意义的潜空间,其中设计变量和空气动力学量即使未用作直接训练目标也可被恢复或操纵。第三,我们在大规模空气动力学基准上证明该方法实际上是有用的:它在场预测方面保持竞争力,自然扩展至高解析度输出,并启用了潜空间中的轻量级概念验证优化程序。

## 2 方法

在本节中,我们提出AeroJEPA的 formulation,这是一种改编自联合嵌入预测架构(JEPA)范式的新框架,专门针对3D空气动力学问题。 unlike 传统代理模型试图将物理几何直接映射到高维流场(或专注于像素或体素级重建的标准自编码器),AeroJEPA完全在一个学习到的、具有物理意义的潜空间中操作。这种方法能够实现流场的快速预测,并明确结构化潜维度使其与几何设计变量和物理属性高度相关,从而允许极快的优化和设计周期。

### 2.1 问题表述

我们考虑预测复杂空气动力学几何周围的稳态3D流体场的问题。设给定的几何设计由其边界表面 $\partial\Omega$ 定义,该表面在空间域 $\Omega \subset \mathbb{R}^3$ 中与流体相互作用。几何形状被离散化并表示为边界条件(BC)点的非结构化点云,$P=\{x_i\}_{i=1}^{N_c}$,其中每个 $x_i \in \partial\Omega$。流物理受一组操作或自由流条件支配,记为 $c$。在空气动力学背景下,该条件向量包括雷诺数($Re$)和攻角($\alpha$)等变量。目标是将几何表示 $P$ 和物理条件 $c$ 映射到相应的连续流体场(例如,压力和速度向量场),记为 $\mathcal{F}$。与其预测重度离散化的网格,我们旨在学习一个INR,该INR可以在任意空间查询点 $q=(x,y,z) \in \Omega$ 输出流体状态。

### 2.2 AeroJEPA框架

AeroJEPA的核心哲学是通过紧凑的令牌接口分离几何编码、潜预测和场解码。图1高亮了每个 regime 中活跃的模块。上下文编码器和预测器在推理时始终使用。目标编码器仅在训练时使用。解码器是可选的:它可以与潜JEPA目标联合优化,或在解耦的第二阶段在冻结的预测潜上稍后训练。此架构支持两种训练工作流。在**耦合**工作流中,上下文编码器、目标编码器、预测器和解码器通过潜和重建掩码监督端到端训练。在**解耦**工作流中,首先仅使用编码器、预测器和潜空间损失训练潜JEPA;之后,编码器和预测器被冻结,解码器在预测潜上单独训练。两种变体都与相同框架兼容。在这项工作中,我们使用耦合变体,因为经验上,它在保持预测潜的物理有效性的同时不牺牲语义对齐。在推理时,目标编码器被丢弃。对于潜分析或潜优化,模型仅使用上下文编码器和预测器。对于场预测,预测令牌还通过INR解码器传递以在任意查询点重建流体场。

### 2.3 编码器:从物理空间到潜空间的转换

为了处理3D空气动力学中产生的高度不规则且通常庞大的点集,AeroJEPA首先将几何和流数据转换为可管理的点云输入,然后将其压缩为固定大小的令牌集。

#### 上下文编码器

上下文编码器 $\mathcal{E}_c$ 始于原始CFD网格,但丢弃网格连接性,仅保留几何的点云表示。为了提高训练效率,每个案例(最初可能包含数千万个点)使用最远点采样(FPS)随机子采样到可管理的点数,通常在 $8\times 10^3$ 到 $131\times 10^3$ 个点之间,具体取决于数据集分辨率。对于仅表面设置,编码器使用点坐标作为输入特征。对于体积设置,我们额外提供每一点的符号距离函数(SDF)值。其他几何派生属性(如表面法线)也可以纳入,但在本工作的开发期间未使用。

给定子采样几何云 $P$,编码器产生固定数量的上下文令牌:
$$ Z_c = \mathcal{E}_c(P) \in \mathbb{R}^{M \times d} \quad (1) $$
其中 $M$ 是空间令牌的数量,$d$ 是令牌宽度。在主要实验中,HiLiftAeroML使用3072个宽度为64的令牌,而SuperWing使用512个宽度为128的令牌。

#### 目标编码器

目标编码器 $\mathcal{E}_t$ 仅在训练时使用,它操作于真实流体场的独立子采样点云。该目标云可能仅覆盖表面量(例如,$C_p, C_f$,边界层速度)或体积场(例如,整个域中的速度和压力),具体取决于数据集。重要的是,目标点独立于几何点采样,因此模型不依赖于上下文和目标样本之间的一一对应关系。

目标编码器将子采样流场 $\mathcal{F}$ 映射到目标令牌:
$$ Z_t = \mathcal{E}_t(\mathcal{F}) \in \mathbb{R}^{M \times d} \quad (2) $$
$Z_t$ 作为潜空间中的目标。

在两个编码器中,令牌嵌入通过将子采样点云聚类到学习到的质心、使用轻量级消息传递网络(Gilmer et al., 2017)聚合每个质心周围的局部邻域,并使用点Transformer精炼 resulting 令牌集来获得。

相似文章

面向自回归动力系统预测的可扩展单步生成建模

arXiv cs.LG

本文介绍了 MeLISA,这是一种无需潜变量的自回归生成代理模型,用于预测高维物理动力学。该模型利用像素空间的 MeanFlow 实现高效的单步生成。与神经算子相比,MeLISA 在湍流基准测试中展现出更优越的长程统计精度和推理速度。

LeWorldModel:从像素出发的稳定端到端联合嵌入预测架构

Papers with Code Trending

LeWorldModel 提出了一种稳定的端到端联合嵌入预测架构(JEPA),可直接从像素进行训练,仅需极少超参数,并具有可证明的反坍塌保证。与基础模型相比,它在规划速度上实现了显著提升,同时在机器人操作任务中保持了具有竞争力的性能。

表征先于像素:语义引导的分层视频预测

Hugging Face Daily Papers

Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。