Tadpole:面向3D PDE的自编码器基础模型与在线学习
摘要
Tadpole提出了一种针对3D偏微分方程的基础模型,通过高效的在线数据生成作为自编码器进行预训练,无需存储开销即可实现大规模多样化训练。该模型在异构物理系统的动力学学习和生成建模方面展现出强大的微调性能。
arXiv:2605.15284v1 公告类型:新
摘要:我们介绍Tadpole,一种新颖的三维偏微分方程(PDE)基础模型,它解决了可迁移性、高维可扩展性和多功能性等关键挑战。Tadpole通过高效的在线数据生成框架,作为自编码器在合成3D PDE数据上进行预训练。这使得无需存储或I/O开销即可进行大规模、多样化的训练,并通过扩展到相当于数百TB的训练数据来证明其能力。通过对单通道空间裁剪进行自编码,Tadpole能够学习丰富且可迁移的表示,适用于具有不同状态变量数量和空间分辨率的异构物理系统。尽管仅作为自编码器进行预训练,Tadpole可以高效地应用于多个下游任务,包括动力学学习和生成建模,而不仅仅是重建。对于动力学学习,我们提出了一种新颖的参数高效微调策略,该策略集成了低秩适配、潜在空间变换和重新引入的跳跃连接,以最少的可训练参数实现了精确的时间建模。Tadpole在多种下游任务中展示了强大的微调性能,突显了其作为3D PDE学习基础模型的多功能性和有效性。Tadpole的源代码和预训练权重可在https://github.com/tum-pbs/tadpole获取。
查看缓存全文
缓存时间: 2026/05/18 06:39
# 蝌蚪:基于在线学习的3D偏微分方程自编码器基础模型 来源:https://arxiv.org/html/2605.15284 ###### 摘要 我们提出蝌蚪(Tadpole),一种面向三维偏微分方程(PDE)的新型基础模型,旨在解决可迁移性、高维可扩展性和多功能性等关键挑战。蝌蚪作为自编码器,在由高效在线数据生成框架合成的3D PDE数据上进行预训练。该框架支持大规模、多样化的训练,无需存储或I/O开销,已实现相当于数百TB训练数据的扩展能力。通过对单通道空间裁剪区域进行自编码,蝌蚪能够在具有不同状态变量数量和空间分辨率的异构物理系统中学习丰富且可迁移的表示。尽管仅作为自编码器预训练,蝌蚪仍可高效应用于重建之外的多种下游任务,包括动力学学习和生成建模。针对动力学学习,我们提出一种新颖的参数高效微调策略,融合低秩适配、潜在空间变换和重引入的跳跃连接,以最少的可训练参数实现精确的时间建模。蝌蚪在各类下游任务中展现出强大的微调性能,凸显其作为3D PDE学习基础模型的多功能性和有效性。蝌蚪的源代码和预训练权重可在 https://github.com/tum-pbs/tadpole 获取。 机器学习,ICML ## 1 引言 基础模型范式已在自然语言处理(NLP)和计算机视觉(CV)领域取得变革性成功(Myers 等,2024(https://arxiv.org/html/2605.15284#bib.bib22);Awais 等,2025(https://arxiv.org/html/2605.15284#bib.bib21))。近年来,该范式已被应用于科学机器学习领域,用于求解偏微分方程(PDE)(Subramanian 等,2023(https://arxiv.org/html/2605.15284#bib.bib44);Ashton 等,2025(https://arxiv.org/html/2605.15284#bib.bib23))。与专用求解器不同,这些基础模型旨在跨不同物理系统学习可迁移的表示,从而能够针对新动力学进行高效微调。构建PDE基础模型的主流策略是,通过在捕获丰富物理现象多样性的大规模轨迹数据集上进行预训练,来学习PDE动力学。这些数据集由大量模拟组成,每个模拟代表一个由控制方程、边界条件和参数(例如流体粘度或材料刚度)定义的独特系统。模型的任务是近似从系统过去状态到未来状态的映射。形式上,对于给定现象 Pi,模型学习从先前状态 u≤ti 预测未来状态 ut+Δti。其目标是,通过从众多此类示例中学习,模型能够提炼出通用的物理原理,从而零样本泛化到新现象,并通过极少的额外微调来适应特定任务。 尽管PDE基础模型具有吸引力和潜力,但仍存在三个根本性挑战。首先,三维数据的PDE基础模型明显不足。大多数现有的PDE基础模型专注于1D或2D问题,少数支持3D的例外模型往往依赖于将3D与2D/1D数据结合的数据集(Rautela 等,2025(https://arxiv.org/html/2605.15284#bib.bib57);McCabe 等,2025(https://arxiv.org/html/2605.15284#bib.bib69)),或纯粹依赖2D数据(Hao 等,2024(https://arxiv.org/html/2605.15284#bib.bib68))。除了计算成本大幅增加外,缺乏3D模型的一个关键原因在于难以收集多样化、大规模的3D PDE数据集用于预训练。生成、存储、读取和处理3D数据的成本远高于2D数据,这从根本上限制了预计算3D PDE数据集的多样性和规模。由于许多现实应用(例如天气预报、流体动力学和材料科学)天然涉及三维空间域,开发有效的3D PDE基础模型对于推进科学机器学习至关重要。 参见图注 图1:蝌蚪概览:a) 蝌蚪作为自编码器,在由基于GPU的求解器在线生成、并采用高效缓冲区策略消除I/O和存储瓶颈的3D PDE数据单通道裁剪区域上预训练。b) 预训练的蝌蚪可用于多种下游任务,包括自编码、通过新颖的蝌蚪-DFT方法进行动力学学习,以及通过潜在流匹配进行生成建模。 此外,可迁移性和泛化性仍不一致。理想情况下,基础模型的大部分参数可以重用而无需重新训练,因为网络应已学习了通用的、可迁移的表示。例如,零样本评估和参数高效微调(PEFT)已成为NLP和CV基础模型质量的基准(Ding 等,2023(https://arxiv.org/html/2605.15284#bib.bib26);Han 等,2024(https://arxiv.org/html/2605.15284#bib.bib27);Xin 等,2025(https://arxiv.org/html/2605.15284#bib.bib28);Zhang 等,2025a(https://arxiv.org/html/2605.15284#bib.bib29);Meng 等,2022(https://arxiv.org/html/2605.15284#bib.bib30))。然而,大多数PDE基础模型仍然依赖全参数微调(FPFT),初步的零样本/PEFT实验显示出有限的成功(McCabe 等,2024(https://arxiv.org/html/2605.15284#bib.bib47);Holzschuh 等,2025(https://arxiv.org/html/2605.15284#bib.bib51);Rautela 等,2025(https://arxiv.org/html/2605.15284#bib.bib57))。对FPFT的依赖对PDE基础模型的训练范式提出了质疑:模型是否真的能通过在极端可变性的PDE动力学上预训练来学习可泛化的表示? 最后,当前的PDE基础模型仅关注动力学学习,忽略了扩展其他功能的可能性。例如,生成建模已成为科学机器学习中的强大范式(Liu 和 Thuerey,2024(https://arxiv.org/html/2605.15284#bib.bib31);Rühling Cachay 等,2024(https://arxiv.org/html/2605.15284#bib.bib78);Jacobsen 等,2025(https://arxiv.org/html/2605.15284#bib.bib77))。在多样化的下游任务(如生成建模)中实现多功能性,是PDE基础模型面临的新挑战。因此,开发一个能够高效、可靠地跨不同任务泛化的3D PDE基础模型仍然是一个开放问题。 我们的工作通过提出蝌蚪(Tadpole)——面向PDE的在线学习三维自编码器——在解决这些挑战方面迈出了重要步伐。它挑战了PDE基础模型需要在海量预计算本地数据的PDE动力学上进行预训练的普遍观念。我们反而证明,基础模型可以用于表示学习,只需使用训练期间在线生成的简单合成数据。与NLP中表示从下一个词元预测中隐式出现的基础模型不同,我们通过自编码显式地优化连续潜在空间以捕获底层数据流形,从而实现表示学习。 我们的关键创新包括: - **合成在线学习框架**:我们提出一种高效的在线学习框架,配备高精度且高效的基于GPU的伪谱求解器和新颖的缓冲区策略,在训练时有效绕过I/O瓶颈和存储限制。 - **可迁移表示**:通过在裁剪的单个场上将蝌蚪预训练为自编码器,我们的模型学习到丰富且可迁移的表示,使其能够处理不同分辨率下的不同PDE系统。 - **高效动力学微调**:我们提出一种新颖的动力学学习PEFT方法,集成潜在变换、重引入的跳跃连接和LoRA(Hu 等,2022(https://arxiv.org/html/2605.15284#bib.bib34))微调,更好地利用预训练表示,实现高精度。 - **多任务普适性**:我们证明蝌蚪在不同的下游任务中表现出色,包括自编码、动力学学习和生成建模,分辨率高达 1024³(即超过十亿自由度)。 ## 2 相关工作 预训练神经网络在跨不同物理系统泛化方面的潜力最早由 Subramanian 等人(2023(https://arxiv.org/html/2605.15284#bib.bib44))提出。随后的研究优先考虑架构的可扩展性,从传统的U-Net结构(Thuerey 等,2020(https://arxiv.org/html/2605.15284#bib.bib80);Siddik 等,2025(https://arxiv.org/html/2605.15284#bib.bib52))发展到现代视觉变换器(ViT)设计(Herde 等,2024(https://arxiv.org/html/2605.15284#bib.bib46);Hao 等,2024(https://arxiv.org/html/2605.15284#bib.bib68);Holzschuh 等,2025(https://arxiv.org/html/2605.15284#bib.bib51))。Poseidon(Herde 等,2024(https://arxiv.org/html/2605.15284#bib.bib46))利用带有时间条件层归一化的多尺度变换器实现连续时间评估,而DPOT(Hao 等,2024(https://arxiv.org/html/2605.15284#bib.bib68))使用基于傅里叶注意力的架构扩展到10亿参数。其他类似工作包括MPP(McCabe 等,2024(https://arxiv.org/html/2605.15284#bib.bib47))和Walrus(McCabe 等,2025(https://arxiv.org/html/2605.15284#bib.bib69)),后者引入计算自适应词元化以保持稳定性。 一条核心研究线聚焦于异构PDE系统的表示和嵌入。研究人员探索了将PDE编码为计算图以同时捕获符号和数值信息(Ye 等,2024(https://arxiv.org/html/2605.15284#bib.bib53),2025(https://arxiv.org/html/2605.15284#bib.bib54)),引入逐点深度条件来指导变换器的全局注意力(Zhou 等,2025(https://arxiv.org/html/2605.15284#bib.bib64)),以及利用基于SymPy的库进行自动符号词元化(Jollie 等,2024(https://arxiv.org/html/2605.15284#bib.bib60))。为了克服单一模态输入的局限性,PROSE-PDE(Sun 等,2025(https://arxiv.org/html/2605.15284#bib.bib48))和UPS(Shen 等,2024(https://arxiv.org/html/2605.15284#bib.bib50))等多模态框架将数值状态与符号或文本描述整合(Wiesner 等,2025(https://arxiv.org/html/2605.15284#bib.bib63);Negrini 等,2025(https://arxiv.org/html/2605.15284#bib.bib56))。此外,UPS(Shen 等,2024(https://arxiv.org/html/2605.15284#bib.bib50))从预训练的大语言模型(LLM)热启动,以显式对齐数据并提高计算效率。 受LLM启发,近期研究探索了PDE基础模型中的上下文学习(ICL)(Yang 等,2023(https://arxiv.org/html/2605.15284#bib.bib45);Cao 等,2025(https://arxiv.org/html/2605.15284#bib.bib72);Song 等,2024(https://arxiv.org/html/2605.15284#bib.bib62))。Zebra(Serrano 等,2025(https://arxiv.org/html/2605.15284#bib.bib71))和VICON(Cao 等,2025(https://arxiv.org/html/2605.15284#bib.bib72))利用基于提示的轨迹求解参数化PDE,而Liu等人(2025b(https://arxiv.org/html/2605.15284#bib.bib61))使用块因果变换器将历史帧视为上下文先验进行下一帧预测。与这些ICL方法并行,PhysiX(Nguyen 等,2025(https://arxiv.org/html/2605.15284#bib.bib66))利用离散词元化和自回归下一词元预测来建模物理过程。 超越这些主题,该领域正在几个相邻课题上取得进展。PreLowD(Hemmasian 和 Farimani,2024(https://arxiv.org/html/2605.15284#bib.bib74))、MORPH(Rautela 等,2025(https://arxiv.org/html/2605.15284#bib.bib57))和OmniArch(Chen 等,2025(https://arxiv.org/html/2605.15284#bib.bib67))提出了更低维度的预训练。提出了频率自适应微调(Zhang 等,2025b(https://arxiv.org/html/2605.15284#bib.bib75)),而约束感知预训练(Totounferoush 等,2025(https://arxiv.org/html/2605.15284#bib.bib59))和物理信息时间对齐(Zhu 等,2025(https://arxiv.org/html/2605.15284#bib.bib65))则纳入PDE残差以确保物理一致性。最近的一项工作(Zhou 和 Farimani,2024(https://arxiv.org/html/2605.15284#bib.bib4))也针对2D PDE预训练自编码器,其中解码器被移除用于动力学微调,类似于之前的潜在空间学习者(Wiewel 等,2019(https://arxiv.org/html/2605.15284#bib.bib37);Regazzoni 等,2024(https://arxiv.org/html/2605.15284#bib.bib38))。最后,算子发现(Rahman 等,2024(https://arxiv.org/html/2605.15284#bib.bib73);Morel 等,2025(https://arxiv.org/html/2605.15284#bib.bib70))和奖励模型驱动的推理(Mansingh 等,2025(https://arxiv.org/html/2605.15284#bib.bib58))代表了科学基础模型的最新努力。 ## 3 自监督预训练 ### 3.1 训练目标 在传统的PDE基础模型预训练中,模型学习从先前状态 ut 到未来状态 ut+Δt 的动力学映射。相反,我们将蝌蚪预训练为一个自编码器,重建 ut 本身,以学习 ut 的丰富、可迁移的空间特征。具体来说,蝌蚪作为变分自编码器(VAE)进行预训练,并采用对抗性损失以鼓励更清晰的重建,这借鉴了CV中表示学习范式的成功(Esser 等,2021(https://arxiv.org/html/2605.15284#bib.bib39);Rombach 等,2022(https://arxiv.org/html/2605.15284#bib.bib40))。蝌蚪由一个编码器 E 和一个解码器 D 组成。编码器将输入 ut 转换为潜在分布 p_E(z_t | u_t),而解码器从采样的潜在表示 z_t 重建输入。一个判别器网络 A 被同时优化,以区分真实输入和重建输入,并将反馈发送给主干训练。预训练目标的详细信息见附录C.2(https://arxiv.org/html/2605.15284#A3.SS2)。 我们选择重建而非动力学作为预训练目标,原因如下: - 在动力学预训练中,单个 ut 可能根据PDE类型、边界条件和物理参数演化成显著不同的未来状态。这要求较高的架构复杂性,因为网络必须通过嵌入多样的参数集来区分不同的物理系统。 - 动力学预训练目标通常只能应用于动力学下游任务。相反,重建预训练将提供解域的有意义的潜在空间,从而在多样化的下游任务类型中实现更广泛的应用。 - 重建仅需要学习可接受的PDE解的低维流形,该流形由于微分算子引起的空间相关性而通常是平滑且高度结构化的。相比之下,预测 t
相似文章
3D Masked Autoencoders是显微镜下体积和多模态细胞表示的鲁棒学习器
本文提出了用于体积显微镜数据的3D Masked Autoencoders,并展示了在下游单细胞任务中,3D建模优于2D最大投影和基于切片的变体,而通过与蛋白质语言模型的跨模态对齐进一步提升了性能。
AeroJEPA:学习用于可扩展3D气动场建模的语义潜在表示
本文介绍了AeroJEPA,一种用于可扩展3D气动场建模的联合嵌入预测架构。它通过预测流场的语义潜在表示,解决了当前代理模型在可扩展性和设计实用性方面的局限性,从而实现了高效的高保真分析和设计优化。
EgoPhys:从第一人称视频学习可变形物体的通用物理模型
EgoPhys 提出一个框架,利用通用先验和紧凑码本从第一人称 RGB 视频构建可变形物理数字孪生,无需针对每个弹簧进行优化即可实现对新物体的零样本泛化。该系统在真实机器人上进行了演示,表明第一人称人类玩耍视频可以作为可变形物体规划的内部世界表征。
用于动力系统重构的循环神经网络的时间并行训练
本文研究了用于动力系统重构中训练循环神经网络的时间并行算法,提出了GTF-DEER,它能够在长序列上实现稳定学习,并提高重构精度。
用于守恒律的稳健基础模型:通过循环视觉转换器将上下文注入通量神经算子
本文提出了一种新架构,将 Flux 神经算子与循环视觉转换器相结合,作为求解守恒律的基础模型。该模型在无需显式获取控制方程的情况下,在多种保守系统中展示了稳健的泛化能力和长期预测能力。