SubsurfaceGen: 现场尺度地球模型与地震数据的程序化生成

arXiv cs.LG 2026/06/01 04:00 论文

subsurface seismic waveform-inversion machine-learning generative-model geoscience dataset

摘要

SubsurfaceGen 是一个基于 GPU 加速的 3D 速度模型与地震数据生成器，并发布了一个包含 4276 张 2D 速度切片及其相应波场和炮集的数据集，覆盖六种地质场景，旨在推动全波形反演的机器学习发展。

arXiv:2605.30541v1 公告类型：新摘要：全波形反演（FWI）是地下成像的黄金标准，其应用涵盖碳封存、能源与矿产勘探以及地震灾害评估。基于机器学习的 FWI 方法需要现场尺度、地质多样且物理真实的训练数据，但现有资源（如 Marmousi、SEAM 和 OpenFWI）在空间范围、时间跨度、地质多样性和物理真实性方面存在不足。我们通过 SubsurfaceGen（一种 GPU 加速的 3D 速度模型和地震数据生成器）来解决这些局限。与 SubsurfaceGen 一同发布的还有一个配对数据集，包含 4276 张 2D 速度切片、5 秒波场和 8 秒炮集，这些数据来自 42 个真实的现场尺度 3D 速度模型，每个模型横向覆盖 10 km × 10 km，深度 6.19 km，分辨率为 10 m。该数据集涵盖六种地质场景——其中四种由 SubsurfaceGen 构建，两种来自先前来源——与碳封存和碳氢化合物勘探相关。我们利用该数据集评估了波场预测的神经算子以及端到端速度反演的编码器-解码器，并保留一种地质场景用于分布外测试。这些实验揭示了现场尺度下的失败模式，并展示了 SubsurfaceGen 及其相关数据集如何影响基于机器学习的 FWI。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:26

# SubsurfaceGen: 野外尺度地球模型与地震数据的程序化生成
**来源：** https://arxiv.org/html/2605.30541
Joseph Stitt，Pratik Rathore，Madeleine Udell，Ching‑Yao Lai
斯坦福大学
[email protected]，{pratikr，udell，cyaolai}@stanford.edu

###### 摘要
全波形反演（FWI）是地下成像的黄金标准，其应用范围从碳封存到能源和矿产勘探，再到地震灾害评估。机器学习方法进行FWI需要野外尺度、地质多样性丰富且物理逼真的训练数据，但现有资源（如Marmousi、SEAM和OpenFWI）在空间范围、时间范围、地质多样性和物理逼真度方面均存在不足。我们通过SubsurfaceGen——一个GPU加速的3D速度模型和地震数据生成器——来解决这些局限性。与SubsurfaceGen一同发布的还有一个配对数据集，包含来自42个真实野外尺度3D速度模型的4，276个2D速度切片、5秒波场和8秒炮集记录，每个模型横向覆盖10 km × 10 km，深度6.19 km，分辨率为10 m。该数据集涵盖六种地质背景——四种由SubsurfaceGen构建，两种来自现有来源——与碳封存和油气勘探相关。我们利用该数据集评估了用于波场预测的神经算子，以及用于端到端速度反演的编码器-解码器，并保留一种地质背景用于分布外测试。这些实验揭示了野外尺度下的失效模式，并展示了SubsurfaceGen及其相关数据集如何影响基于机器学习的FWI。

## 1 引言
地下成像——即从间接地表测量数据重建地球内部结构的任务——具有重大的经济和社会影响：从验证对于应对气候变化至关重要的碳封存场地的完整性，到发现支撑现代基础设施的能源和矿产资源，再到评估影响人口稠密地区应急规划的地震灾害。地下成像的黄金标准是全波形反演（FWI）（Lailly，1983 (https：//arxiv.org/html/2605.30541#bib.bib85)；Tarantola，1984 (https：//arxiv.org/html/2605.30541#bib.bib86)；Virieux and Operto，2009 (https：//arxiv.org/html/2605.30541#bib.bib90)），它通过分析地震勘探过程中采集的数据来重建**速度模型**，即地下声波速度的空间分布图。在一次地震勘探中，声源在感兴趣区域内的多个位置被激发，一组检波器记录来自地下的反射信号。每次激发产生一个**炮集记录**：即检波器对该次激发的时间序列记录。

FWI通过求解波方程在候选速度模型上模拟波场，并将这些模拟结果与实测记录进行匹配。然而，FWI以其困难著称：它需要求解一个高维、非凸、受偏微分方程约束的优化问题，容易遭遇周波跳跃（即糟糕的局部极小值）（Virieux and Operto，2009 (https：//arxiv.org/html/2605.30541#bib.bib90)；Yao et al.，2019 (https：//arxiv.org/html/2605.30541#bib.bib95)）、对初始模型的敏感性（Virieux and Operto，2009 (https：//arxiv.org/html/2605.30541#bib.bib90)），以及对于真实3D勘探可高达数百万核心小时的计算成本（Schiemenz and Igel，2013 (https：//arxiv.org/html/2605.30541#bib.bib92)）。数十年的研究已经产生了复杂的正则化方案（Symes，2008 (https：//arxiv.org/html/2605.30541#bib.bib89)；Biondi and Almomin，2014 (https：//arxiv.org/html/2605.30541#bib.bib93)；Barnier et al.，2023 (https：//arxiv.org/html/2605.30541#bib.bib96)）和多尺度策略（Bunks et al.，1995 (https：//arxiv.org/html/2605.30541#bib.bib87)；Fichtner，2011 (https：//arxiv.org/html/2605.30541#bib.bib91)），但FWI的困难远未解决。

机器学习在多个方面展现出潜力。神经算子可以加速FWI中的偏微分方程求解，降低总体计算成本，同时保持精度和可靠性（Yang et al.，2021 (https：//arxiv.org/html/2605.30541#bib.bib64)，2023 (https：//arxiv.org/html/2605.30541#bib.bib66)；Zhang et al.，2023 (https：//arxiv.org/html/2605.30541#bib.bib65)；Huang and Alkhalifah，2025 (https：//arxiv.org/html/2605.30541#bib.bib67)）。基于CNN的编码器-解码器可以直接将地震测量数据映射到速度模型，从而规避传统FWI方法的周波跳跃、初始模型敏感性和计算成本问题（Araya-Polo et al.，2018 (https：//arxiv.org/html/2605.30541#bib.bib69)；Yang and Ma，2019 (https：//arxiv.org/html/2605.30541#bib.bib70)；Wu and Lin，2020 (https：//arxiv.org/html/2605.30541#bib.bib58)；Zhang and Lin，2020 (https：//arxiv.org/html/2605.30541#bib.bib71)；Farris et al.，2023 (https：//arxiv.org/html/2605.30541#bib.bib37)；Wang et al.，2023b (https：//arxiv.org/html/2605.30541#bib.bib72)）。生成模型可以从现有速度模型中学习数据驱动的正则化器，捕捉经典正则化器（如Tikhonov和全变分）无法表示的真实地质特征（Mosser et al.，2020 (https：//arxiv.org/html/2605.30541#bib.bib74)；Stitt et al.，2023 (https：//arxiv.org/html/2605.30541#bib.bib76)；Wang et al.，2023a (https：//arxiv.org/html/2605.30541#bib.bib75)；Stitt et al.，2025 (https：//arxiv.org/html/2605.30541#bib.bib77)）。

然而，这些进展受到数据的瓶颈制约。用于训练和评估基于机器学习的FWI的速度模型，应当与它们将被部署的实际勘探场景相似——即野外尺度、地质多样性丰富且物理逼真——并且应当具备可扩展性。所谓野外尺度，是指速度模型匹配真实勘探的几何尺寸：横向数十公里，深度数公里，记录时间数秒。所谓可扩展性，是指能够按需生成新的速度模型。野外尺度数据是必要的，因为周波跳跃、照明空白和低频恢复问题会随空间范围增大而恶化，并且成像深度与记录时间成正比：碳储存构造和油气藏位于地表以下数公里，需要5秒或更长的记录才能成像。地质多样性对于研究对未见地质体的泛化能力是必需的。物理逼真度则防止机器学习方法产生无意义的地质特征。可扩展性支持研究尺度行为、分布偏移以及跨新地质背景的泛化能力。

流行的FWI数据集，如Marmousi（Versteeg，1994 (https：//arxiv.org/html/2605.30541#bib.bib7)；Martin et al.，2006 (https：//arxiv.org/html/2605.30541#bib.bib4)）、SEAM（Fehler and Keliher，2011 (https：//arxiv.org/html/2605.30541#bib.bib2)）和OpenFWI（Deng et al.，2022 (https：//arxiv.org/html/2605.30541#bib.bib1)），在这些标准中至少有一项不满足，而本文介绍的数据生成器SubsurfaceGen则满足了所有四项（表1 (https：//arxiv.org/html/2605.30541#S1.T1)）。

**表1：** SubsurfaceGen与现有FWI数据集的比较；另见A.1节。SubsurfaceGen是一个先进的数据生成器，能够程序化生成野外尺度、地质多样性丰富、物理逼真的3D速度模型和地震数据。

我们的贡献（如图1 (https：//arxiv.org/html/2605.30541#S1.F1)所示）如下：

- **逼真的速度模型生成**（第3节）。SubsurfaceGen允许用户沉积包含夹层（速度交替的层）的地质层，并添加褶皱、断层、盐丘、斜层理和碳酸盐岩台地，同时结合结构导向平滑（Hale，2009 (https：//arxiv.org/html/2605.30541#bib.bib54)）以抑制数值伪影。据我们所知，没有其他开源软件支持这些特征范围的程序化生成。
- **端到端地震数据生成**（第4节）。SubsurfaceGen使用Devito（Louboutin et al.，2019 (https：//arxiv.org/html/2605.30541#bib.bib56)）从3D速度模型的2D切片生成炮集记录和波场，提供配对的（速度模型，地震数据）样本用于训练和评估。速度模型生成和地震数据生成均在GPU上加速，模型生成速度相比CPU提升高达26.8倍。
- **示例性的含4，276个样本的野外尺度数据集**（第3.2节和第4.2节）。我们在Hugging Face上发布了一个数据集，包含42个野外尺度3D速度模型（每个10 km × 10 km × 6.19 km）。从中我们提取了4，276个2D切片，每个切片都配对地震数据（5秒波场，8秒炮集记录）。该数据集涵盖六种地质背景：四种由SubsurfaceGen生成（基于北海、墨西哥湾和新斯科舍省的盆地，以及一个具有大量断层的模型），两种来自现有来源（一个来自传统3D速度模型构建器的模型，以及经典的SEAM模型），以拓宽地质覆盖范围。
- **基于机器学习FWI的野外尺度实验**（第5节和第6节）。我们展示了SubsurfaceGen及该野外尺度数据集如何影响基于机器学习的FWI：对于波场预测，野外尺度网格迫使预测分块进行，从而启发了最优检查点技术（Symes，2007 (https：//arxiv.org/html/2605.30541#bib.bib88)）的适应性改进；对于端到端反演，地质多样性支持跨地质泛化研究，为评估架构开辟了新的可能性。

本文其余部分结构如下：第2节介绍声波方程；第3节和第4节描述SubsurfaceGen的速度模型和地震数据生成组件；第5节和第6节展示我们基于机器学习FWI的实验；附录A涵盖相关工作。

参见图注
**图1：** SubsurfaceGen是一个GPU加速的速度模型构建器（使用PyTorch）和地震数据生成器（使用Devito），可用于为基于机器学习的FWI生成训练数据。我们使用SubsurfaceGen创建了一个包含42个真实野外尺度3D速度模型的数据集，以及配对的（速度切片，波场）和（速度模型，炮集记录）对。我们使用这些配对来训练用于波场预测的神经算子，以及用于从炮集记录进行端到端反演的编码器-解码器。

## 2 声波方程
声波方程将速度模型 v_p(x) 映射到波场 p(x，t)，该波场将在真实世界的地震勘探中被记录。这种映射是FWI和第1节中ML方法的核心：FWI对其进行反演，神经算子对其进行近似，用于端到端反演的编码器-解码器则根据由此产生的数据进行训练。SubsurfaceGen求解带有源项的2D声波、常密度、各向同性形式的波方程：

1 / v_p(x)² · ∂²p(x，t) / ∂t² − ∇²p(x，t) = s(x，t)。   (1)

这里 x = (x，z) 是空间坐标（横向 x，深度 z），t 是时间，p(x，t) 是波场，v_p(x) 是速度模型，∇² = ∂_x² + ∂_z² 是拉普拉斯算子，s(x，t) 是源项。SubsurfaceGen将源 s(x，t) 建模为雷克子波（Ricker，1953 (https：//arxiv.org/html/2605.30541#bib.bib84)），这是地震处理中的标准做法（Wang，2015 (https：//arxiv.org/html/2605.30541#bib.bib94)）。初始条件和边界条件推迟到附录E讨论。

求解(1)式产生波场 p(x，t) 在空间和时间上的分布。然而，在地震勘探中，波场并非在所有空间位置都被观测到。地震勘探在地表布设一条稀疏的传感器测线，称为**检波器**，记录波场的时间历史。SubsurfaceGen通过采样算子 R 重现这一过程，该算子在检波器位置观测波场 p：结果是炮集记录 Rp，这是一个二维张量，轴分别对应时间和检波器索引。剩下的挑战是生成多样化、逼真的速度模型，我们将在第3节中解决。

## 3 SubsurfaceGen：程序化速度模型生成
SubsurfaceGen提供了生成逼真、野外尺度3D速度模型的功能，通过一个模块目录模拟真实地震数据中观察到的地质特征。这些模块包括夹层、断层、盐丘、斜层理和碳酸盐岩台地，它们对于表征碳封存和油气勘探中出现的沉积环境至关重要。我们使用PyTorch编写了SubsurfaceGen的模型构建功能，这使得速度模型生成可以在GPU上加速，让从业者更容易生成大规模速度模型数据集。我们还描述了生成包含在Hugging Face野外尺度数据集中速度模型的过程。更多细节见附录B、C和D。

### 3.1 速度模型构建器
##### 模块目录。
SubsurfaceGen引入了八个用于构建速度模型的模块。其中三个（Deposit，Squish，Fault）改进了Clapp（2018，2022，2024）的合成模型包。其余五个模块（SaltSDT，SaltWedge，CarbonatePlatform，DeltaClinoformDeposit，StructuralSmoother）是SubsurfaceGen原创的。概括而言：Deposit添加分层地层，Squish将地层扭曲成褶皱，Fault切割并移动地层，SaltSDT放置盐体而SaltWedge使周围地层变形，CarbonatePlatform构建礁体结构，DeltaClinoformDeposit放置三角洲沉积，StructuralSmoother应用地质感知平滑。表5提供了每个模块的完整描述。

##### 构建速度模型。
速度模型是通过**按顺序应用**模块来构建的，从平坦均匀的体积（称为**基底**）开始，向上到地表依次添加模块。每个模块将当前速度模型作为输入，并根据其特定地质特征对其进行修改。模块应用的顺序遵循地质时间，较老的特征先于较年轻的沉积。所有模块应用完毕后，用户可以通过StructuralSmoother应用结构导向平滑（SOS）（Hale，2009），以移除构建过程中产生的数值伪影，同时保留重要的地质特征（如断层和地层接触面）。模型构建过程高度可定制，允许用户为每个模块指定参数，以生成各种速度模型，捕捉观察到的多种地质环境。

SubsurfaceGen: 现场尺度地球模型与地震数据的程序化生成

相似文章

Sat3DGen：基于单张卫星图像的全面街景级3D场景生成

ABot-Earth 0.5：生成式3D地球模型

HY-World 2.0：用于重建、生成和模拟三维世界的多模态世界模型

Surflo：具有全局状态的一致3D表面流模型

SurGe：点地图中改进的表面几何

提交意见反馈