ThousandWorlds:潜在宜居系外行星气候模拟的基准数据集
摘要
ThousandWorlds 是一个用于机器学习模拟系外行星气候的基准数据集,包含来自五个全球气候模型的大约1800个模拟。在这个低数据量、多模拟器的回归任务中,高斯过程方法的性能优于深度学习基线方法。
arXiv:2606.18338v1 公告类型:新
摘要:搜寻地外生命将依赖于探测潜在宜居系外行星大气中的微弱信号。解读这些信号需要了解宿主行星的气候:同一种分子在一颗行星上可能标志着生命,而在另一颗行星上则可能是非生物化学的结果。全球气候模型(GCMs)提供了这种理解,但单个运行可能需要多达数百万核心小时和大量的领域专家时间。机器学习模拟器可以消除这一瓶颈,但由于缺乏经过策划的多模型系外气候数据集,进展一直受限。我们引入了 ThousandWorlds,这是一个用于系外气候模拟以及更广泛的低数据量、多模拟器、参数到场回归场景的机器学习就绪基准数据集。该数据集包含来自五个GCM的约1800个模拟,将八个行星参数映射到三维大气场,包括温度、湿度、风、云和辐射。三个嵌套子集定义了逐渐困难的挑战:单模拟器回归、完整观测的多模拟器回归以及具有结构化缺失的多模拟器回归。我们提出了两种评估协议:一种用于方法排名,另一种用于衡量相对于GCM本身分歧的性能。我们评估了七种基线方法,涵盖简单方法、深度学习和高斯过程。基于GP的方法表现最好,表明 ThousandWorlds 揭示了一个现成深度学习尚未成功的场景。数据:https://doi.org/10.57967/hf/8695。代码:https://github.com/edstevenson/ThousandWorlds。
查看缓存全文
缓存时间: 2026/06/18 05:41
# 千世界:一个用于潜在宜居系外行星气候模拟的基准数据集 来源:https://arxiv.org/html/2606.18338 Edward T. Stevenson 剑桥大学 [email protected] &Mei Ting Mak 牛津大学 &Eric Wolf 科罗拉多大学博尔德分校 &Denis E. Sergeev 布里斯托大学 &Tobi Hammond 普渡大学 &N. J. Mayne 埃克塞特大学 &Miles Cranmer 剑桥大学 ###### 摘要 寻找地外生命将依赖于探测潜在宜居系外行星大气中的微弱特征。解读这些特征需要了解宿主行星的气候:同一种分子可能在一颗行星上标志着生命,而在另一颗行星上则代表非生物化学过程。全球气候模型(GCM)提供了这种理解,但单次运行可能需要高达数百万核小时以及大量领域专家时间。机器学习模拟器可以消除这一瓶颈,但进展一直受到缺乏经过筛选的多模型系外气候数据集的限制。我们推出 ThousandWorlds,一个面向机器学习、用于系外气候模拟以及在更广泛的数据稀疏、多模拟器、参数到场回归场景下的基准数据集。该数据集包含来自五个 GCM 的约 1800 次模拟,将八个行星参数映射到三维大气场,包括温度、湿度、风、云和辐射。三个嵌套子集定义了难度递增的挑战:单模拟器回归、具有完整观测的多模拟器回归,以及具有结构化缺失的多模拟器回归。我们提出了两个评估协议:一个用于对方法进行排名,另一个用于衡量相对于 GCM 自身差异的性能。我们评估了涵盖简单方法、深度学习和高斯过程的七个基线。基于高斯过程的方法表现最佳,表明 ThousandWorlds 揭示了一个现成深度学习尚未取得成功的领域。 数据:https://doi.org/10.57967/hf/8695 代码:https://github.com/edstevenson/ThousandWorlds ## 1 引言 我们可能是能够回答地球之外是否存在生命的第一代人。最有希望的宿主——岩质宜居带行星——在银河系中很常见(Dressing and Charbonneau, 2015),而 JWST 刚刚开始观测最近候选者的大气层。寻找生命将取决于探测生物特征——即以观测光谱中的吸收线形式留下印记的分子生命指纹。但这些特征是有歧义的——O2 的检测意味着生命,还是仅仅是水的光解离(Wordsworth and Pierrehumbert, 2014)?它们的解读需要了解行星的气候。温度、环流、云和热传输都很重要,准确预测它们需要复杂的 3D 建模。这推动了对全球气候模型(GCM)的日益使用,这些大型数值代码模拟 3D 大气流体动力学以及云和辐射等非动力学过程。但单次 GCM 模拟通常需要 10^4–10^6 核小时,外加大量领域专家时间用于配置和监控,这限制了研究只能使用精心挑选的小型模拟集合。能够产生近乎即时气候预测的模拟器将消除这一瓶颈,为大规模参数扫描、原则性不确定性量化以及与观测推断管线的集成打开大门。 尽管有这种需求,但系外气候模拟在很大程度上仍未得到探索。主要障碍在于缺乏经过筛选的多模型数据集:原始模拟是存在的,由不同团队为不同科学问题运行不同的 GCM 产生,但它们分散在不同的研究中,格式不兼容,采用不同的垂直网格,输出变量也不同。以前从未组装过大型、面向机器学习的多 GCM 集合。这种情况并非系外气候所独有。在整个科学领域,许多模拟问题共享相同的困难结构:少量的输入参数、高维结构化输出、稀少的模拟器评估以及几个不完美的模拟器。现有的科学机器学习基准涵盖了这一图景的部分领域,但主要针对数据丰富的场到场预测场景,其中深度学习表现良好。参数到场回归、数据稀缺和多模拟器学习这些互补的方面则相对被忽视。 我们推出 ThousandWorlds,一个位于这三个方面交叉点的基准数据集,满足了领域对面向机器学习的系外气候数据集的需求。该数据集与系外行星气候科学家合作开发,包含来自五个 GCM 的约 1800 次模拟,涵盖从完全冰封的雪球世界到潮湿温室的世界。每个模拟将八个行星参数映射到覆盖温度、湿度、风、云和辐射的 3D 大气变量。三个嵌套子集设置了难度递增的挑战:(1) 单模拟器回归,(2) 具有完整观测的多模拟器迁移,以及 (3) 具有结构化缺失的多模拟器迁移——即完整数据集。 我们定义了两个评估协议。标准协议使用较大的测试集来比较不同方法的性能。共享行星协议衡量模拟器的误差相对于相同行星的高保真 GCM 之间分歧的大小。这种分歧反映了关于基础物理学的认知不确定性,因此该评估协议提供了对模拟器科学效用更清晰的度量。 我们评估了涵盖简单方法、深度学习和高斯过程(GP)的七个基线。基于 GP 的方法被证明是最强的基线,表明这一场景对标准深度学习构成了挑战。 ## 2 相关工作 共享基准已成为科学机器学习的核心。PDEBench(Takamoto et al., 2024)和 The Well(Ohana et al., 2025)提供了从模拟时空物理系统中学习的大规模基准,而 RealPDEBench(Hu et al., 2026)则将真实世界测量与数值模拟配对用于从模拟到真实的评估。CFDBench(Luo et al., 2024)和 FlowBench(Tali et al., 2024)对跨不同几何形状的流动预测进行基准测试。关于多保真度代理的文献也提供了密切相关的背景方法,但最近的调查依赖于合成或特设的测试案例,而非共享的社区数据集(Fernández-Godino, 2023;Brunel et al., 2025)。 地球系统 ML 提供了与 ThousandWorlds 最接近的领域先例,而此处的基准数据集已经推动了快速进展。WeatherBench/WeatherBench2(Rasp et al., 2020, 2024)标准化了数据驱动的中期天气预报,而 ClimSim/ClimSim-Online(Yu et al., 2023, 2024)和 ClimART(Cachay et al., 2021)分别针对气候模型内部的组件模拟、次网格大气物理和辐射传输。ClimateBench(Watson-Parris et al., 2022)将强迫输入映射到年平均空间气候场,与 ThousandWorlds 共享参数到场的结构,但处于数据丰富、单模拟器的设置中。ClimateSet(Kaltenborn et al., 2023)和 ClimateSuite(Irvin et al., 2025)将气候变化基准扩展到多个模拟器:ClimateSet 汇集了来自 36 个 CMIP6 地球系统模型(ESM)的输入和输出,并对从网格化强迫-排放轨迹到月均全球温度和降水的气候模拟进行基准测试。ClimateSuite 进一步将多模拟器数据扩展到跨越十个 ESM 的 33,000 模拟年。可以将 ThousandWorlds 视为这一气候建模传统中的一个基准,但多样性的来源不同:不是改变单个行星上的强迫,而是行星本身发生变化,从而产生按地球建模标准极为多样的气候状态。 在天文学领域,CAMELS 项目(Villaescusa-Navarro et al., 2023)提供了一个相邻的先例,汇集了跨不同模拟器的数千个宇宙学模拟和面向机器学习的多场图。在系外行星天文学领域,先前关于 3D 系外气候模拟的唯一工作是 Plaschzug et al.(2025),他们在来自单个 GCM 的 60 次模拟上训练了一个逐点模拟器。其他关于系外气候的 ML 工作则针对 GCM 内的单个组件(例如 Tahseen et al., 2024;Malsky et al., 2025),而不是整个 GCM 本身。Roth et al.(2024)提供了最接近的大数据集先例,包含 345 个热木星模拟。ThousandWorlds 是为数不多的将参数到场回归、多模拟器迁移和结构化缺失结合在单个数据集中的基准之一,也是第一个用于模拟潜在宜居系外行星气候的大型面向机器学习数据集。 ## 3 ThousandWorlds 数据集 ### 3.1 任务描述  图1:数据集概览。输出场定义在 32×64 经纬度网格上。总共有 53 个场和约 10^5 个输出维度。 表1:定义目标物理域的八个连续输入变量的约束。 | 输入 | 最小值 | 最大值 | 单位 | |------|--------|--------|------| | 行星半径 | 0.7 | 1.5 | R⊕ | | 表面重力 | 0.7 | 1.8 | g⊕ | | 自转周期 | 5 | 50 | 天 | | 表面气压 | 0.5 | 5 | bar | | CO2 体积混合比 | 0 | 1 | 10^-3 | | CH4 体积混合比 | 0 | 10 | 10^-6 | | 入射恒星通量 | 100 | 2000 | W m^-2 | | 恒星温度 | 2500 | 6000 | K | #### 行星。 我们关注潮汐锁定的水世界(图1):被海洋覆盖的岩质行星,位于或接近宜居带,其中一个半球永久朝向主星。两个事实使其成为自然的研究类别。首先,大多数可探测的宜居带行星围绕比太阳暗的恒星近距离运行,那里更强的潮汐力使行星的自转与轨道同步,将一侧锁定在永久的白天,另一侧在永久的夜晚。¹⁰ 其次,许多这样的行星可能被海洋覆盖,而全球海洋提供了一个干净的理想化,避免了关于大陆配置的任意选择。这些行星是最广泛模拟的潜在宜居系外行星子类。 #### 输入。 每个行星由八个连续输入参数表征:半径、表面重力、自转周期、表面气压、CO2 和 CH4 体积混合比、入射恒星通量以及恒星温度。离散的 GCM 标签 s ∈ {1, ..., 5} 标识源 GCM。 #### 目标物理域。 我们将评估限制在满足表1中物理约束的行星上。超出这些界限,物理合理性(例如,半径小得多的行星难以保留大气)和状态转变(例如,高恒星通量下的失控温室效应)将使模拟器准确性的科学解读变得不那么清晰。然而,目标物理域之外的一些模拟被保留用于训练;它们通常只违反一两个约束,并有助于在域边界附近固定响应面。 #### 输出。 GCM 运行直到大气达到统计稳态;预测目标则是该平衡期内的平均大气状态,表示为 32×64 经纬度网格上的 53 个场。我们使用变量指代可能跨越多个垂直层的单一物理量,而场指代单个层的单个切片。3D 变量是温度、(比)湿度、东西向(纬向)风、南北向(经向)风和云覆盖率,每个变量位于 10 个压力层上。2D 变量是地表温度、出射长波辐射(OLR)和吸收短波辐射(ASR)。 ### 3.2 数据集构建 #### GCM。 我们的数据跨越五个系外行星 GCM:UM、ExoCAM、ExoPlaSim、LFRic 和 ExoCAM-pre-2022(表2)。我们将 ExoCAM 和 UM 指定为目标 GCM,在测试时进行评估,因为它们是高保真模型,并且在目标物理域内有相对丰富的模拟。其余三个作为辅助 GCM,仅贡献训练数据。ExoPlaSim 提供了大部分辅助数据,但其保真度低于其他模型。ExoCAM 的辐射传输组件在 2022 年进行了重大更新,这促使将 ExoCAM-pre-2022 视为一个单独的辅助源。我们在表6中概述了本工作中使用的 GCM,并在附录 A.2 中提供了进一步背景。 #### 数据来源。 这些模拟主要来自现有文献,其中每项研究通常只围绕社区偏好行星(如 TRAPPIST-1e 和 Proxima Centauri b)变化几个参数。由此产生的输入空间覆盖高度不均匀。为了缓解这种情况,我们采用加权覆盖设计进行了 397 次定制模拟来填补空白。有关采样设计,请参见附录 A.1;有关定制模拟配置,请参见附录 A.2。 表2:数据集组成。ThousandWorlds 总共包含 1760 次模拟。我们将评估限制在 327 次目标模拟(粗体)。其余 1433 次模拟仅用于训练。这些包括来自目标 GCM 但位于目标物理域(表1)之外的 38 次模拟,以及来自辅助 GCM 的 1395 次模拟。 | 物理域 | GCM | 目标域内 | 目标域外 | 数据来源 | |--------|-----|----------|----------|----------| | **目标** | UM | 240 | 31 | Mak et al. (2024); Sergeev et al. (2022); 本文 | | | ExoCAM | 87 | 7 | Hammond et al. (2025); Haqq-Misra et al. (2022); Sergeev et al. (2022); Wolf et al. (2025); Woodward et al. (待发); 本文 | | | ExoCAM-pre-2022 | 11 | 347 | Komacek and Abbot (2019); kumar Kopparapu et al. (2016, 2017); Wolf et al. (2019); Wolf (2017); Suissa et al. (2020) a. | | **辅助** | LFRic | 14 | 5 | Haqq-Misra et al. (2022); 本文 | | | ExoPlaSim | 440 | 776 | Macdonald et al. (2025); Paradise et al. (2021, 2022b); 本文 | ### 3.3 数据集特征
相似文章
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。
galilai-group/stable-worldmodel
stable-worldmodel 是一个用于可重复世界模型研究的统一平台,提供标准化的环境、数据收集、训练和评估接口。
World Machine:面向时间序列的生成式世界建模
World Machine 提出了一种基于 Transformer 的生成式世界建模架构,用于时间序列分析。该架构通过潜在状态自适应地处理不同长度的上下文,解决了传统 Transformer 的二次内存成本问题。在合成数据集上的实验验证了该方法的可行性,并显示出相比传统 Transformer 的改进。
Stargazer:面向天体物理约束下 AI 智能体的可扩展模型拟合基准环境
Stargazer 推出包含 120 项天体物理任务的可扩展基准环境,通过径向速度数据物理约束模型拟合评估 AI 智能体,揭示统计优化与物理约束遵循之间的落差。
ForecastBench-Sim:模拟世界预测基准
介绍 ForecastBench-Sim,这是一个基于 Freeciv 游戏回放构建的模拟世界预测基准,旨在为评估 AI 系统的概率推理提供可控且可立即解析的任务。