Otter Weather:高效且技能高超的中期天气预报
摘要
Otter Weather 是一种计算高效的中期天气预报AI模型,其性能优于数值天气预报基线和前沿AI模型,同时显著减少训练计算量,旨在普及高性能天气预报。
arXiv:2606.26421v1 公告类型:新
摘要:当前最先进的中期AI天气预报模型可以超越传统数值天气预报(NWP),但需要庞大的训练预算。这限制了资源不足群体的使用,并严重制约了快速模型迭代。为此,我们开发了Otter Weather,一种高效的空时预测模型,旨在通过AI普及高性能天气预报。在1.5°分辨率下使用标准WeatherBench协议对ERA5再分析数据进行评估,Otter系列显著推进了技能-计算帕累托前沿。确定性版本在24小时预报时效内比最佳NWP基线高出9.6%,同时训练所需A100天数少于3.5天。与轻量级AI模型相比,效率提升2倍;与资源密集型前沿架构相比,计算量减少100倍。我们通过连续排序概率评分(CRPS)训练将这些效率优势扩展到概率预报。扩展至更大架构后,Otter-XL在CRPS上比IFS ENS基线改进9.7%。在相似计算预算下,其预测技能相比同类轻量级模型提升近两倍。Otter-XL还以低一个数量级的计算量,比GenCast等前沿架构提升超过2%。最后,Otter被直接应用于一个复杂的声散射PDE任务,并超越了最先进的基础模型方法,这表明本文取得的进步可能适用于多个科学领域。
查看缓存全文
缓存时间: 2026/06/26 05:19
# Otter Weather:一种技巧性强且计算高效的中期天气预报 来源:https://arxiv.org/html/2606.26421 Cristiana Diaconu 剑桥大学 [email protected] &Jonas Scholz¹ 剑桥大学 [email protected] &Aliaksandra Shysheya 剑桥大学 &Stratis Markou 剑桥大学 &Payel Mukhopadhyay 剑桥大学 &Miles Cranmer 剑桥大学 &Richard E. Turner 剑桥大学 ###### 摘要 最先进的中期AI天气预报模型能够超越传统的数值天气预报(NWP),但需要庞大的训练预算。这限制了资源不足群体的使用,并严重阻碍了模型的快速迭代。为此,我们开发了Otter Weather,一种高效的空时预测模型,旨在让高性能AI天气预报惠及更多用户。在ERA5再分析数据上以1.5°分辨率使用标准WeatherBench协议进行评估,Otter系列显著推进了技巧-计算帕累托前沿。确定性版本在24小时预报时效内比最佳NWP基线高出9.6%,而训练所需A100天数少于3.5天。与轻量级AI模型相比,效率提升2倍;与资源密集型前沿架构相比,计算量减少两个数量级。我们将这些效率优势扩展到概率预报,通过连续排序概率评分(CRPS)进行训练。扩展到更大架构后,Otter-XL的CRPS相比IFS ENS基线提升9.7%。在相似计算预算下,其预测技巧几乎比肩轻量级模型的两倍。Otter-XL还以低一个数量级的计算量,超越了GenCast等前沿架构超过2%。最后,Otter被直接应用于一个复杂的声散射偏微分方程任务,并超越最先进的基础模型方法,表明本文的进展可能适用于一系列科学领域。 ## 1 引言 全球天气预报领域正被数据驱动方法所改变。AI模型已达到与强数值天气预报(NWP)基线相当的性能水平,甚至在许多任务上超越它们(Lam等,2023;Lang等,2024;Alet等,2025;Bodnar等,2025)。这种范式转变有望使天气预报民主化,但要完全实现这一愿景,关键在于降低训练成本,使资源充足的AI实验室之外的群体能够设计、训练和控制自己的模型。降低训练成本门槛将使各类受益者——从学术机构和资源不足的业务机构到初创公司——能够以两种互补的方式推动该领域的发展。首先,它使这些群体能够从头训练有竞争力的天气预报模型,而不局限于微调已发布的基础模型。这种预训练能力对于科学独立性至关重要:它让研究人员能够严格审计、复现和扩展模型,而无需依赖原始开发人员,并能针对特定区域、变量或下游任务定制架构。其次,无论可用资源如何,快速迭代周期都能加速所有从业者的模型开发、再训练和部署,并加快科学发现速度。 然而,目前该领域远未达到这种可及性水平。虽然社区对传统NWP所需的基于CPU的超级计算机的依赖正在减少,但当前最先进(SOTA)的数据驱动方法(Lam等,2023;Price等,2024;Alet等,2025)建立了一个新的准入门槛:它们需要由数百个GPU或TPU组成的大规模分布式集群——这种基础设施只有资源充足的AI实验室才能获取。在本工作中,我们研究能否改变这一范式,使高性能天气预报可供资源有限(甚至单GPU)的从业者使用。为此,我们首先识别当前计算成本的主要驱动因素。许多SOTA架构依赖于强归纳偏置,例如定制图神经网络(GNN)(Lam等,2023;Price等,2024)或复杂的球面几何算子(Mahesh等,2025)。虽然这些专门组件有物理动机,但通常会约束模型,并且缺乏大型语言模型(LLM)和计算机视觉中主流技术的硬件优化。迄今为止,最高效的竞争模型是ArchesWeather(Couairon等,2024)、ERDM(Cachay等,2025)和U-Cast(Cachay等,2026)。虽然确定性ArchesWeather模型需要5个A100天的训练,但像ArchesWeatherGen和U-Cast这样的概率模型需要超过20个,ERDM则超过40个。在本工作中,我们通过优先使用通用、高度优化的方法而非定制、领域特定的复杂性,进一步推动这一效率边界。这一策略带来双重优势:它利用了已被证明可在不同领域扩展的架构,同时利用了主流AI开发中成熟的硬件支持和底层优化。具体来说,我们挑战了“地球特定几何先验是达到SOTA性能的前提”这一普遍假设;相反,我们使用标准的2D Swin Transformer(Liu等,2021),并辅以语言建模的现代进展,包括旋转位置嵌入(RoPE)(Su等,2023)和SwiGLU激活函数(Shazeer,2020),全部通过高效的Muon优化器(Jordan等,2024)进行训练。通过利用这些已建立的基础,我们推进了确定性和概率性技巧-计算帕累托前沿,为空时建模设立了一个强大且可访问的标准。 参见说明(a)确定性模型 参见说明(b)概率模型 图1:相对于IFS HRES/ENS的标题变量技巧评分。(a) 24小时RMSE。(b) 1-10天平均CRPS。圆圈(∘)表示在较低分辨率(1°/1.4°/1.5°)训练的模型,星号(⋆)表示较高分辨率(0.25°/0.7°)训练的模型。Otter Weather系列中的模型在技巧与计算方面推进了确定性和概率性帕累托前沿。 我们的核心贡献如下: 1. 1. 民主化确定性天气预报。我们引入了Otter,一种2D Swin-UNet Transformer模型,建立了新的技巧-计算帕累托前沿(图1(a))。在单个GPU上以不到3.5个A100天训练,Otter优于领先的低计算AI预报模型。此外,我们的扩展模型Otter-XL以约3倍的低计算成本超越了FuXi(Sun等,2024)的性能,并在1.5°分辨率下达到与GraphCast(Lam等,2023)相当的技巧,同时所需的训练计算量约为其1/130。 2. 2. 低计算概率预报。我们证明我们的架构进步在概率设置下同样有效(图1(b)),显著推进了概率技巧-计算帕累托前沿。在基础规模上,Otter以总计算预算低于8个A100天(不到近期高效模型>20个A100天预算的一半)产生有竞争力的预报,优于ArchesWeatherGen并与U-Cast保持高度竞争力。Otter-XL建立了一个新标准:约需30个A100天,其预测技巧比相当的轻量级模型高出近两倍,并以低一个数量级的计算量超越资源密集型前沿架构(如GenCast)超过2%。 3. 3. 跨动力系统的通用性。由于Otter由领域无关的组件构建,我们假设它可能广泛迁移到空时建模问题。为了测试这一跨领域假设,我们在Well基准(Ohana等,2025)中的声散射偏微分方程(PDE)任务上评估我们的方法。Otter在开箱即用的情况下取得了优于Walrus(McCabe等,2025)等基础模型的性能,为跨物理科学的高效模型开辟了有希望的路径。 4. 4. 重新评估归纳偏置与实践指南。我们提供了系统的消融研究,证明标准的、硬件优化的组件(RoPE、SwiGLU、Muon)足以实现高技巧预报。我们将这些发现提炼成一种针对资源受限从业者的实用训练方案,同时记录了我们尝试过但边际收益不足以证明其实施开销的技术。 ## 2 相关工作 ### 2.1 数据驱动的全球天气预报:专门模型与基础模型 近期数据驱动天气预报的突破已使学习模型达到或超过数值天气预报(NWP)基线。然而,实现最先进(SOTA)性能的模型通常依赖重型、领域特定的架构修改。例如,Pangu-Weather(Bi等,2022)使用3D地球特定Transformer,而其他模型采用复杂的图神经网络(GNN)(Keisler,2022;Lam等,2023;Price等,2024;Lang等,2024;Alet等,2025)或谱方法如球面傅里叶神经算子(Pathak等,2022;Bonev等,2025)。这些物理先验经常带来巨大的训练开销——数百个GPU天——并且需要自定义编写的内核(Fu等,2023)。同样,像ClimaX(Nguyen等,2023)和Aurora(Bodnar等,2025)这样的基础模型适配需要复杂的工程和高度限制性的硬件要求(Subich,2025;Lehmann等,2025),构成了民主化的严重障碍。除了这些硬件约束,这种对预训练模型的依赖本质上将研究人员束缚在原始开发者的架构选择、变量选择和潜在偏差上。这种依赖性限制了科学主权,使得即使微调在计算上可行,也难以根据独立研究目标或特定区域需求定制模型。 高效架构与概率建模。作为回应,出现了一股反趋势,专注于最小化归纳偏置的计算高效架构,如Stormer(Nguyen等,2024)、ArchesWeather(Couairon等,2024)以及同期工作U-Cast(Cachay等,2026)。同时,该领域正转向概率建模以捕捉预测不确定性。基于流和扩散的模型(例如GenCast(Price等,2024)、ArchesWeatherGen(Couairon等,2024))实现了这一目标,但需要在推理时进行计算昂贵的迭代去噪。或者,优化诸如连续排序概率评分(CRPS)等恰当评分规则——这一技术由FGN(Alet等,2025)和AIFS-CRPS(Lang等,2026)开创,并受PDE文献(Diaconu等,2026)启发——提供了一条将确定性检查点微调为概率模型的高效路径。U-Cast(Cachay等,2026)最近应用了这一概念,在U-Net架构中使用蒙特卡洛(MC)dropout,从多个CRPS微调检查点构建深度集成。然而,像U-Cast和ArchesWeatherGen这样的模型仍然在超过20个A100天的训练预算下运行。相比之下,我们的工作通过利用CRPS训练与MC dropout,在严格更低计算、基于Transformer的设置下,进一步推动了帕累托前沿。我们没有进行独立的微调运行来构建集成,而是采用一种高效方法,重复使用标准超参数调整过程中已经生成的检查点,以极少的计算成本实现有竞争力的概率性能。 ### 2.2 来自视觉和语言建模的ML突破 随着天气预报模型与通用架构趋同,来自LLM和计算机视觉社区的现代技术的更广泛可迁移性仍未得到充分探索。虽然ArchesWeather成功集成了SwiGLU激活函数(Shazeer,2020),但我们认为该领域仍然缺乏对领域无关适应的系统评估。我们对SOTA机制进行了消融研究,包括旋转位置嵌入(RoPE)(Su等,2023)、Muon优化器(Jordan等,2024)、专家混合(Shazeer等,2017)、超连接(Zhu等,2025)、邻域注意力(Hassani等,2023)和掩码自编码器预训练(He等,2021)。 Otter的定位。在这一背景下,我们的方法通过以下方面脱颖而出:(1) 提出一个高度优化、基于消融的确定性基础,去除了不必要的领域复杂性;(2) 将此架构复用于计算廉价概率处理(通过微调或从头训练),将高效基线的训练成本减半,同时完全避免慢速迭代推理;(3) 通过将此精确架构成功应用于声散射任务,展示了跨领域通用性。
相似文章
这家AI天气初创公司的预测能力超越政府机构
Windborne Systems 发布了 WeatherMesh 6,这是一款AI天气预报模型,声称在准确性和频率上超越欧洲中期天气预报中心(ECMWF),这得益于直接从其气球中获取传感器数据。
WeatherNext 2: 我们最先进的天气预报模型
Google DeepMind 发布 WeatherNext 2,这是一款先进的 AI 模型,使用单个 TPU 即可在不到一分钟内生成更快、更高分辨率的全球天气预报以及数百种情景。
AdaWeather: 自适应混合概率天气预报与对数遗憾
介绍了AdaWeather,一个自适应框架,它利用机器学习和专家混合来组合多个概率天气预报,相比最佳的静态专家混合实现了对数遗憾,并在温度预报方面展示了实证改进。
EO-WM:一种物理信息驱动的概率地球观测预测世界模型
EO-WM提出了一种视频扩散变换器,用于概率性地球观测预测,该模型融入了物理信息条件,以捕捉天气驱动的不确定性,从而在极端天气下实现了对植被指数的更好预测。
针对CTF4Science Lorenz挑战的度量感知混合预测
本文描述了一种针对CTF4Science Lorenz挑战的度量感知混合预测系统,该系统结合了神经去噪器、ODE拟合和直方图尾部分布替代,以优化九个任务对中的不同度量,在公开排行榜上取得了83.85529分的成绩。