天气与气候科学领域的AI革命并非革命性变革

Ars Technica 新闻

摘要

本文批判性地审视了机器学习在天气与气候建模中的应用,强调其实际优势与固有局限,同时警示不要过度夸大所谓的革命性突破。

<p>如今似乎无处不在地被AI包围——无论是打字时被数字“助手”打断,还是费力寻找一款不需要莫名其妙联网的新冰箱。如果你怀疑我们是否正经历一场技术量子跃迁,还是人们只是在炒作一堆垃圾,这完全可以理解。</p> <p>那么,我们该如何看待AI在天气与气候建模中日益广泛的应用呢?</p> <p>今年早些时候,这场讨论的开端并不理想:美国国家气象局某办公室发布了一张预报图,上面出现了爱达荷州并不存在的城市,名字诸如“Whata Bod”和“Orangeotild”。所幸,这只是一张为社交媒体制作的AI生成图片,而非实际预报模型。气象学家和气候科学家尚未被大语言模型提示工程师取代。</p><p><a href="https://arstechnica.com/science/2026/06/the-weather-and-climate-science-ai-revolution-isnt-revolutionary/">阅读全文</a></p> <p><a href="https://arstechnica.com/science/2026/06/the-weather-and-climate-science-ai-revolution-isnt-revolutionary/#comments">评论</a></p>
查看原文
查看缓存全文

缓存时间: 2026/06/08 15:16

# 气象与气候科学的AI革命并非革命性 来源:<https://arstechnica.com/science/2026/06/the-weather-and-climate-science-ai-revolution-isnt-revolutionary/> 跳至正文 (https://arstechnica.com/science/2026/06/the-weather-and-climate-science-ai-revolution-isnt-revolutionary/#main) 机器学习有其局限性——它究竟如何被运用? [](https://cdn.arstechnica.net/wp-content/uploads/2026/05/ai-climate-mapping.jpg) 图片来源:Aurich Lawson \| Getty Images 图片来源:Aurich Lawson \| Getty Images 如今感觉无处不AI,无论你是想打一段文字而不被数字“助手”打断,还是努力寻找一台不需要Wi-Fi连接(不知何故)的新冰箱。如果你想知道我们是否正处于技术的量子飞跃之中,或者人们只是在炒作一堆垃圾,那也情有可原。 那么,我们应该如何看待AI在气象和气候建模中日益广泛的应用呢? 今年早些时候,一场糟糕的开端出现了:国家气象局的一个办公室发布了一张天气预报图,图上出现了爱达荷州不存在的城市(https://www.washingtonpost.com/weather/2026/01/06/nws-ai-map-fake-names/),名字像“Whata Bod”和“Orangeotild”。幸好,那只是为社交媒体生成的AI图像,并非实际的预报模型。气象学家和气候科学家尚未被大语言模型的提示工程师取代。 但AI正通过研究人员研究多年、其优缺点已充分了解的技术应用于这些领域。而且有充分理由表明,这些技术在天气预报与气候模拟模型之间存在差异。 ## 机器学习,而非大语言模型 在所有这类模型中,“AI”指的是机器学习。在不深入探讨机器学习众多变体的技术细节的前提下,其核心理念很简单:利用计算机识别数据中的模式。 将一条直线趋势线拟合到数据上(即线性回归)是一种非常简单的模式识别方式。我们也可以用更复杂的曲线和方程进行回归。机器学习的强大之处(以及潜在陷阱)在于,算法能够处理远高复杂度的关系,提取出我们手动难以归纳的模式。 机器学习始于从零开始训练模型。模型被赋予某种结构——比如神经网络(https://www.youtube.com/watch?v=aircAruvnKk)——这给我们提供了许多可独立调节的“旋钮”,用于微调算法的行为。模型会被给予一大堆积例数据,通常附带答案,例如数千张按物种标注的鸟类照片。模型随后迭代地确定最佳的旋钮值组合,以将照片内容与正确的物种关联起来。 一些局限性是显而易见的。该算法无法识别训练数据中未出现过的物种,也无法识别与示例差异过大的亚种群。训练数据的质量也至关重要。如果我们只使用松树上的山雀照片,模型可能会将松针纳入其“山雀性”的定义中。 如果不做大量额外工作,我们可能不知道模型是如何得出答案的。大多数时候,其内部机制基本上是一个黑箱。 不过优点也是实实在在的。机器学习算法通常在计算效率上(甚至有时在准确性上)优于我们手工构建的最佳算法。但必须正确使用,否则局限性就会显现。 ## 云计算 对于天气预报模型而言,其过程与我们识别鸟类的例子并无太大差异,只是模型训练使用的是两组时间间隔很短的气象数据。 由于它们无需在每个位置求解大量物理方程,这些模型的运行速度远快于传统天气模型。 包括谷歌(https://www.science.org/doi/10.1126/science.adi2336)、英伟达(https://arxiv.org/abs/2202.11214)、华为(https://www.nature.com/articles/s41586-023-06185-3)和微软(https://www.nature.com/articles/s41586-025-09005-y)在内的多家公司,已开发出初步模型(有时与独立学者合作),这些模型与我们目前使用的预报模型相比毫不逊色。一旦我们开始了解这些模型的优势和短板,一些主要天气预报中心也开始开发自己的模型。 欧洲中期天气预报中心(ECMWF)于2025年2月(https://www.ecmwf.int/en/about/media-centre/news/2025/ecmwfs-ai-forecasts-become-operational)将其首个基于机器学习的模型投入运行,与其长期运行的综合预报系统(IFS)模型并行使用。 AIFS模型(https://arxiv.org/abs/2509.18994)使用再分析数据(https://cds.climate.copernicus.eu/datasets/reanalysis-era5-single-levels?tab=overview)进行训练——这是一个通过收集所有可用的气象观测资料,并在没有测量数据的位置填补出物理一致图像的数据集。这一关键工具大大简化了机器学习根据先前快照预测全球下一快照(提前六小时)的任务。 每个快照包含温度、气压、风、水汽、云量、降水、太阳辐射和土壤湿度等信息。模型并不应用连接这些变量的物理规律,而是简单提炼出它们过去变化的时空模式。 这意味着奇怪的事情可能发生。机器学习模型并不“知道”某一列中的数字代表降雨量,而降雨量不能为负;也不明白从模型网格一个区域流出的风必须与流入相邻像素的风平衡,因为质量和能量守恒是客观存在的。当模型以最小化整体误差为优化目标时,它可能会通过允许一些无意义的不可可能性来实现这一目标。 处理这个问题通常涉及约束模型输出。例如,ECMWF模型会将负的预测降水量重新映射为零。各种形式的物理护栏构成了改进机器学习模型的主要焦点。 三张欧洲降水预报图。(https://cdn.arstechnica.net/wp-content/uploads/2026/05/AIFS_tp_paper_new_old_IFSshort.jpg) AIFS模型在升级前(左)和升级后(中)模拟的降水量(包含了对负降水的约束),以及传统IFS模型(右)作为对比。 AIFS模型在升级前(左)和升级后(中)模拟的降水量(包含了对负降水的约束),以及传统IFS模型(右)作为对比。图片来源:Moldovan 等人 (https://arxiv.org/abs/2509.18994v1) 这些机器学习模型的回报在于计算效率上的绝对提升。ECMWF表示,IFS模型运行一次预报消耗的能量约为AIFS模型的1000倍,所需时间约为30分钟对3分钟。对于这些预报模型的集合版本(运行50次模拟以更好地捕捉可能结果的范围),这种节省尤为显著。鉴于预报质量良好,这些机器学习模型极具实用价值。 ## 龙之领地 常规天气条件的预报具有很大的实用价值,但对极端天气条件的准确预报则关乎生死。越极端,这一点越真实。但正如识别鸟类的算法无法识别训练中未展示过的鸟类一样,基于AI的天气模型也可能无法预测训练数据集中未包含的极端天气。 由于极端事件罕见,即使是非常庞大的训练数据集也可能缺乏某些类型的事件,或者至少缺乏像现实世界中可能即将发生的那么极端的例子。(如果气候变化正在影响某种特定天气模式,那么过去对未来(https://agupubs.onlinelibrary.wiley.com/doi/10.1029/2025GL119740)的指导作用就很差。)而且,如果我们将所有极端事件都包含在训练阶段,那么之后就没有可用于测试系统的极端事件了。 与ECMWF基于高分辨率物理的模型相比,一项近期研究(https://www.science.org/doi/10.1126/sciadv.aec1433)发现,常见的机器学习模型“倾向于低估破纪录事件的频率和强度,\[……\] 且随着记录超出幅度的增大,误差也在增大。”由于这些模型不会超出训练所见范围,它们可能会平滑极端事件,将其限制在正常条件的范围内。 这种行为对于极端天气预报而言是个问题。但对于气候模型来说,这则是致命缺陷。 ## 越界 天气预报涉及观察当前大气状态并预测未来几小时(或几天)的情况。气候模型则做着非常不同的事情。气候科学提出广泛的“如果……会怎样”问题,关于大气能量变化的影响,或关于控制大气当前状态的因素。 在建模术语中,这涉及边界条件——塑造长期天气模式而非特定日期天气演变的因素。如果我们排放一定量的二氧化碳,这些统计数据将如何变化?如果我们从未排放过二氧化碳,今天的统计数据会是什么样子?这些反事实和预估通常无法从历史训练数据集中学习。 对于这类科学,物理定律几乎是不可或缺的,因此完全放弃基于物理的计算是不可行的。不过,研究人员正在寻找利用机器学习的方法。 加州理工学院的Tapio Schneider(https://climate-dynamics.org/people/tapio-schneider/)是一个名为“气候建模联盟”(CliMA(https://clima.caltech.edu/))项目的成员。这项雄心勃勃的工作正在从头构建一个新的气候模型,彻底摆脱现有的Fortran代码,转而采用Julia和能够利用GPU的云原生架构。结果将是一个混合气候模型——主要基于物理,但包含机器学习组件。 “我认为我们的基本赌注是,保留物理护栏至关重要,这样我们才能有信心预测我们没有数据的气候,”Schneider告诉Ars,“这迫使你走上一条路:将机器学习以相对较小的规模嵌入模型内部,而不是用(机器学习)完全取代整个模型。” 气候模型实际上是多个连接在一起的模型(https://arstechnica.com/science/2013/09/why-trust-climate-models-its-a-matter-of-simple-science/)——一个组件可能模拟大气,另一个模拟海洋,另一个模拟某些陆地表面过程,等等。在每个组件内部,许多过程发生在比单个模型网格单元更小的尺度上。我们无法模拟云中的每一个水滴,或者每株植物对干旱天气的响应。相反,这些过程通过称为“参数化”的批量近似来处理,这些参数化基于湿度或温度等物理值计算某个网格段上的平均行为。 CliMA团队的模型正在用机器学习算法替换其中一些参数化。例如,雪盖模拟需要一套相当复杂的物理方程,因为控制它的过程很多。因此,他们用机器学习替换了这个特定的参数化模块,并加入了“水量输入等于输出”的要求。 “实际上效果非常好,因为当前气候条件下的积雪状况(可以很好地帮助预测)未来会发生什么,”Schneider说。“现在低海拔地区的情况,以后会在高海拔地区出现;或者现在低纬度地区的情况,以后会在高纬度地区出现,但(温度、融雪等之间的关系)在当前气候下采样充分。” “在其他情况下,效果就没那么好了,”Schneider解释说。“例如,随着气候变暖,云层会变得更厚。因此,随着气候变暖,地球上将出现比我们以往见过的更高的云——这意味着,如果你试图从当前气候中学习云中凝结物浓度与环境条件之间的关系,你根本没有对未来云层的样子进行采样。” 尽管如此,研究人员在云参数化中找到了更狭窄的机会。他们正在实施一个机器学习解决方案,用于云内与云外空气的交换——这个过程听起来很小,但对云量有显著影响。 总体而言,CliMA团队的目标是在计算效率和科学质量具有明显优势的地方引入机器学习,同时保留其他所有地方更有效的现有方法。 ## 走向元层面 基于物理的气候模型中的某些方程包含可以调整以最好地匹配现实的项。优化这种调整(称为模型校准)是一个机器学习可以很好地适应的过程。 来自NASA戈达德空间研究所(GISS)气候建模小组的一项近期研究(https://agupubs.onlinelibrary.wiley.com/doi/10.1029/2024MS004713)解决了其整个大气模型中关键项的最佳调谐值组合问题——这是一项艰巨的任务,机器学习使其变得可行。 为此,他们改变了与云内部过程等相关的参数值,得到了450种组合。每种组合用于模拟一年的大气条件,然后根据某些指标进行评分,例如发生的热带气旋数量或进入和离开大气层顶部的能量差异。 带有颜色编码相关性表格的行和列。(https://cdn.arstechnica.net/wp-content/uploads/2026/05/jame70064-fig-0009-edit.jpg) 每个指标(y轴)及其对参数变化(x轴)的敏感性。例如,如果你增加某个特定参数的值,热带气旋的数量会上升(红色)或下降(蓝色)。 每个指标(y轴)及其对参数变化(x轴)的敏感性。例如,如果你增加某个特定参数的值,热带气旋的数量会上升(红色)或下降(蓝色)。图片来源:Elsaesser 等人 / JAMES (https://agupubs.onlinelibrary.wiley.com/doi/10.1029/2024MS004713) 一个机器学习模型根据这些指标与真实观测值的误差进行训练。然后,该模型可用于识别一组精确值(在模拟所使用的范围内),使得所有参数的误差最小。毕竟,这正是神经网络机器学习的初衷——为数量庞大的“旋钮”找到最佳拟合。 机器学习的另一个有吸引力的用途是训练一个模型来模仿其他模型。这听起来可能有点傻,但有很多充分的理由这样做。它允许你取一个可能需要大量计算资源和时间才能运行的复杂模型,然后训练一个极其轻量级的模型来估算其输出。 这些“仿真器”可以基于一个大型气候模型对标准未来温室气体排放情景的预估进行训练,然后用于探索任何新的排放情景,而无需排队等待一周的超级计算机时间。它无法提供完整模型模拟的细节,但可以快速提供关键问题的底线答案。 正如最近的一篇评述所指出

相似文章

我们是否高估了模型智能,低估了工作流质量?

Reddit r/AI_Agents

文章认为,令人印象深刻的AI与无用的AI之间的区别往往不在于模型本身,而在于围绕它的工作流——上下文、记忆、工具访问和编排。它表明,工作流架构可能成为比原始模型能力更重要的竞争优势。