基于经验神经正切核的极端天气预报可扩展不确定性量化

arXiv cs.LG 论文

摘要

本文提出基于神经正切核的不确定性量化方法,用于确定性深度学习天气模型,在极端事件期间无需重新训练即可获得更尖锐的自适应预测区间。

arXiv:2606.02886v1 公告类型:新 摘要:深度学习天气模型现已达到数值天气预报的精度,同时运行速度快数个数量级,但生成的是确定性预报,缺乏不确定性估计,这在极端天气事件的高风险决策中是一个关键缺口。本文提出基于神经正切核的不确定性量化方法(NTK-UQ),利用最后一层的经验特征。理论分析预测,不确定性量化的质量通过两种机制依赖于架构。首先,方差坍塌机制解释了何时不确定性量化失败:当特征值截断秩接近特征空间的有效秩时,高斯过程校正项消耗几乎所有的先验方差,破坏了对热带气旋和常规条件的区分;具有集中谱(谱算子)的架构需要激进截断($k \leq 10$),而基于注意力的模型可以容忍全秩计算。其次,分解性能取决于极端天气的非高斯、重尾结构:独立成分分析利用高阶统计量(峰度、负熵)来隔离重尾极端事件特征,实现比仅捕获二阶方差的奇异值分解更高的区分度。一个数据驱动的选择规则根据特征特征谱集中比来选择ICA或SVD,对所有四个评估架构正确指定了更优的分解。与分裂共形预测(自然的后验基线)相比,NTK-UQ在90%覆盖下实现了31-37%更尖锐的预测区间,并且独特地生成了随极端事件严重性而变化的*自适应*区间,这是共形预测在构造上无法实现的。该框架无需重新训练;推理时的不确定性每个样本仅需一次矩阵-向量乘法。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:40

# 基于经验神经正切核的极端天气预报可扩展不确定性量化
来源:https://arxiv.org/html/2606.02886
Jose Marie Antonio Miñoza, Rex Gregor Laylo
教育部
人工智能研究中心
马卡蒂市,菲律宾
ecair\.rlaylo@deped\.gov\.ph (https://arxiv.org/html/2606.02886v1/mailto:[email protected])
以及
Sebastian C\. Ibañez
教育部
人工智能研究中心
马卡蒂市,菲律宾
ecair\.sibanez@deped\.gov\.ph (https://arxiv.org/html/2606.02886v1/mailto:[email protected])
\(2026\)

###### 摘要.
深度学习天气模型在运行速度快数个数量级的同时,已能与数值天气预报的精度相匹配,但产生的是确定性预测,缺乏不确定性估计——这对于极端天气事件中高风险决策而言是一个关键缺陷。本文提出基于神经正切核的不确定性量化(NTK-UQ),使用最后一层经验特征。理论分析预测,UQ质量通过两种机制依赖于架构。首先,一种方差崩溃机制解释了UQ何时失效:当特征值截断秩接近特征空间的有效秩时,GP修正项消耗了几乎所有的先验方差,破坏了对热带气旋与常规天气的区分能力;谱集中的架构(光谱算子)需要激进截断(\(k \leq 10\)),而基于注意力的模型则可容忍全秩计算。其次,分解性能取决于极端天气的非高斯、重尾结构:独立成分分析利用高阶统计量(峰度、负熵)来分离重尾极端事件特征,比仅捕捉二阶方差的奇异值分解实现更高的区分度。一种数据驱动的选择规则根据特征本征谱的集中度比例选择ICA或SVD,正确地为所有四种评估架构指定了更优的分解方法。与分割共形预测(自然的后处理方法基线)相比,NTK-UQ在90%覆盖度下实现了31-37%更窄的预测区间,并且独特地产生了随极端事件严重程度自适应缩放的*自适应*区间,而共形预测由于其构造方式无法实现这一点。该框架无需重新训练;推理时的不确定性仅需每个样本一次矩阵-向量乘法。

不确定性量化,神经正切核,高斯过程,深度学习,校准,天气预报

††期刊年份:2026
††版权:othergov
††会议:第32届ACM SIGKDD知识发现与数据挖掘会议 V.2;2026年8月9-13日;韩国济州岛
††论文集:第32届ACM SIGKDD知识发现与数据挖掘会议 V.2 (KDD ’26),2026年8月9-13日,韩国济州岛
††doi:10\.1145/3770855\.3818106
††isbn:979-8-4007-2259-2/2026/08
††ccs:计算方法 不确定性量化
††ccs:计算方法 高斯过程
††ccs:计算方法 神经网络
††ccs:计算方法 谱方法
††ccs:应用计算 地球与大气科学

请参阅图注
图1. 用于极端天气预报的NTK-UQ流水线概览。极端天气事件的大气变量经过四个基础AI天气模型(FourCastNetV2, Aurora, AIFS, Pangu-Weather)处理,提取最后一层特征。这些特征构建经验神经正切核矩阵,经SVD或ICA分解(图中显示:\(U\Sigma V^\top\) 分解)获得秩为 \(k\) 的近似。推理时,高斯过程后验方差公式为每个变量生成经校准的预测区间,量化认知不确定性。

图示展示了NTK-UQ流水线:从四个AI天气模型提取特征,构建经验NTK核,进行SVD/ICA分解,并在推理时估计GP后验不确定性。

## 1. 引言
极端天气事件每年导致约1430亿美元的气候可归因损失(Newman and Noy, 2023 (https://arxiv.org/html/2606.02886#bib.bib40)),EM-DAT数据库记录仅2023年就发生399起灾害,影响9310万人(Delforge et al., 2025 (https://arxiv.org/html/2606.02886#bib.bib44))。准确预测这些事件至关重要,然而预测的价值不仅取决于其精度,还取决于*对其信任的程度*——这需要经校准的不确定性估计。深度学习已经改变了天气预报。诸如FourCastNetV2 (Pathak et al., 2022 (https://arxiv.org/html/2606.02886#bib.bib4))、Pangu-Weather (Bi et al., 2023 (https://arxiv.org/html/2606.02886#bib.bib6))、GraphCast (Lam et al., 2023 (https://arxiv.org/html/2606.02886#bib.bib7)) 和 Aurora (Bodnar et al., 2025 (https://arxiv.org/html/2606.02886#bib.bib8)) 等模型现在已达到或超过传统数值天气预报(NWP)系统的精度,同时运行速度快数个数量级,在数秒(而非数小时)内生成10天全球预报。然而,这些模型产生的是确定性点预测,没有经校准的不确定性估计。对于风险敏感的应用,不确定性量化至关重要:决策者不仅需要点预测,还需要与实际预测误差相关的概率区间。对于极端事件——其预测误差的后果最严重——缺乏可靠的不确定性估计限制了模型的实用性。现有的神经网络不确定性量化方法在应用于大规模天气模型时面临重大限制。深度集成 (Lakshminarayanan et al., 2017 (https://arxiv.org/html/2606.02886#bib.bib13)) 需要从头训练多个数十亿参数模型的副本,这对于基础天气模型而言计算成本过高。蒙特卡洛 Dropout (Gal and Ghahramani, 2016 (https://arxiv.org/html/2606.02886#bib.bib17)) 可能产生校准不良的不确定性 (Ovadia et al., 2019 (https://arxiv.org/html/2606.02886#bib.bib26)),并且需要与预训练检查点不兼容的架构修改。贝叶斯神经网络 (Blundell et al., 2015 (https://arxiv.org/html/2606.02886#bib.bib18)) 增加了大量内存和计算开销,难以扩展到运营规模的模型。共形预测 (Angelopoulos and Bates, 2021 (https://arxiv.org/html/2606.02886#bib.bib19)) 提供了无分布假设的覆盖保证,但其标准形式产生均匀的区间宽度,与实际预测误差不相关。

本文提出基于最后一层神经正切核(NTK)的不确定性量化方法,用于AI天气模型。关键见解是:天气模型的最后一层特征 \(\phi(x)\)——从数十年的ERA5再分析中学习得到——编码了物理上有意义的大气结构。在最后一层NTK-GP对应关系下,特征核 \(K(x,x') = \phi(x)^\top \phi(x')\) 充当了一种*ERA5信息相似性度量*:当测试输入的大气状态相对于模型学习的特征流形和校准分布都不同寻常时,其不确定性高。这种两级的认知性信号是纯统计基线方法(如共形预测)无法获得的。关键地,UQ质量依赖于架构和分解方法:一种数据驱动的选择规则根据特征本征谱的集中度决定使用独立成分分析还是奇异值分解,无需详尽比较即可正确指定更优方法。在本文中,术语*NTK不确定性*指将冻结模型的最后一层特征视为*经验*神经正切核并应用高斯过程后验理论得到的后验方差。此用法不同于完整的无限宽NTK公式,应理解为由学习到的特征表示诱导的有限宽、事后核近似。本文的理论结果(命题1 (https://arxiv.org/html/2606.02886#S3.Thmtheorem1) 和命题2 (https://arxiv.org/html/2606.02886#S3.Thmtheorem2),定理1 (https://arxiv.org/html/2606.02886#S5.Thmtheorem1))直接在此经验核下证明,无需调用无限宽极限;先前的工作 (He et al., 2020 (https://arxiv.org/html/2606.02886#bib.bib12); Huang et al., 2023 (https://arxiv.org/html/2606.02886#bib.bib32)) 表明有限宽网络近似表现为核机器,事后校准可纠正残留的近似误差。

NTK-UQ具有若干特性,使其适用于研究大规模天气模型中的UQ。首先,该方法无需重新训练模型或更改架构;它作为纯事后过程适用于任何预训练检查点。其次,在一次性离线校准后,推理时的UQ仅需一个矩阵-向量乘积,为前向传播增加极小的开销。第三,不确定性按每个输出变量计算,实现了变量级别的不确定性估计。理论分析预测,UQ质量既取决于神经架构(通过本征谱集中度),也取决于分解方法(通过高阶统计量利用)。该框架在四种架构多样的AI天气模型上评估:FourCastNetV2(SFNO)、Pangu-Weather(Swin Transformer)、Aurora(Perceiver)和 AIFS(GNN-Transformer),使用ERA5再分析 (Hersbach et al., 2020 (https://arxiv.org/html/2606.02886#bib.bib10)) 作为真值。评估聚焦于EM-DAT国际灾害数据库中的极端天气事件,包括热带气旋、洪水、干旱和极端温度事件。实验涵盖从6到120小时的预报提前时间。结果验证了这些预测:不确定性区分度遵循依赖架构的模式,独立成分分析实现了随极端事件严重程度等级自适应缩放的区间,而奇异值分解产生更均匀的区间,未能区分热带气旋预报与常规条件。

#### 贡献.
本文做出五项贡献:
(1) **方差崩溃表征**:形式化分析特征值谱集中度如何导致UQ失败,并提供诊断判据 \(R_k = C_k / P < 0.9\) 以保持区分度(命题1 (https://arxiv.org/html/2606.02886#S3.Thmtheorem1)),将神经架构(SFNO vs Transformer)与有效秩及最优截断策略关联起来;
(2) **非高斯区分理论**:解释为什么独立成分分析通过利用高阶统计量(命题2 (https://arxiv.org/html/2606.02886#S3.Thmtheorem2))在极端天气上优于奇异值分解,为基于特征分布属性选择分解方法提供理论依据;
(3) **架构-UQ交互框架**:系统地表征神经架构如何决定NTK本征谱性质,这些性质进而控制UQ质量,使得无需详尽实验即可进行预测性诊断;
(4) **分解选择规则**:算法1 (https://arxiv.org/html/2606.02886#alg1) 提供了一种数据驱动的策略,根据特征本征谱集中度比例选择ICA或SVD,正确地为所有四种评估架构指定了更优方法,并在81%的有效比较中验证了分割共形预测的31-37%更窄区间;
(5) **经验验证**:在来自EM-DAT的100个极端天气事件上,跨四种基础天气模型(FourCastNetV2, Pangu-Weather, Aurora, AIFS)的评估确认了理论预测,并证明NTK-UQ产生自适应区间(\(CV > 0\)),而共形预测由于其构造方式无法实现这一点。

## 2. 相关工作
AI天气基础模型 (Pathak et al., 2022 (https://arxiv.org/html/2606.02886#bib.bib4); Bi et al., 2023 (https://arxiv.org/html/2606.02886#bib.bib6); Lam et al., 2023 (https://arxiv.org/html/2606.02886#bib.bib7); Bodnar et al., 2025 (https://arxiv.org/html/2606.02886#bib.bib8)) 如今已与数值天气预报精度相当。子集能够原生生成概率预报,但各有代价:ECMWF的业务集合(ENS)在部署时需要51成员扰动运行;GenCast (Price et al., 2025 (https://arxiv.org/html/2606.02886#bib.bib1)) 从头训练扩散模型;SEEDS (Li et al., 2024 (https://arxiv.org/html/2606.02886#bib.bib2)) 则需要预先存在的集合来模拟。它们都绑定于特定架构。相比之下,绝大多数AI天气检查点——包括FourCastNetV2、Pangu-Weather、Aurora和AIFS——是确定性的,且缺乏原生不确定性估计。NTK-UQ针对这一大多数:它以事后方式应用于任何预训练确定性检查点,无需重新训练,实现在快速增长的基础天气模型生态系统中的*检查点可重用性*。

现有的事后UQ方法在数十亿参数模型上遇到重大障碍:深度集成 (Lakshminarayanan et al., 2017 (https://arxiv.org/html/2606.02886#bib.bib13)) 需要训练多个副本(成本高昂),贝叶斯方法 (Blundell et al., 2015 (https://arxiv.org/html/2606.02886#bib.bib18); Gal and Ghahramani, 2016 (https://arxiv.org/html/2606.02886#bib.bib17)) 需要架构修改并产生校准不良的不确定性 (Ovadia et al., 2019 (https://arxiv.org/html/2606.02886#bib.bib26)),而共形预测 (Angelopoulos and Bates, 2021 (https://arxiv.org/html/2606.02886#bib.bib19)) 提供覆盖保证但缺乏逐个样本的区分度。

神经正切核 (Jacot et al., 2018 (https://arxiv.org/html/2606.02886#bib.bib11)) 表明无限宽网络行为类似于高斯过程,从而实现了闭环不确定性量化。为便于处理,最后一层经验NTK使用特征核 \(K(x,x') = \phi(x)^\top \phi(x')\) 而不是完整的基于梯度的NTK。这与线性输出头的最后一层拉普拉斯近似 (MacKay, 1992 (https://arxiv.org/html/2606.02886#bib.bib23); Daxberger et al., 2021 (https://arxiv.org/html/2606.02886#bib.bib24)) 一致。近期工作 (He et al., 2020 (https://arxiv.org/html/2606.02886#bib.bib12); Huang et al., 2023 (https://arxiv.org/html/2606.02886#bib.bib32)) 表明,基于NTK的GP后验即使在有限宽网络中也能捕捉认知不确定性。与 \(\Delta\)-UQ (Thiagarajan et al., 2022 (https://arxiv.org/html/2606.02886#bib.bib33))(需要带锚点扰动的重新训练)不同,NTK-UQ完全在预训练模型上进行事后操作。详细比较见附录A (https://arxiv.org/html/2606.02886#A1)。

## 3. 方法
NTK-UQ 是一个用于预训练神经天气模型的事后不确定性量化框架。该方法包含三个阶段:(1) 最后一层特征提取,(2) 通过核分解离线构建GP后验,(3) 事后缩放以实现目标覆盖。

### 3.1. 问题设定
设 \(f_\theta: \mathcal{X} \to \mathcal{Y}\) 是一个预训练天气模型,它将大气状态 \(x \in \mathcal{X} \subset \mathbb{R}^{C \times H \times W}\) 映射到预测 \(y \in \mathcal{Y} \subset \mathbb{R}^{C' \times H \times W}\),其中 \(C\) 和 \(C'\) 是输入和输出通道数,\(H \times W\) 是空间维度。

相似文章

WeatherNext 2: 我们最先进的天气预报模型

Google DeepMind Blog

Google DeepMind 发布 WeatherNext 2,这是一款先进的 AI 模型,使用单个 TPU 即可在不到一分钟内生成更快、更高分辨率的全球天气预报以及数百种情景。