混合NARX-LLM的格陵兰冰山排放预测:提示驱动的残差校正
摘要
本文提出了一种混合NARX-LLM框架用于预测格陵兰冰山排放,采用物理知识提示方法引导大语言模型进行残差校正,相比传统NARX模型提高了预测精度。
arXiv:2606.15288v1 公告类型:新论文
摘要:格陵兰冰山排放表现出复杂的非线性动力学特性,且可观测性有限,这对传统预测模型构成了挑战。我们提出了一种混合NARX-LLM框架,该框架结合了非线性自回归外生输入模型(NARX)和大语言模型(LLM)进行残差校正。我们进一步提出了一种物理知识提示(PIP)方法,将非结构化的物理知识转化为结构化提示,用于零样本上下文推理。主要目标是探索该框架在建模格陵兰冰山排放方面的校正潜力,而非单纯优化预测精度。NARX组件捕捉内在的时间依赖性,而由PIP引导的LLM编码冰川动力学和环境驱动因素,并识别关键趋势模式以校正系统性预测误差。这种集成使得模型能够推理未建模因素并生成可解释的残差,从而提升整体预测精度。应用于格陵兰冰山排放时间序列时,我们的方法能够处理因罕见变化和非平稳趋势而难以预测的极端事件,这是传统方法常常忽视的局限性。通过融合结构化时间序列建模与知识驱动的AI基础模型,该框架提供了一条可扩展且可解释的路径,将数据有限的气候预测与物理知识引导的LLM推理连接起来。代码已开源。
查看缓存全文
缓存时间: 2026/06/16 11:40
# 混合NARX-LLM方法用于格陵兰冰山排放:基于提示驱动的残差修正
来源:https://arxiv.org/html/2606.15288
1\]\\orgname赫瑞-瓦特大学
2\]\\orgnameStudioYG
###### 摘要
格陵兰冰山排放表现出复杂的非线性动力学特性,且可观测性有限,对传统预测模型构成挑战。我们提出了一种混合NARX-LLM框架,该框架结合了具有外生输入的非线性自回归模型(NARX)和大语言模型(LLM)进行残差修正。我们进一步提出了一种物理知识提示(PIP)方法,将非结构化的物理知识转化为结构化提示,用于零样本上下文推理。主要目标是探索该框架在建模格陵兰冰山排放方面的校正潜力,而非单纯优化预测精度。NARX组件捕捉内在的时间依赖性,而LLM在PIP引导下,编码冰川动力学和环境驱动因素,并感知关键趋势模式以修正系统性预测误差。这种集成使得模型能够推理未建模的因素,生成可解释的残差,从而提升整体预测精度。应用于格陵兰冰山排放时间序列,我们的方法有效应对了因罕见变化和非平稳趋势而难以预测的极端事件,这一局限性常被传统方法忽视。通过将结构化时间序列建模与知识驱动的基础AI相融合,该框架提供了一条可扩展且可解释的路径,弥合了数据有限的气候预测与物理知识驱动的LLM推理之间的鸿沟。代码已公开。
###### 关键词:
NARX,大语言模型,混合机器学习,格陵兰冰盖,冰山崩解,气候建模,物理知识驱动学习。
00footnotetext:\* 第一作者和通讯作者。00footnotetext:3本工作在第一作者加入赫瑞-瓦特大学之前完成,完全独立于该机构进行。
## 1 引言
近年来,格陵兰冰盖质量损失已成为全球海平面上升的主要贡献者之一[ruane2024synthesis]。在各种质量损失途径中,冰山排放(崩解通量)对海洋末梢冰川的动态起着关键作用。因此,准确预测冰山排放对于改进海平面上升预估以及理解变暖气候下的冰-海相互作用至关重要[ding2021increasing]。
然而,冰山排放受非线性和部分观测的冰-海过程控制,导致强烈的非平稳性和有限的可预测性[fitzmaurice2017nonlinear,benn2017glacier]。这使得数据驱动模型难以在不同动力学状态间泛化。
NARX模型作为冰山排放预测的广泛基准,能够捕捉外生输入与排放时间序列之间的非线性时间依赖性[diaconescu2008use,kelley2024comparison],但它们对分布变化敏感,且容易产生固有的预测延迟。基于物理的模型[van2002calving]通常受限于崩解动力学的简化表示。尽管增加数据可用性可以部分缓解NARX及其他数据驱动模型的泛化局限,但在实际应用中成本高昂。冰山崩解数据集相对稀缺,在有限的时间序列数据上训练这些模型会增加过拟合风险。此外,预测性能受限于稀疏的输入变量集,例如仅依赖表面物质平衡(SMB)、北大西洋涛动(NAO)和拉布拉多海海表温度(LSST)[bigg2014century]。建模过程中缺失的关键未观测变量可能导致性能偏差[zhao2016inferring]。因此,一个关键问题浮现:如何在不增加数据样本或信息性输入变量的情况下提升冰山排放的预测性能?
为弥补这一空白,我们提出了一种混合NARX-LLM框架用于冰山排放预测,其中NARX模型提供基线预测,大语言模型(LLM)执行残差修正。我们的核心前提是LLM具备潜在推理能力,能够将冰川物理学整合到残差修正中,从而实现数据高效的预测改进。然而,这些物理知识大多是定性和非结构化的,难以转化为LLM易于理解的结构化提示。
为此,我们引入了一种物理知识提示(PIP)方法,将定性冰川学知识编码为基于模板的自然语言指令,以指导修正过程。通过将这些编码后的PIP输入LLM,模型利用零样本上下文推理生成可解释的、基于物理的推理路径,进而推导出修正残差。这种方法为每个预测提供了明确的逻辑轨迹,显著提高了残差修正的物理可解释性。结合这一解释优势,LLM能够实现趋势感知的残差修正,辅助冰山排放建模。虽然朴素NARX模型仅局限于时间步内数值变量的短期时间映射,但LLM对长期物理趋势相对更敏感,从而能够提供特定的输出修正,使短期预测与潜在物理轨迹对齐。
主要贡献总结如下:
- •**混合NARX-LLM框架**:我们提出了一种新颖的冰山排放预测框架,利用NARX的数值映射能力和LLM的趋势感知推理,通过残差修正精炼基线预测。该方法提出了一种数据高效的气候建模精炼范式,无需额外的训练数据或更具信息性的输入特征。
- •**物理知识提示(PIP)方法**:我们设计了一个基于模板的提示模块,将定性冰川学知识编码为结构化自然语言指令,使领域物理知识和基线行为得以整合。
- •**增强的可解释性和鲁棒性**:我们证明,该方法通过基于物理的推理路径为每个预测提供明确的逻辑轨迹,显著提升了非平稳和部分观测动态下的推理可解释性和鲁棒性。
## 2 相关工作
本节回顾冰山排放建模、残差修正技术以及新兴的LLM辅助气候预测领域的最新进展。
### 2.1 冰山排放建模
格陵兰冰盖(GrIS)物质平衡的建模需要准确表征崩解排放,这已被确定为上世纪质量损失的主要驱动因素[bigg2014century]。虽然这种排放受表面物质平衡(SMB)和海洋-大气强迫的非线性组合控制,但其可预测性严重受限于局地冰川动力学。例如,如[benn2017glacier]所述,冰向海洋输送受到峡湾地形的强烈调节,特别是通过支撑点的稳定作用或过度加深盆地的失稳。当前的物理冰盖模型通常依赖于简化的“崩解定律”,无法捕捉这些复杂相互作用,因此需要开发更鲁棒的模型以减少未来预估的不确定性。
尽管基于物理的建模取得了进展[nick2013future,lea2014terminus,ultee2017plastic],一些研究已转向数据驱动方法[bigg2014century,zhao2016inferring]。然而,这些经验模型往往容易过拟合有限的时间序列数据,并且难以捕捉由罕见气候变异或非平稳趋势引发的极端事件。为弥合这些差距,基于冰川物理学基础的混合NARX-LLM框架提供了一条有前景的途径,通过利用大语言模型(LLM)的上下文推理能力来减轻预测误差并捕捉复杂非线性。
### 2.2 残差修正
残差修正方法通过对先前预测误差进行系统建模来精炼模型输出[friedman2001greedy]。无论是在提升框架中作为迭代优化策略[chen2016xgboost],还是作为时间序列预测中的动态校准工具[kim2022residual],这种方法使模型能够弥补初始不足。通过专注于未解释的方差,残差修正显著提高了复杂预测任务的精度和可靠性[lim2021time]。
虽然大语言模型(LLM)在直接数值估计冰山排放方面存在困难(由于数据稀缺以及非平稳动态下纯统计映射的内在不稳定性[tang2025time,wang2025novel]),但它们的一般时间模式外推能力[gruver2023large]作为残差修正机制具有巨大潜力,可精炼传统基模型容易忽略的复杂非线性和长期轨迹。为在冰川学边界内利用这一潜力,我们将多变量物理时间特征(如拉布拉多海海表温度LSST、表面物质平衡SMB和北大西洋涛动NAO)纳入基于LLM的残差修正流程。
### 2.3 LLM辅助气候预测
大语言模型(LLM)[chen2025integrating]正在超越基于文本的聊天机器人,积极协助气候建模。最近的工作[cao2024llm]表明,LLM可以通过自动化科学工作流程弥合原始数据与政策制定之间的差距,而像ClimaQA[manivannan2025climaqa]这样的框架则旨在评估其科学可靠性。此外,像Zephyrus[varambally2025zephyrus]这样的智能体系统展示了迭代反思在复杂气象任务中的效力。
将这些进展扩展到冰川学,我们的研究聚焦于冰山排放的预测任务,利用LLM在传统时间建模受限于剧烈非平稳性的瓶颈处精炼估计。据我们所知,这是首次将LLM推理整合到冰山排放预测中的尝试。
## 3 方法
参考图标题图1:提出的用于格陵兰冰山排放预测的混合NARX-LLM框架(放大查看细节):架构展示了NARX基线与基于LLM的上下文推理的集成,包括:(1) 气候状态、趋势和偏差的物理感知,(2) 通过PIP编码定性冰川学知识,以及 (3) 自适应权威控制,包括零状态检查、尖峰检测、动态信任比和噪声基底过滤。本节详细阐述所提出的混合NARX-LLM框架(图1(https://arxiv.org/html/2606.15288#S3.F1)),该框架整合了NARX建模、物理知识提示(PIP)方法、LLM零样本上下文推理(ICR)以及一系列自适应权威控制(AAC)模块,包括零状态检查、尖峰检测和鲁棒边界机制。
### 3.1 NARX建模
非线性自回归外生模型(NARX)被用作我们框架的基础数值骨干,以捕获标准的非线性时间依赖性。给定历史目标输出I48N\(t-1\),...,I48N\(t-d\)和外生物理输入\(\mu(t)\),...,\(\mu(t-d)\),\(re(t)\),...,\(re(t-d)\),基础NARX预测\(\hat{y}_{\text{base},t}\)可表示为:
\[
\begin{split}
\hat{y}_{\text{base},t}=f\big(&I48N(t-1),\dots,I48N(t-d),\\
&\mu(t),\dots,\mu(t-d),\\
&re(t),\dots,re(t-d)\big)
\end{split}
\tag{1}
\]
其中\(f(\cdot)\)表示映射函数,\(t\)表示离散时间步,\(d\)表示滞后间隔。此外,\(\mu(t)\)和\(re(t)\)分别表示从外部物理多变量(SMB、NAO和LSST)构建的固定效应向量和随机效应向量,如下所示:
\[
\mu(t)=[SMB_\mu(t), NAO_\mu(t), LSST_\mu(t)] \tag{2}
\]
\[
re(t)=[SMB_{re}(t), NAO_{re}(t), LSST_{re}(t)] \tag{3}
\]
其中\(SMB(t)\)、\(NAO(t)\)和\(LSST(t)\)表示每个输入变量在时间索引\(t\)处的实际观测值。它们对应的年平均值(固定效应)在\(t\)所在年份分别记为\(SMB_\mu(t)\)、\(NAO_\mu(t)\)和\(LSST_\mu(t)\),而随机效应则表示为与平均值的偏差:
\[
\begin{aligned}
SMB_{re}(t) &= SMB(t) - SMB_\mu(t) \tag{4} \\
NAO_{re}(t) &= NAO(t) - NAO_\mu(t) \tag{5} \\
LSST_{re}(t) &= LSST(t) - LSST_\mu(t) \tag{6}
\end{aligned}
\]
通过这一公式,我们实质上对外生特征进行了气候异常分解[trenberth1984some,fettweis2017reconstructions]。在将该方法在从背景状态中分离随机物理信号方面的有效性指导下[rb1990stl,kashinath2021physics],每个特征被明确分解为年平均值(\(\mu\))和残差异常(\(re\))。这一策略有效分离了年度固定效应,使模型能更好地捕捉驱动关键冰盖变率的年度随机效应。
虽然NARX模型擅长在稳定条件下捕获稳态数值回归,但在高度动态环境中表现出致命局限性。具体来说,它缺乏对物理信息的语义上下文感知,并且在严重突变或环境噪声下无法泛化,导致刚性漂移误差。这一性能瓶颈直接促使我们整合物理知识提示方法和LLM零样本上下文推理模块,以自适应地精炼原始数值预测。
### 3.2 物理知识提示方法与LLM零样本上下文推理
**物理知识提示方法**。在“推理流形”发现(即提示设计是使LLM推理收敛到未见过的、领域特定的、最小低维结构的关键[ma2026reasoning])的指导下,我们提出了一种专门的物理知识提示(PIP)方法,系统地弥合了传统数值建模与生成式AI模型之间的差距。不同于将大语言模型(LLM)视为通用统计回归器,语义提示空间被明确设计为封装多球气候动态以及基线模型的历史性能指标。该方法将原始的连续环境观测和非结构化的冰川学知识编码为高度结构化、领域特定的提示模板,使LLM内部的注意力机制能够在潜在且压缩的搜索空间中有效评估物理边界条件和跨球反馈回路。
PIP构建的结构分解如下:相似文章
物理信息机器学习用于短期洪水预测
研究人员提出了一种物理信息机器学习(PIML)框架,将水文约束整合到LSTM损失函数中,以改善短期洪水预报,特别是在数据稀缺的情况下。一种“趋势对齐”约束确保了降水与流量趋势之间的一致性,提高了纳什-苏特克利夫效率,并消除了极端事件期间的非物理预测。
通过联合优化架构与量化策略实现 LLM 压缩
来自 UiT 和奥斯陆大学的研究人员提出了一种可微分 NAS 框架,能够联合优化 LLM 压缩中的架构配置与混合精度量化策略。与先 NAS 后量化的顺序基线方法相比,该框架在七项推理任务中可实现最高 1.4 倍的推理加速,或最高 6% 的精度提升。
HPC-LLM:面向HPC支持的实用领域自适应与检索增强生成
本文介绍了HPC-LLM,一个面向HPC工作流的检索增强与领域自适应助手,基于HPC文档使用QLoRA微调Llama 3.1 8B模型。实验表明,该模型在资源需求显著降低的情况下,性能与更大的通用模型相当。
多利益相关方LLM对齐:将估计与聚合分解
本文识别了多利益相关方任务中LLM评估者的权重噪声,并提出了DecompR方法,该方法通过反事实校准的权重将效用估计从聚合中解耦。
GLACIER: 一种用于分子性质预测的多模态学生-教师基础模型
本文介绍了GLACIER,一种多模态学生-教师基础模型,它整合了分子图、SMILES字符串和物理化学描述符,以高效预测分子性质。它利用Finsler几何感知融合以及来自更大教师模型(MiniMol、MolFormer)的知识蒸馏,以轻量级架构实现高性能。