通过领域感知核集选择与表格基础模型实现数据高效的洪水深度预测

arXiv cs.LG 论文

摘要

本文提出一种领域感知核集构建流程,使表格基础模型仅用0.7%的训练数据即可预测洪水深度,达到监督参考精度的98.5%,并支持跨流域迁移而无需重新训练。

arXiv:2606.05265v1 Announce Type: new 摘要:近实时洪水深度预测需要准确、快速且可跨流域迁移的替代模型。监督式替代模型在精度上可与基于物理的模拟器媲美,但每个流域需要数百万训练样本,且无法外推到原始网格之外。我们提出一种领域感知核集构建流程,在推理时对表格基础模型进行条件化。该流程按重现期和最受影响流域对风暴进行分层,然后使用目标感知空间选择器采样六边形网格。仅使用每个流域训练池的0.7%,该模型在休斯顿地区九个流域上达到平均$R^2$为0.663,达到监督参考精度($R^2$ = 0.673)的98.5%。该模型无需特定任务重新训练即可迁移到未见过的流域,且优于基于核集训练的监督基线。在真实风暴案例中,模型在一个高度分布外案例上超越监督参考,在一个基本分布内案例上略逊于监督参考。领域感知核集构建使表格基础模型能够实现数据高效、可跨流域迁移的洪水预测,而无需按流域训练。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:09

# 通过领域感知核心集选择与表格基础模型实现数据高效的洪水深度预测  
来源:https://arxiv.org/html/2606.05265  

[orcid=0009-0005-3732-7319]\cormark[1]\credit{概念化、方法论、软件、初稿撰写} \credit{软件、验证} \credit{软件、验证} \credit{方法论、审阅与修订} \credit{监督、审阅与修订}  

[1]组织=城市韧性.AI实验室,扎克里土木与环境工程系,德克萨斯农工大学,城市=大学城,州=德克萨斯,国家=美国  
[2]组织=计算机科学与工程系,德克萨斯农工大学,城市=大学城,州=德克萨斯,国家=美国  
[3]组织=Resilitix Intelligence有限责任公司,城市=休斯顿,州=德克萨斯,国家=美国  
[4]组织=德克萨斯灾害韧性研究所,德克萨斯农工大学,城市=大学城,州=德克萨斯,国家=美国  

\cortext[1]通讯作者:Adithi Srinath · Manas Singh · Junwei Ma · Ali Mostafavi  

---

###### 摘要  

近实时的洪水深度预测需要准确、快速且能在不同流域间迁移的替代模型。基于监督学习的替代模型可以在精度上媲美基于物理的模拟器,但每个流域需要数百万条训练数据,且无法在其原始网格之外进行外推。我们提出了一种领域感知核心集构建流水线,在推理阶段对表格基础模型进行条件约束。该流水线首先按重现期和受影响最严重的流域对风暴事件进行分层,然后使用目标感知的空间选择器对六边形进行采样。仅使用每个流域训练集0.7%的样本,该模型在休斯顿地区九个流域上的平均R²达到0.663,达到监督参考模型(R²=0.673)的98.5%。无需针对特定任务进行重新训练,该模型即可迁移至未参与的流域,性能超过基于核心集训练的监督基线。在实际风暴案例中,在一个严重分布外案例上优于监督参考模型,在一个基本分布内案例上略逊于参考模型。领域感知核心集构建使表格基础模型能够在不进行逐流域训练的情况下,实现数据高效且跨流域可迁移的洪水预测。  

###### 关键词:领域感知核心集构建 \sep 上下文学习 \sep 表格基础模型 \sep 洪水深度预测 \sep 跨流域可迁移性 \sep 水动力替代模型  

{亮点}  
- 一种两阶段核心集方法,同时按风暴重现期和空间结构进行分层。  
- 基础表格模型使用5万条核心集即可达到流域级基线水平。  
- 上下文学习无需重新训练即可从相邻流域预测未参与流域。  
- 模型在分布外风暴上具备外推能力,在分布内风暴上保持准确。  

---

## 1 引言  

参考图注  
图1:所提出方法的概念概览。(1) 基于物理的洪水模拟档案:包含九个休斯顿地区流域的592次合成风暴事件的HEC-RAS知识库,事件-六边形行数约10^8量级,附带风暴元数据、流域边界和NOAA Atlas 14重现期标签。(2) 领域感知核心集构建:两阶段流水线将档案压缩成一个紧凑且具有水文代表性的子集。阶段1按重现期和受影响最严重的流域对事件进行分层,阶段2使用目标感知的设施选址策略选择H3 Level 10六边形。(3) 表格基础模型上下文条件约束:核心集在推理时对预训练的表格基础模型进行条件约束,无需逐流域微调。(4) 洪水深度预测输出:模型返回查询六边形的峰值淹没深度。该流水线在三个协议下进行评估:流域内精度、跨流域留一法迁移、以及针对飓风哈维和热带风暴伊梅尔达的实际风暴验证。(示意图由ChatGPT-5.5协助生成。)  

及时的洪水深度信息支持应急管理人员和基础设施运营商在极端天气事件期间做出决策,并且还支撑下游的洪水暴露(yin2023unsupervised)、出行中断和社区韧性(yin2026deep)评估。然而,大规模生成这些信息在计算上仍然非常具有挑战性(li2025parametric)。基于物理的水动力模型,如美国陆军工程兵团水文工程中心开发的河流分析系统(HEC-RAS),为淹没深度预测提供了工程参考标准。其计算成本随模拟范围和网格分辨率快速增长,尤其是在需要筛选大量风暴事件时。因此,直接进行HEC-RAS扫描对于近实时预报或广泛的情景测试(ma2026uncovering)是不切实际的。  

基于机器学习(ML)的替代模型,训练于模拟器输出之上,已成为标准替代方案,并且一旦训练完成即可提供近乎即时的推理(bentivoglio2022deep; mosavi2018flood)。现有的替代模型研究分为两种模式。第一种模式为每个网格单元训练一个模型,虽然能以高分辨率捕捉局部动态,但产生了一个碎片化的集合,无法应用于原始网格之外(lee2024predicting)。第二种模式在单个流域的完整知识库上训练一个统一的监督模型,这能实现强大的流域内精度,但将预测器绑定到了其训练区域(zahura2020training)。两种模式共享相同的操作缺陷:每个都需要数百万条训练数据,而添加新的流域或在事件-规律发生变化后重新校准都需要一次完整的重新训练。  

基于树的梯度提升(chen2016xgboost)仍然主导着这一领域,因为深度表格方法在结构化输入上的表现仍逊于树集成(grinsztajn2022why)。深度学习在相邻的水文任务(如降雨-径流建模)上取得了引人注目的成果(kratzert2018rainfall),但对于空间分布的洪水深度替代模型,基于树的模式仍然是在实践中默认选择。  

最近,Transformer和基础模型架构已被应用于结构化的灾害管理任务,包括灾后建筑损坏分类(xiao2025damagecat)、多模态影响评估(xiao2026crisisense)以及基于图的损坏预测(esparza2026graph)。表格基础模型(TFM),如TabPFN(hollmann2025accurate)和TabICL(qu2024tabicl),提供了一条不同的路径。TFM是一个单一的Transformer,在大量多样的合成表格任务上进行预训练。它在推理时通过对一个带标签的上下文集进行条件约束来求解新任务,而非通过梯度更新。这种上下文学习(ICL)框架避免了逐任务重新训练,而一个足够强大的预训练主干可以在表格基准测试上与特定任务的监督模型相媲美。  

然而,本研究考虑的表格基础模型的上下文窗口被限制在大约10^4到10^5行(hollmann2025accurate; grinsztajn2025tabpfn25; qu2024tabicl),而单个流域的模拟知识库通常达到数百万行。因此,选择哪些行放入上下文成为了核心操作问题。随机的简单做法,如随机采样或仅基于特征的设施选址,忽略了控制洪水数据的空间自相关性和事件-幅值不平衡。因此,在此场景下为TFM构建高质量核心集依赖于将水文和地理先验知识编码到选择步骤中。图1总结了所提出的方法。  

我们提出:一个用精心构建的核心集进行条件约束的TFM,在流域级别上是一种可行的洪水深度替代模型。然后我们测试,在无泄露协议下,相同的配置能在多大程度上迁移到未参与的流域。为支持这两个问题,我们开发了一个两阶段运行的领域感知核心集构建流水线。阶段1在两个维度上对风暴事件进行分层:风暴重现期(RP)和受影响最严重的流域。这种双重分层确保了罕见的、高重现期事件及其所在流域在采样噪声中得以保留。阶段2从H3 Level 10层级六边形网格(单元边长约75米)中进行采样。选择器将静态特征空间中的设施选址覆盖与经过Z分数变换的目标深度信号相结合。对于跨流域评估,我们采用留一法(LOO)协议,其中未参与的目标流域既不提供训练行也不提供上下文。  

本文的贡献如下:  
- • 一种两阶段领域感知核心集构建流水线,结合了基于重现期和流域的事件级分层与目标感知六边形选择,将水文和地理先验编码到上下文中。  
- • 证明了使用领域感知核心集(约每个流域训练池的0.7%)进行条件约束的基础TFM,在休斯顿地区九个流域的平均R²上恢复了流域级监督参考模型98.5%的性能。  
- • 采用无泄露留一法协议,包括两种源选择模式(相邻流域与所有其他流域),表明相同的基础TFM无需重新训练即可迁移到未参与流域,且在大多数上下文大小下,其在两种模式中的表现均优于基于核心集训练的监督基线。  

---

## 2 相关工作  

### 2.1 风暴分层的重现期  

水文学区分暴雨重现期(RP)和河流重现期取决于其驱动因素。暴雨重现期按短历时降雨强度对事件进行排序,支持以本地降雨为主的城市排水设计。河流重现期按测量站点的径流大小对事件进行排序,支持以上游径流为主的河流洪水制图。两者可能对同一场风暴给出不同的排序,因此联合重现期框架同时考虑两种驱动因素,在降雨和径流共同变化的混合情景流域中更受青睐(zscheischler2018future; wahl2015compound)。所有变体共享相同的统计基础:T年一遇的风暴在任何一年出现相等或更大强度的概率为1/T。重现期支撑着洪泛区制图、水工结构设计和保险费率设定。在美国,参考曲线由NOAA Atlas 14(noaaatlas14)发布,该图将风暴持续时间和累积降雨深度在县级尺度上映射到重现期。对于监督学习洪水预测数据集,合成风暴库倾向于对中等事件进行过采样,因此有意按重现期进行分层对于防止罕见、高影响风暴在训练中被低估是必要的(bentivoglio2022deep)。  

### 2.2 核心集选择  

核心集是一个小的、加权后的数据子集,其选择目的在于使基于该子集训练或条件约束的模型表现与基于完整数据训练或条件约束的模型相似(phillips2017coresets; mirzasoleiman2020coresets; bachem2017practical)。核心集选择方法大致分为三个家族。均匀随机采样提供了一个无偏的默认选择,但在数据不平衡时覆盖特征空间的效率低下。几何方法,如设施选址(lin2011submodular; wei2015submodularity)和核心集覆盖(sener2018active),贪心地挑选最大化特征空间核覆盖的样本,提供了多样性保证但忽略了标签。目标感知方法则整合标签统计信息:基于梯度的选择器(killamsetty2021glister; killamsetty2021gradmatch)挑选梯度最接近全批次更新的样本;基于代理模型的选择器(coleman2020selection)使用更便宜的替代模型对候选项进行排序;而剪枝指标(如遗忘分数或监督分类边界)则用于区分冗余样本和信息样本(sorscher2022beyond)。  

在基础模型时代,核心集选择承担了第二个角色:选择在推理时对预训练预测器进行条件约束的上下文示例(hollmann2025accurate; thomas2024retrieval)。大多数这些方法假设样本是独立的,这一假设在地球物理应用中不成立,因为特征具有很强的自相关性,导致天真的特征空间选择会使样本在地理上聚集,从而使域的部分区域得不到表示(roberts2017cv; meyer2018improving)。  

### 2.3 用于表格预测的上下文学习  

表格基础模型(TFM)将表格预测视为上下文学习:Transformer在大量合成任务的分布上进行一次预训练,然后在推理时,通过对带标签的上下文集(X_ctx, y_ctx)进行条件约束,来预测查询集X_q的标签,无需梯度更新。这一框架源于muller2022transformers的先验数据拟合网络,并由TabPFN(hollmann2023tabpfn; hollmann2025accurate)专门应用于表格分类和回归。后续版本逐步扩展了支持的上下文规模:TabPFN-v2.5(grinsztajn2025tabpfn25)达到约5×10^4行,TabPFN-v2.6(priorlabs2025tabpfn26)将其扩展到10^5行。TabICL(qu2024tabicl)通过列后行的注意力机制,目标定位更大的上下文大小。另一分支通过这些主干增强任务特定的微调(thomas2024retrieval),最近的研究表明,对于TabPFN-v2,全微调是一个稳定的基线(rubachev2025finetuning)。迁移学习也被用于改善从有限工程数据中进行表格预测的效果(pak2023knowledge)。  

### 2.4 分布外评估  

空间分布的预测器容易面临两种不同的评估失败情况。标准随机k折交叉验证会低估空间自相关数据上的预测误差,因为训练折和测试折在特征空间和物理空间上仍然非常接近(roberts2017cv)。空间交叉验证方案,如留位置法,会保留整个空间块以打破这种污染(meyer2018improving)。另一个问题是,在训练分布之外做出的预测是否可信:meyer2021predicting将其形式化为空间模型的适用区域,而WILDS基准(koh2021wilds)则记录了机器学习中具有代表性的分布漂移情况。  

---

## 3 数据  

主要数据是MaxFloodCast HEC-RAS模拟数据库(lee2024predicting),覆盖德克萨斯州哈里斯县的九个流域(图2)。哈里斯县是大休斯顿都会统计区中最大的县,地形大致平坦,海拔范围约-12米至91米(平均海平面以上),人口超过450万。两个主要的水文系统组织该县:北部的Cypress Creek和中部及南部的Buffalo Bayou系统,两者均向东通过San Jacinto River和Ship Channel排入墨西哥湾。  

参考图注  
图2:九个休斯顿地区流域,由HEC-RAS模拟网格融合而成。底图使用contextily(https://contextily.readthedocs.io/en/latest/index.html)基于OpenStreetMap和CARTO瓦片渲染。  

该数据库包含592次合成风暴事件,通过对该地区历史风暴应用“栅格化时间序列重采样方法”生成,事件持续时间从1到33小时,每小时降雨网格分辨率约1,010米。洪水淹没深度由HEC-RAS 2D在非结构化网格(26,301个单元,名义尺寸约366米)上模拟,沿主要水道细化,并在高海拔特征处设置断裂线。我们从这个数据库中继承了单元级别的峰值淹没深度目标和每个事件的降雨元数据。本研究中的所有其他输入均独立处理。  

为了建立统一的跨流域空间单元,我们将进一步处理。

相似文章

物理信息机器学习用于短期洪水预测

arXiv cs.LG

研究人员提出了一种物理信息机器学习(PIML)框架,将水文约束整合到LSTM损失函数中,以改善短期洪水预报,特别是在数据稀缺的情况下。一种“趋势对齐”约束确保了降水与流量趋势之间的一致性,提高了纳什-苏特克利夫效率,并消除了极端事件期间的非物理预测。