LakeFM：面向水生生态系统的基础模型，使用不规则多变量多深度时间序列数据

arXiv cs.LG 2026/06/11 04:00 论文

foundation-model time-series aquatic-ecosystems machine-learning ai4science lake-modeling

摘要

LakeFM 是一个面向水生系统的基础模型，在大规模生态数据集上预训练，利用不规则多变量多深度时间序列数据预测湖泊动态，与现有模型相比取得了有竞争力的性能。

arXiv:2606.11268v1 公告类型：新摘要：理解和预测湖泊动态对于监测湖泊和水库的水质及生态系统健康至关重要。尽管机器学习方法最近已被应用于生态时间序列数据，但现有方法假设时间和深度上的规则采样，并且难以在具有异质变量、深度和观测模式的湖泊之间进行泛化。为了解决这些局限性，我们引入了 \textsc{LakeFM}，这是一个面向水生系统的基础模型，在包含模拟湖泊和观测湖泊的大规模生态数据集上进行了预训练。通过广泛的实证评估，我们表明 \textsc{LakeFM} 学习了涵盖更广泛湖泊级别特征的有意义表示，并且在预测性能上与现有的时间序列基础模型和非基础模型相比具有竞争力，通常表现更优，同时产生的预测在物理上合理，与真实湖泊动态一致。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:46

# LakeFM：利用不规则多变量多深度时间序列数据构建水生生态系统基础模型

来源：https://arxiv.org/html/2606.11268  
Sepideh Fatemi，弗吉尼亚理工大学，美国弗吉尼亚州布莱克斯堡，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected])  
Medha Sawhney，弗吉尼亚理工大学，美国弗吉尼亚州布莱克斯堡，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected])  
Kazi Sajeed Mehrab，弗吉尼亚理工大学，美国弗吉尼亚州布莱克斯堡，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected])  
Aanish Pradhan，弗吉尼亚理工大学，美国弗吉尼亚州布莱克斯堡，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected])  
Bennett J. McAfee，大谷州立大学，美国密歇根州马斯基根，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected])  
Emma Marchisin，威斯康星大学麦迪逊分校，美国威斯康星州麦迪逊，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected])  
Arka Daw，亚马逊AGI，美国华盛顿州西雅图，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected])  
Robert Ladwig，奥胡斯大学，丹麦奥胡斯，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected])  
Cayelan C. Carey，弗吉尼亚理工大学，美国弗吉尼亚州布莱克斯堡，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected])  
Paul C Hanson，威斯康星大学麦迪逊分校，美国威斯康星州麦迪逊，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected])  
及Anuj Karpatne，弗吉尼亚理工大学，美国弗吉尼亚州布莱克斯堡，[email protected] (https://arxiv.org/html/2606.11268v1/mailto:[email protected]) (2026)

###### 摘要。理解和预测湖泊动态对于监测湖泊和水库的水质与生态系统健康至关重要。虽然机器学习方法已近期应用于生态时间序列数据，但现有工作假设时间和深度上的规则采样，难以泛化到具有异质性变量、深度和观测模式的湖泊。为解决这些局限，我们提出了LakeFM，一个面向水生系统的基础模型，在大规模生态数据集（包括模拟和观测湖泊）上进行了预训练。通过广泛的经验评估，我们展示了LakeFM能够学习有意义的表征，涵盖更广泛的湖泊层级特征，并在预测性能上达到与现有时间序列基础模型和非基础模型相当甚至更优的水平，同时生成符合真实湖泊动态的物理合理预测。项目页面：abhilash-neog.github.io/lakefm.github.io/ (https://abhilash-neog.github.io/lakefm.github.io/)  
基础模型，时间序列，AI4Science  
††期刊年份:2026  
††版权:cc  
††会议:第32届ACM SIGKDD知识发现与数据挖掘会议V.2；2026年8月09–13日，韩国济州岛  
††书标题:第32届ACM SIGKDD知识发现与数据挖掘会议V.2 (KDD '26)，2026年8月09–13日，韩国济州岛  
††doi:10.1145/3770855.3819024  
††isbn:979-8-4007-2259-2/2026/08  
††ccs:计算方法 机器学习

## 1. 引言

监测湖泊和水库等内陆水体的健康对于确保地球淡水资源的可持续和公平利用至关重要。湖泊受到丰富物理和生物地球化学过程的支配，这些过程随地域和时间变化，为机器学习方法利用生态时间序列数据建模其跨深度的时间演化提供了独特机会。例如，已有越来越多关于湖泊水温建模的工作 (Daw et al.,2022 (https://arxiv.org/html/2606.11268#bib.bib8); Jia et al.,2019 (https://arxiv.org/html/2606.11268#bib.bib13); Ladwig et al.,2024 (https://arxiv.org/html/2606.11268#bib.bib14))。然而，对单一变量的建模只能提供湖泊水质控制过程复杂相互作用的部分视角，这些观测在不同湖泊之间的深度、频率、变量子集和可靠性水平上各不相同。尽管近期诸如LakeBeD-US (McAfee et al.,2025 (https://arxiv.org/html/2606.11268#bib.bib19)) 的基准测试工作已将多个监测项目的水质观测统一起来，涵盖来自21个湖泊的超过5亿次观测，涉及17个变量，但数据仍存在高度缺失值、采样频率不均以及各站点间深度和变量覆盖高度可变的问题。这种湖泊测量中的稀疏性和异质性，是真实世界环境监测的内在特性，严重限制了机器学习方法利用不规则多变量多深度时间序列数据扩展到更广泛湖泊集合的能力。

与此同时，更广泛的机器学习社区在开发时间序列基础模型方面取得了显著进展，例如Chronos 2 (Ansari et al.,2025 (https://arxiv.org/html/2606.11268#bib.bib2)) 和Moment (Goswami et al.,2024 (https://arxiv.org/html/2606.11268#bib.bib10))，它们从大规模异质语料库中学习通用时间序列预测的任务无关表征。然而，水科学领域仍然缺乏一个能够统一多个湖泊和变量信息的基础模型，以应对不规则频率和深度。此外，大多数时间序列基础模型要么只关注单变量信号，要么假设数据干净且密集采样，这在生态学中很难找到——生态数据是多变量的，并且在空间和时间上本质稀疏。尽管近期工作 (Yu et al.,2025 (https://arxiv.org/html/2606.11268#bib.bib33); Willard et al.,2022 (https://arxiv.org/html/2606.11268#bib.bib30),2021 (https://arxiv.org/html/2606.11268#bib.bib29)) 探索了为多个湖泊系统构建大规模基础模型，但它们仅限于预测少数变量，输入集固定，时间尺度规则且无缺失值。

受此差距驱动，我们提出以下问题：(1) 我们能否为水科学构建一个基础模型，使其在广泛的湖泊和变量集合上学习通用的湖泊过程，同时保留站点特定的细微特征？(2) 我们能否利用这样的基础模型，基于湖泊中任何可用的变量子集，在时间与深度上不规则观测的情况下预测湖泊动态？(3) 我们能否提取湖泊的特征表征，捕捉其静态和时变特性，从而在宏观系统尺度上揭示关于湖泊相似性和时间演化的新信息？为回答这些问题，我们提出了LakeFM，这是一个在大规模生态数据集上预训练的基础模型，包含超过150万个样本，混合了来自物理模拟的合成数据（超过1000种不同的湖泊模拟）和来自LakeBeD-US数据集中21个湖泊的真实世界观测 (McAfee et al.,2025 (https://arxiv.org/html/2606.11268#bib.bib19))，数据具有显著的稀疏性（平均60-70%）。为了稳健地处理不规则时空数据（在科学系统中很常见），LakeFM被设计为在不规则网格上运行，这不同于大多数时间预测（或时间序列）模型。具体来说，我们将数据建模为一维的事件或令牌序列，其中每个变量在特定深度和时间的观测被视为一个事件（在本文中我们称之为令牌）。每个事件/令牌通过其独特的嵌入来区分，该嵌入利用了上下文元数据，包括时间、变量和深度信息。此外，为了有效捕捉时间不变性（静态湖泊特征）和时间变异性（动态湖泊行为）因素，我们将表征空间解耦为独立的静态和动态嵌入，并在这些空间上联合优化对比学习目标和预测损失。总体而言，LakeFM旨在为湖泊生态系统的可扩展和可泛化建模迈出实际一步。我们的主要贡献如下。

1. (1) 我们提出了LakeFM，一个能够吸收不规则、多变量多深度数据的基础模型，在已见和未见湖泊上均具有竞争力的预测性能，同时展现出遵循水生物理规律的涌现能力。
2. (2) 我们通过学习到的湖泊特定嵌入，提出了关于湖泊静态特征和时间演化的新颖见解，并突出展示了LakeFM表征如何与不同的生态轴有效对齐。
3. (3) 我们展示了变量和深度遮蔽场景下的预测性能案例研究，说明LakeFM处理部分输入的能力如何揭示湖泊中变量相互作用的新见解。

## 2. 相关工作

时间序列预测模型，包括统计方法和深度学习架构如PatchTST (Nie et al.,2022 (https://arxiv.org/html/2606.11268#bib.bib21)) 和 iTransformer (Liu et al.,2023 (https://arxiv.org/html/2606.11268#bib.bib18))，在基准时间序列数据集上表现出了强劲性能。然而，这些模型是领域或数据集特定的，因此难以在生态系统或变量配置之间泛化。科学数据集，特别是生态学和环境建模中的数据集，涉及独特的挑战：缺失值、不规则采样以及跨时间和深度的多分辨率测量。像mTAN (Shukla and Marlin,2021 (https://arxiv.org/html/2606.11268#bib.bib25)) 和ContiFormer (Chen et al.,2023 (https://arxiv.org/html/2606.11268#bib.bib5)) 这样的模型试图通过神经ODE、时间嵌入或不规则网格上的注意力来解决这些问题。然而，这些方法通常是任务特定的，依赖精心设计的架构，并且不能很好扩展到大规模多湖泊或多变量生态系统。虽然像MissTSM (Neog et al.,2026 (https://arxiv.org/html/2606.11268#bib.bib20)) 这样的技术提供了一种模型不可知的方法来处理缺失值，但其计算可扩展性不高。

近期的时间序列基础模型旨在通过学习来自大规模单变量或多元信号语料库的知识，泛化到多样化的时间序列任务。例如，单变量模型包括MOMENT (Goswami et al.,2024 (https://arxiv.org/html/2606.11268#bib.bib10))、Chronos (Ansari et al.,2024 (https://arxiv.org/html/2606.11268#bib.bib3))、LPTM (Prabhakar Kamarthi and Prakash,2024 (https://arxiv.org/html/2606.11268#bib.bib22)) 等；多变量模型包括Chronos 2 (Ansari et al.,2025 (https://arxiv.org/html/2606.11268#bib.bib2))、Toto (Cohen et al.,2024 (https://arxiv.org/html/2606.11268#bib.bib6)) 等。然而，这些模型存在一定局限性。关键是，大多数当前时间序列基础模型假设数据完全观测或规则采样。虽然Chronos 2可以处理一定程度的稀疏性，但它仍不足以应对科学数据集中常见的高度不规则采样间隔。这一局限导致对外部插补方法的严重依赖。在数据显著稀疏的科学领域，像SAITS (Du et al.,2023 (https://arxiv.org/html/2606.11268#bib.bib9)) 或CSDI (Tashiro et al.,2021 (https://arxiv.org/html/2606.11268#bib.bib28)) 这样的专门插补模型，由于缺乏足够的训练信号，往往性能较差，这随后会降低下游预测模型的准确性。我们的方法通过将每个时间、变量和深度的观测视为一个令牌，从而将多变量多深度数据转换为元组列表，克服了这一局限，因此在部分观测和不规则采样条件下促进了模型训练。

## 3. 方法论

### 背景与符号说明

令 D = {D1, ..., DN} 表示 N 个湖泊的集合，其中每个湖泊 Di 包含一个多变量、多深度的时间序列：
Di = { (x_t^(i), m_t^(i), ℓ_i) }_{t=1}^{T_i}。
这里，x_t^(i) ∈ R^{V×D} 表示湖泊 i 在时间 t 的 V 个变量在 D 个深度层上的观测值。连续时间步 t 和 t+1 之间的时间间隔是不规则的，从一个湖泊到另一个湖泊动态变化（例如，从日观测到双周甚至月观测）。此外，二元掩码 m_t^(i) ∈ {0,1}^{V×D} 指示在时间 t 时变量和深度上的缺失值，ℓ_i 表示每个湖泊的分类站点特定标识符，用于对比训练。

我们将湖泊系统建模的概率预测任务表述如下：给定一个湖泊在一组变量上的 L 个不规则时间步的历史观测，目标是对其所有湖泊变量在时间范围 H 上的条件分布进行建模。为解决此问题，我们采用编码器-解码器框架，其中编码器 f_θ 首先将历史上下文 {x_t^(i)}_{t=1}^L 映射到潜在特征表示 z_i ∈ R^d。然后由解码器 g_φ 处理该特征表示，以生成湖泊变量未来分布的参数。

### LakeFM 架构

图1 (https://arxiv.org/html/2606.11268#S3.F1) 展示了 LakeFM 的架构，它作为编码器-解码器框架运行。整体框架包括四个主要组件：(i) 令牌化与嵌入，(ii) 编码器层，(iii) 静态与时间特征解缠策略，以及 (iv) 解码与基于查询的预测策略。我们在下文中对每个组件进行描述。请参阅图注。

**图1. LakeFM 概述。** 左侧显示不规则多变量、多深度时间序列数据的令牌化与嵌入。中间显示整体模型架构，包括解耦的静态和动态表示学习，结合联合预测与对比目标，右侧显示解码器。

### 3.1. 输入令牌化与嵌入

为了处理湖泊生态系统中生态数据的异质性和不规则性，我们采用如图1 (https://arxiv.org/html/2606.11268#S3.F1)(A) 所述的以令牌为中心的表征。与需要固定深度层的规则网格方法不同，我们将每个单独的测量值——无论是来自水柱特定深度（2D变量）还是地表气象驱动变量（1D变量）——视为包含时间-变量-深度信息的独特观测元组。这使得我们的模型能够自然地吸收具有不同时间间隔、变量子集和深度分辨率的数据，而无需插补或显式处理缺失数据。

**令牌化：** 我们将特定湖泊 i 的原始时间序列数据表示为一组观测 O_i，其中每个观测 o_k ∈ O_i 定义为一个元组：
o_k = (t_k, v_k, d_k, x_k)
其中 t_k 是绝对时间戳，v_k ∈ V 是变量标识符（例如，温度、溶解氧或气温），d_k ∈ R 是连续深度测量值（其中 d_k = 0 表示地表/气象变量），x_k ∈ R 是测量的标量值。每个观测 o_k ∈ C_L 被视为一个独特的令牌，其中 C_L 是包含过去 L 个时间步内所有观测的上下文集。为了形成输入序列 S，我们通过根据时间戳 t_k 对观测进行排序，将集合 C_L 展平。

LakeFM：面向水生生态系统的基础模型，使用不规则多变量多深度时间序列数据

相似文章

通过领域感知核集选择与表格基础模型实现数据高效的洪水深度预测

SurF：面向多元不规则时间序列预测的生成模型

用于时间序列预测的仅解码器基础模型

Mini-JEPA基础模型舰队赋能自主水文智能

评估基础模型在时间序列预测中的运行可行性

提交意见反馈