无人知晓地理空间基础模型的最新进展

Hugging Face Daily Papers 论文

摘要

本文对152篇关于地理空间基础模型的论文进行了审查,发现严重缺乏标准化,导致无法确定最先进水平。作者提出了六项具体期望,以提高可重复性和可比性。

地理空间基础模型(GFMs)已被提出作为灾害响应、土地覆盖制图、粮食安全监测及其他高风险地球观测任务的通用骨干网络。然而,这些模型的相关已发表作品并未向审稿人或用户提供足够的信息来判断哪个模型适合特定任务。我们认为,目前无人知晓地理空间基础模型的最先进水平是什么。这些方法可能有用,但GFM文献在评估标准、训练与测试协议、权重发布或预训练控制方面的标准化程度不足,导致任何人都无法进行比较或排名。在对152篇论文的审查中,我们发现同一模型、基准和协议下存在46项横跨论文的至少10个百分点的分歧;在126篇可提取预训练数据的论文中,有94篇使用了其他论文未采用过的配置;39%的GFM论文未发布模型权重。这种社区标准的缺失是可以解决的。我们提出了六项具体期望:命名许可的权重发布、共享核心评估、复制与重新运行的基线标注、方差报告、统一的评估框架,以及数据、架构与算法的对照控制。这些差距是协调失败的结果,而非任何单个实验室的过错;包括本文作者在内的许多GFM社区成员都对此有所贡献。我们不仅限于批评社区,而是旨在提供具体步骤,以达成对如何创新GFMs的共同理解。
查看原文
查看缓存全文

缓存时间: 2026/05/18 22:28

论文页面 - 无人知晓地理空间基础模型的最新技术水平

来源:https://huggingface.co/papers/2605.12678

摘要

地理空间基础模型缺乏标准化的评估和报告实践,导致性能比较不一致,并限制了跨研究的可重复性。

地理空间基础模型(https://huggingface.co/papers?q=Geospatial%20foundation%20models)(GFMs)被提出作为通用骨干网络,用于灾害响应(https://huggingface.co/papers?q=disaster%20response)、土地利用制图(https://huggingface.co/papers?q=land-cover%20mapping)、粮食安全监测(https://huggingface.co/papers?q=food-security%20monitoring)以及其他高风险地球观测任务。然而,关于这些模型的已发表工作并未向审稿人或用户提供足够的信息来判断哪个模型适合特定任务。我们认为,目前无人知晓地理空间基础模型(https://huggingface.co/papers?q=geospatial%20foundation%20models)的最新技术水平。这些方法可能有用,但GFM文献并未充分标准化评估、训练和测试协议、已发布权重或预训练控制(https://huggingface.co/papers?q=pretraining%20controls),使任何人都无法对它们进行比较或排名。在一项涉及152篇论文的审计中,我们发现了46处同一模型、基准和协议下至少10个百分点的跨论文分歧;在可提取预训练数据的126篇论文中,有94篇使用的配置是其他论文从未使用过的;39%的GFM论文未发布模型权重(https://huggingface.co/papers?q=model%20weights)。这种社区标准的缺失是可以解决的。我们提出了六项具体期望:具名许可协议的权重发布、共享核心评估、复制与重跑基线的标注、方差报告、一个共享评估框架,以及数据、架构与算法的控制变量。这些差距是协调失败造成的,而非任何单个实验室的过错;本文作者与GFM社区中的许多其他人一样,也对此有所贡献。我们不仅仅批评社区,更旨在提供具体步骤,以期达成对如何创新GFM的共识。

查看 arXiv 页面(https://arxiv.org/abs/2605.12678)查看 PDF(https://arxiv.org/pdf/2605.12678)GitHub13(https://github.com/taylor-geospatial/gfm-leaderboard)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12678)

在你的agent中获取此论文:

hf papers read 2605.12678

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.12678 以从此页面建立链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.12678 以从此页面建立链接。

引用此论文的 Spaces0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.12678 以从此页面建立链接。

包含此论文的收藏0

无收藏包含此论文

将此论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面建立链接。

相似文章

基础模型嵌入是否提升了跨国作物产量预测的泛化能力?一项针对撒哈拉以南非洲的留一国验证研究

arXiv cs.LG

本文评估了以 Prithvi-EO 为代表的地理空间基础模型嵌入,在撒哈拉以南非洲地区预测作物产量时,相较于传统 Sentinel-2 特征是否具备跨国泛化优势。研究发现,在严格的留一国交叉验证下,冻结的嵌入特征并未显著优于光谱中位数,表明国家层面的分布偏移是主要瓶颈,而非特征表示的质量。

大语言模型几何表示鲁棒性评测

arXiv cs.CL

# 大语言模型几何表示鲁棒性评测 来源:[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系,BITS Pilani

评估基础模型在时间序列预测中的运行可行性

arXiv cs.LG

本文对基础模型在时间序列预测中的应用进行了评估,与四种操作领域中的监督学习方法进行了比较,并提出了一种复杂性路由器,用于选择性地将序列分配给最优模型类别,以平衡准确性和推理成本。