无人知晓地理空间基础模型的最新进展
摘要
本文对152篇关于地理空间基础模型的论文进行了审查,发现严重缺乏标准化,导致无法确定最先进水平。作者提出了六项具体期望,以提高可重复性和可比性。
查看缓存全文
缓存时间: 2026/05/18 22:28
论文页面 - 无人知晓地理空间基础模型的最新技术水平
来源:https://huggingface.co/papers/2605.12678
摘要
地理空间基础模型缺乏标准化的评估和报告实践,导致性能比较不一致,并限制了跨研究的可重复性。
地理空间基础模型(https://huggingface.co/papers?q=Geospatial%20foundation%20models)(GFMs)被提出作为通用骨干网络,用于灾害响应(https://huggingface.co/papers?q=disaster%20response)、土地利用制图(https://huggingface.co/papers?q=land-cover%20mapping)、粮食安全监测(https://huggingface.co/papers?q=food-security%20monitoring)以及其他高风险地球观测任务。然而,关于这些模型的已发表工作并未向审稿人或用户提供足够的信息来判断哪个模型适合特定任务。我们认为,目前无人知晓地理空间基础模型(https://huggingface.co/papers?q=geospatial%20foundation%20models)的最新技术水平。这些方法可能有用,但GFM文献并未充分标准化评估、训练和测试协议、已发布权重或预训练控制(https://huggingface.co/papers?q=pretraining%20controls),使任何人都无法对它们进行比较或排名。在一项涉及152篇论文的审计中,我们发现了46处同一模型、基准和协议下至少10个百分点的跨论文分歧;在可提取预训练数据的126篇论文中,有94篇使用的配置是其他论文从未使用过的;39%的GFM论文未发布模型权重(https://huggingface.co/papers?q=model%20weights)。这种社区标准的缺失是可以解决的。我们提出了六项具体期望:具名许可协议的权重发布、共享核心评估、复制与重跑基线的标注、方差报告、一个共享评估框架,以及数据、架构与算法的控制变量。这些差距是协调失败造成的,而非任何单个实验室的过错;本文作者与GFM社区中的许多其他人一样,也对此有所贡献。我们不仅仅批评社区,更旨在提供具体步骤,以期达成对如何创新GFM的共识。
查看 arXiv 页面(https://arxiv.org/abs/2605.12678)查看 PDF(https://arxiv.org/pdf/2605.12678)GitHub13(https://github.com/taylor-geospatial/gfm-leaderboard)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12678)
在你的agent中获取此论文:
hf papers read 2605.12678
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.12678 以从此页面建立链接。
引用此论文的数据集0
无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.12678 以从此页面建立链接。
引用此论文的 Spaces0
无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.12678 以从此页面建立链接。
包含此论文的收藏0
无收藏包含此论文
将此论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面建立链接。
相似文章
SpatialBench: 你的空间基础模型是全能选手吗?
SpatialBench是一个综合基准,用于评估跨不同领域和任务的空间基础模型,揭示了当前模型的局限性,并引入了DA-Next-5M和DA-Next以推动空间表示学习。
基础模型嵌入是否提升了跨国作物产量预测的泛化能力?一项针对撒哈拉以南非洲的留一国验证研究
本文评估了以 Prithvi-EO 为代表的地理空间基础模型嵌入,在撒哈拉以南非洲地区预测作物产量时,相较于传统 Sentinel-2 特征是否具备跨国泛化优势。研究发现,在严格的留一国交叉验证下,冻结的嵌入特征并未显著优于光谱中位数,表明国家层面的分布偏移是主要瓶颈,而非特征表示的质量。
大语言模型几何表示鲁棒性评测
# 大语言模型几何表示鲁棒性评测 来源:[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系,BITS Pilani
评估基础模型在时间序列预测中的运行可行性
本文对基础模型在时间序列预测中的应用进行了评估,与四种操作领域中的监督学习方法进行了比较,并提出了一种复杂性路由器,用于选择性地将序列分配给最优模型类别,以平衡准确性和推理成本。
世界模型:架构、方法、推理范式与应用的全面综述
关于世界模型的全面综述,提供了一个多轴分类体系,涵盖架构、方法、推理策略以及跨AI领域的应用,包括Dreamer、MuZero和Sora等关键系统。