OlmoEarth v1.1:更高效的模型系列

Hugging Face Blog 模型

摘要

OlmoEarth v1.1 是 Allen AI 推出的一系列新型卫星图像分析模型,通过减少基于 Transformer 的模型中的令牌序列长度,在保持性能的同时将计算成本降低高达 3 倍。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/20 02:23

OlmoEarth v1.1: 更高效的模型系列

来源: https://huggingface.co/blog/allenai/olmoearth-v1-1 返回文章 (https://huggingface.co/blog)

Kyle Wiggers 的头像 (https://huggingface.co/Ai2Comms)

🧠 模型: https://huggingface.co/collections/allenai/olmoearth │ 📄 技术报告: https://allenai.org/papers/olmoearth_v1_1 │ 💻 代码: https://github.com/allenai/olmoearth_pretrain

OlmoEarth v11 博客及社交文案 - Google Docs-image-1 (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/4Nsn7CxsnxPkVfK5BsCHN.png)

我们在 2025 年 11 月发布了 OlmoEarth (v1)。自那以后,合作伙伴已将其广泛应用于各种任务,从追踪红树林变化、分类森林丧失的原因,到在几天内生成全国范围的作物类型地图,其部署规模覆盖了国家、大陆乃至全球。每一次发布都使我们更接近使命:将最先进的 AI 带给致力于保护人类和地球的组织和社区。

OlmoEarth 处理卫星影像以在数十到数十万平方公里范围内进行预测时,效率决定了可能性。在运行 OlmoEarth 的完整生命周期中——包括数据导出、预处理、推理和后处理——计算成本是最高的。更高效的模型意味着我们可以在 OlmoEarth 平台上支持更多合作伙伴,也意味着任何自行运行 OlmoEarth 的用户都能以更低成本更快地利用这项技术。

正因如此,我们构建了 OlmoEarth v1.1 (https://huggingface.co/collections/allenai/olmoearth):一个新的模型系列,能够将计算成本降低多达 3 倍,同时在混合研究基准测试以及与合作伙伴共同构建的任务上保持与 OlmoEarth v1 相当的性能。

通过减少序列长度来提高效率

OlmoEarth 模型基于Transformer架构,这是当前机器学习的主流架构之一。为了处理遥感数据,我们首先将其转换为模型可以理解的 令牌 序列。

在基于 Transformer 的模型中,有两个重要杠杆控制效率:模型大小(这就是我们发布模型系列的原因,用户可以根据计算预算选择合适的大小)和令牌序列长度。计算成本与令牌序列长度成二次方比例增长,因此即使是很小的减少,也能显著降低运行模型的成本。

bench-capture-2026-05-18T14-40-39 (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/E_EJ2q5ZLbGn2dZ4j92r_.png)

MAC(乘法累加操作)估算单次模型前向传播所需的计算量;通常较低的 MAC 意味着更便宜、更快的推理。y 轴已反转,因为较低的排名分数更好。标签显示模型系列和大小。所有绘制点均使用粘贴的 MAC/排名值。

设计令牌

这引出了基于 Transformer 的遥感模型的一个重要问题:令牌应该代表什么?

以 Sentinel-2 影像为例,这是我们常用的模态之一。Sentinel-2 输入是一个具有高度和宽度(H, W 分别代表纬度和经度方向像素)、时间维度 T 以及 12 个 Sentinel-2 通道([H, W, T, D=12])的张量。

OlmoEarth v11 博客文案 - Google Docs-image-3 (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/mPjOTX0JVZij1-6q2DFLY.png)

目前,我们将数据分割成 基于分辨率的补丁。具体来说,我们选择一个空间补丁大小 p,并将整个 Sentinel-2 图像分割成大小为 p x p 的补丁:

OlmoEarth v11 博客及社交文案 - Google Docs-image-4 (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/-OzFWBJPTKBDXOJR2Iguw.png)

对于每个补丁,我们按时间步和分辨率各生成一个令牌。因此,一个包含 2 个时间步的 Sentinel-2 输入,每个补丁会生成 6 个令牌(2 个时间步 × 3 个分辨率:10米、20米和60米)。

总的来说,一个 [H, W, T, D=12] 的 Sentinel-2 输入将产生 H/p × W/p × T × 3 个令牌。

在每个分辨率上使用独立令牌是处理 Sentinel-2 数据时的常见技术——GalileoSatMAE 都采用这种方法,并且 SatMAE 在这样做时表现出显著更好的结果。然而,这并非通用做法:CROMA 是一种无论分辨率如何,只对所有波段使用单个令牌的模型。由于令牌数量以乘法方式复合,将分辨率合并为单个令牌会产生 少三倍的令牌,并在预训练、微调和推理中带来切实的节省。

简单地以这种方式合并令牌会导致性能显著下降,包括在 m-eurosat kNN(遥感模型常用基准任务)上下降 10 个百分点。我们假设,将 Sentinel-2 波段分配到不同令牌使得 OlmoEarth 更容易建模重要的跨波段关系。

要合并令牌而不影响性能,我们需要修改预训练方案。我们在论文中详细描述了这些变化。

对于开发者

结果是得到一个以更少投入实现更多产出的模型系列。在每种尺寸上,OlmoEarth v1.1 的运行成本比 OlmoEarth v1 降低多达三倍,使每个运行 OlmoEarth 的团队都能更经济地频繁刷新全球范围的地图。如果您使用的是原始 OlmoEarth 系列中的模型,请尝试 OlmoEarth v1.1。它在计算量仅为三分之一的情况下提供与 OlmoEarth v1 相似的性能,尽管我们也观察到一些性能下降(更多详情请参阅我们的技术报告)。如果它适用于您的任务,您将在微调和推理期间看到显著的加速。

对于研究人员

预训练遥感模型具有许多自由度,这使得它们难以研究。当性能发生变化时,是架构、数据集还是预训练算法导致的?

我们在与 OlmoEarth v1 相同的数据集上训练 OlmoEarth v1.1,因此两者之间的任何差异都可以隔离不同方法论的影响。我们希望这能促进对遥感模型预训练科学原理的理解。

开始使用

查看 OlmoEarth v1.1 的权重 (https://huggingface.co/collections/allenai/olmoearth) 和训练代码 (https://github.com/allenai/olmoearth_pretrain),包括我们的 Base、Tiny 和 Nano 模型的权重。

相似文章

Olmo Hybrid:从理论到实践再回到理论

arXiv cs.CL

本论文介绍了Olmo Hybrid,一个包含70亿参数的语言模型,结合了注意力机制和Gated DeltaNet递归层,相比纯Transformer架构展现出理论和实证优势。该工作表明混合模型具有更强的表达能力,在预训练中扩展效率更高,且性能优于可比的Transformer基线。