OlmoEarth v1.1：更高效的模型系列

Hugging Face Blog 2026/05/19 18:38 模型

earth-observation remote-sensing vision-model transformer efficient-inference open-source huggingface

摘要

OlmoEarth v1.1 是 Allen AI 推出的一系列新型卫星图像分析模型，通过减少基于 Transformer 的模型中的令牌序列长度，在保持性能的同时将计算成本降低高达 3 倍。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/20 02:23

OlmoEarth v1.1: 更高效的模型系列

来源: https://huggingface.co/blog/allenai/olmoearth-v1-1 返回文章 (https://huggingface.co/blog)

Kyle Wiggers 的头像 (https://huggingface.co/Ai2Comms)

通过减少序列长度来提高效率
设计令牌
对于开发者
对于研究人员
开始使用

🧠 模型: https://huggingface.co/collections/allenai/olmoearth │ 📄 技术报告: https://allenai.org/papers/olmoearth_v1_1 │ 💻 代码: https://github.com/allenai/olmoearth_pretrain

OlmoEarth v11 博客及社交文案 - Google Docs-image-1 (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/4Nsn7CxsnxPkVfK5BsCHN.png)

我们在 2025 年 11 月发布了 OlmoEarth (v1)。自那以后，合作伙伴已将其广泛应用于各种任务，从追踪红树林变化、分类森林丧失的原因，到在几天内生成全国范围的作物类型地图，其部署规模覆盖了国家、大陆乃至全球。每一次发布都使我们更接近使命：将最先进的 AI 带给致力于保护人类和地球的组织和社区。

当 OlmoEarth 处理卫星影像以在数十到数十万平方公里范围内进行预测时，效率决定了可能性。在运行 OlmoEarth 的完整生命周期中——包括数据导出、预处理、推理和后处理——计算成本是最高的。更高效的模型意味着我们可以在 OlmoEarth 平台上支持更多合作伙伴，也意味着任何自行运行 OlmoEarth 的用户都能以更低成本更快地利用这项技术。

正因如此，我们构建了 OlmoEarth v1.1 (https://huggingface.co/collections/allenai/olmoearth)：一个新的模型系列，能够将计算成本降低多达 3 倍，同时在混合研究基准测试以及与合作伙伴共同构建的任务上保持与 OlmoEarth v1 相当的性能。

通过减少序列长度来提高效率

OlmoEarth 模型基于Transformer架构，这是当前机器学习的主流架构之一。为了处理遥感数据，我们首先将其转换为模型可以理解的令牌序列。

在基于 Transformer 的模型中，有两个重要杠杆控制效率：模型大小（这就是我们发布模型系列的原因，用户可以根据计算预算选择合适的大小）和令牌序列长度。计算成本与令牌序列长度成二次方比例增长，因此即使是很小的减少，也能显著降低运行模型的成本。

bench-capture-2026-05-18T14-40-39 (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/E_EJ2q5ZLbGn2dZ4j92r_.png)

MAC（乘法累加操作）估算单次模型前向传播所需的计算量；通常较低的 MAC 意味着更便宜、更快的推理。y 轴已反转，因为较低的排名分数更好。标签显示模型系列和大小。所有绘制点均使用粘贴的 MAC/排名值。

设计令牌

这引出了基于 Transformer 的遥感模型的一个重要问题：令牌应该代表什么？

以 Sentinel-2 影像为例，这是我们常用的模态之一。Sentinel-2 输入是一个具有高度和宽度（H, W 分别代表纬度和经度方向像素）、时间维度 T 以及 12 个 Sentinel-2 通道（[H, W, T, D=12]）的张量。

OlmoEarth v11 博客文案 - Google Docs-image-3 (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/mPjOTX0JVZij1-6q2DFLY.png)

目前，我们将数据分割成 基于分辨率的补丁。具体来说，我们选择一个空间补丁大小 p，并将整个 Sentinel-2 图像分割成大小为 p x p 的补丁：

OlmoEarth v11 博客及社交文案 - Google Docs-image-4 (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/-OzFWBJPTKBDXOJR2Iguw.png)

对于每个补丁，我们按时间步和分辨率各生成一个令牌。因此，一个包含 2 个时间步的 Sentinel-2 输入，每个补丁会生成 6 个令牌（2 个时间步 × 3 个分辨率：10米、20米和60米）。

总的来说，一个 [H, W, T, D=12] 的 Sentinel-2 输入将产生 H/p × W/p × T × 3 个令牌。

在每个分辨率上使用独立令牌是处理 Sentinel-2 数据时的常见技术——Galileo 和 SatMAE 都采用这种方法，并且 SatMAE 在这样做时表现出显著更好的结果。然而，这并非通用做法：CROMA 是一种无论分辨率如何，只对所有波段使用单个令牌的模型。由于令牌数量以乘法方式复合，将分辨率合并为单个令牌会产生 少三倍的令牌，并在预训练、微调和推理中带来切实的节省。

简单地以这种方式合并令牌会导致性能显著下降，包括在 m-eurosat kNN（遥感模型常用基准任务）上下降 10 个百分点。我们假设，将 Sentinel-2 波段分配到不同令牌使得 OlmoEarth 更容易建模重要的跨波段关系。

要合并令牌而不影响性能，我们需要修改预训练方案。我们在论文中详细描述了这些变化。

对于开发者

结果是得到一个以更少投入实现更多产出的模型系列。在每种尺寸上，OlmoEarth v1.1 的运行成本比 OlmoEarth v1 降低多达三倍，使每个运行 OlmoEarth 的团队都能更经济地频繁刷新全球范围的地图。如果您使用的是原始 OlmoEarth 系列中的模型，请尝试 OlmoEarth v1.1。它在计算量仅为三分之一的情况下提供与 OlmoEarth v1 相似的性能，尽管我们也观察到一些性能下降（更多详情请参阅我们的技术报告）。如果它适用于您的任务，您将在微调和推理期间看到显著的加速。

对于研究人员

预训练遥感模型具有许多自由度，这使得它们难以研究。当性能发生变化时，是架构、数据集还是预训练算法导致的？

我们在与 OlmoEarth v1 相同的数据集上训练 OlmoEarth v1.1，因此两者之间的任何差异都可以隔离不同方法论的影响。我们希望这能促进对遥感模型预训练科学原理的理解。

开始使用

查看 OlmoEarth v1.1 的权重 (https://huggingface.co/collections/allenai/olmoearth) 和训练代码 (https://github.com/allenai/olmoearth_pretrain)，包括我们的 Base、Tiny 和 Nano 模型的权重。

OlmoEarth v1.1：更高效的模型系列

OlmoEarth v1.1: 更高效的模型系列

通过减少序列长度来提高效率

设计令牌

对于开发者

对于研究人员

开始使用

相似文章

Olmo Hybrid：从理论到实践再回到理论

olmo-eval：模型开发循环的评估工作台

Oxlo.ai

TESSERA v2：扩展像素级地球基础模型

AllenAI 持续推进其 MolmoAct2 机器人模型

提交意见反馈