UniverSat: 面向地球观测的分辨率与模态无关的Transformer

Hugging Face Daily Papers 2026/06/22 00:00 论文

摘要

UniverSat 引入了一种用于Vision Transformers的Universal Patch Encoder，该编码器可以在不同地球观测数据类型上实现鲁棒的、传感器无关的空间特征提取，在分类和分割基准测试上取得了优秀结果。

Vision Transformers (ViT) 主导着计算机视觉领域。然而，它们依赖于固定的补丁投影器，这阻碍了向地球观测（EO）的迁移，因为EO中的输入模态、尺度和分辨率变化很大。我们提出了UniverSat，这是一个以Universal Patch Encoder为核心的ViT风格骨干网络，它能够将来自任意空间、光谱和时间分辨率以及来自光学和非光学传感器的补丁，通过共享权重集映射到共享的嵌入空间中。这使得可以通过自监督在异构多模态语料库上训练单个模型，从而产生鲁棒的、与传感器无关的空间特征。我们在来自GeoBench、PANGEABench和SpectralEarth的标准EO基准上的分类和分割任务中验证了该方法，取得了强劲结果。我们的代码和模型可在 https://github.com/gastruc/UniverSat 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/23 05:40

Paper page - UniverSat: 面向地球观测的分辨率与模态无关的Transformer

Source: https://huggingface.co/papers/2606.23503

摘要

UniverSat 引入了一种用于 Vision Transformer 的通用图像块编码器（Universal Patch Encoder），能够在多种地球观测数据类型上实现鲁棒且与传感器无关的空间特征提取。

Vision Transformers (https://huggingface.co/papers?q=Vision%20Transformers)（ViT）主导着计算机视觉领域。然而，它们对刚性图像块投影器 (https://huggingface.co/papers?q=patch%20projectors)的依赖阻碍了向地球观测 (https://huggingface.co/papers?q=Earth%20Observation)（EO）的迁移，因为 EO 的输入模态、尺度和分辨率变化很大。我们提出了 UniverSat，这是一种基于 ViT 风格的骨干网络，其核心是通用图像块编码器 (https://huggingface.co/papers?q=Universal%20Patch%20Encoder)，能够将来自任意空间、光谱和时间分辨率，以及来自光学和非光学传感器的图像块，通过一组共享权重映射到共享嵌入空间中。这使得可以通过自监督学习 (https://huggingface.co/papers?q=self-supervision)在异质多模态语料库 (https://huggingface.co/papers?q=multimodal%20corpora)上训练单一模型，从而获得鲁棒且与传感器无关的空间特征 (https://huggingface.co/papers?q=spatial%20features)。我们在 GeoBench、PANGEABench 和 SpectralEarth 的标准 EO 基准测试中，通过分类 (https://huggingface.co/papers?q=classification)和分割 (https://huggingface.co/papers?q=segmentation)任务验证了该方法的有效性。我们的代码和模型可在 https://github.com/gastruc/UniverSat 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2606.23503)查看 PDF (https://arxiv.org/pdf/2606.23503)项目页面 (https://gastruc.github.io/universat)GitHub1 (https://github.com/gastruc/UniverSat)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.23503)

引用本文的模型1

g-astruc/UniverSat 图像特征提取• 0.2B• 更新于大约 1 小时前 • 5 • 3 (https://huggingface.co/g-astruc/UniverSat)

引用本文的数据集0

暂无链接此论文的数据集

请在数据集的 README.md 中引用 arxiv.org/abs/2606.23503 以从该页面建立链接。

引用本文的 Spaces0

暂无链接此论文的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.23503 以从该页面建立链接。

包含本文的收藏集0

暂无包含此论文的收藏集

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以从该页面建立链接。

UniverSat: 面向地球观测的分辨率与模态无关的Transformer

Paper page - UniverSat: 面向地球观测的分辨率与模态无关的Transformer

摘要

引用本文的模型1

g-astruc/UniverSat 图像特征提取• 0.2B• 更新于大约 1 小时前 • 5 • 3 (https://huggingface.co/g-astruc/UniverSat)

引用本文的数据集0

引用本文的 Spaces0

包含本文的收藏集0

相似文章

ViT-Up: 视觉Transformer的忠实特征上采样

UniT：基于分组自回归Transformer的统一几何学习

HADT: 一种用于自主地球观测卫星集群的异构多智能体差分Transformer

Tuna-2: 像素嵌入超越视觉编码器，实现多模态理解与生成

SEAOTTER：传感器嵌入式自编码与一次性转码实现高效重建

提交意见反馈