UniverSat: 面向地球观测的分辨率与模态无关的Transformer

Hugging Face Daily Papers 论文

摘要

UniverSat 引入了一种用于Vision Transformers的Universal Patch Encoder,该编码器可以在不同地球观测数据类型上实现鲁棒的、传感器无关的空间特征提取,在分类和分割基准测试上取得了优秀结果。

Vision Transformers (ViT) 主导着计算机视觉领域。然而,它们依赖于固定的补丁投影器,这阻碍了向地球观测(EO)的迁移,因为EO中的输入模态、尺度和分辨率变化很大。我们提出了UniverSat,这是一个以Universal Patch Encoder为核心的ViT风格骨干网络,它能够将来自任意空间、光谱和时间分辨率以及来自光学和非光学传感器的补丁,通过共享权重集映射到共享的嵌入空间中。这使得可以通过自监督在异构多模态语料库上训练单个模型,从而产生鲁棒的、与传感器无关的空间特征。我们在来自GeoBench、PANGEABench和SpectralEarth的标准EO基准上的分类和分割任务中验证了该方法,取得了强劲结果。我们的代码和模型可在 https://github.com/gastruc/UniverSat 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:40

Paper page - UniverSat: 面向地球观测的分辨率与模态无关的Transformer

Source: https://huggingface.co/papers/2606.23503

摘要

UniverSat 引入了一种用于 Vision Transformer 的通用图像块编码器(Universal Patch Encoder),能够在多种地球观测数据类型上实现鲁棒且与传感器无关的空间特征提取。

Vision Transformers (https://huggingface.co/papers?q=Vision%20Transformers)(ViT)主导着计算机视觉领域。然而,它们对刚性图像块投影器 (https://huggingface.co/papers?q=patch%20projectors)的依赖阻碍了向地球观测 (https://huggingface.co/papers?q=Earth%20Observation)(EO)的迁移,因为 EO 的输入模态、尺度和分辨率变化很大。我们提出了 UniverSat,这是一种基于 ViT 风格的骨干网络,其核心是通用图像块编码器 (https://huggingface.co/papers?q=Universal%20Patch%20Encoder),能够将来自任意空间、光谱和时间分辨率,以及来自光学和非光学传感器的图像块,通过一组共享权重映射到共享嵌入空间中。这使得可以通过自监督学习 (https://huggingface.co/papers?q=self-supervision)在异质多模态语料库 (https://huggingface.co/papers?q=multimodal%20corpora)上训练单一模型,从而获得鲁棒且与传感器无关的空间特征 (https://huggingface.co/papers?q=spatial%20features)。我们在 GeoBench、PANGEABench 和 SpectralEarth 的标准 EO 基准测试中,通过分类 (https://huggingface.co/papers?q=classification)和分割 (https://huggingface.co/papers?q=segmentation)任务验证了该方法的有效性。我们的代码和模型可在 https://github.com/gastruc/UniverSat 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2606.23503)查看 PDF (https://arxiv.org/pdf/2606.23503)项目页面 (https://gastruc.github.io/universat)GitHub1 (https://github.com/gastruc/UniverSat)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.23503)

引用本文的模型1

g-astruc/UniverSat 图像特征提取• 0.2B• 更新于大约 1 小时前 • 5 • 3 (https://huggingface.co/g-astruc/UniverSat)

引用本文的数据集0

暂无链接此论文的数据集

请在数据集的 README.md 中引用 arxiv.org/abs/2606.23503 以从该页面建立链接。

引用本文的 Spaces0

暂无链接此论文的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.23503 以从该页面建立链接。

包含本文的收藏集0

暂无包含此论文的收藏集

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以从该页面建立链接。

相似文章

ViT-Up: 视觉Transformer的忠实特征上采样

Hugging Face Daily Papers

ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器,在任意连续图像坐标上预测特征,从而能够生成任意分辨率的密集特征图,并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器,在Cityscapes上提升了+2.07 mIoU,在SPair-71k上提升了+4.17 [email protected]

UniT:基于分组自回归Transformer的统一几何学习

Hugging Face Daily Papers

UniT是一种统一的几何感知前馈模型,采用分组自回归Transformer,集成了多种范式(在线/离线、多模态、长时域),同时通过自适应尺度损失和队列式KV缓存保持度量尺度精度。它在涵盖七个任务的十个基准上取得了最先进性能。