UniverSat: 面向地球观测的分辨率与模态无关的Transformer
摘要
UniverSat 引入了一种用于Vision Transformers的Universal Patch Encoder,该编码器可以在不同地球观测数据类型上实现鲁棒的、传感器无关的空间特征提取,在分类和分割基准测试上取得了优秀结果。
查看缓存全文
缓存时间: 2026/06/23 05:40
Paper page - UniverSat: 面向地球观测的分辨率与模态无关的Transformer
Source: https://huggingface.co/papers/2606.23503
摘要
UniverSat 引入了一种用于 Vision Transformer 的通用图像块编码器(Universal Patch Encoder),能够在多种地球观测数据类型上实现鲁棒且与传感器无关的空间特征提取。
Vision Transformers (https://huggingface.co/papers?q=Vision%20Transformers)(ViT)主导着计算机视觉领域。然而,它们对刚性图像块投影器 (https://huggingface.co/papers?q=patch%20projectors)的依赖阻碍了向地球观测 (https://huggingface.co/papers?q=Earth%20Observation)(EO)的迁移,因为 EO 的输入模态、尺度和分辨率变化很大。我们提出了 UniverSat,这是一种基于 ViT 风格的骨干网络,其核心是通用图像块编码器 (https://huggingface.co/papers?q=Universal%20Patch%20Encoder),能够将来自任意空间、光谱和时间分辨率,以及来自光学和非光学传感器的图像块,通过一组共享权重映射到共享嵌入空间中。这使得可以通过自监督学习 (https://huggingface.co/papers?q=self-supervision)在异质多模态语料库 (https://huggingface.co/papers?q=multimodal%20corpora)上训练单一模型,从而获得鲁棒且与传感器无关的空间特征 (https://huggingface.co/papers?q=spatial%20features)。我们在 GeoBench、PANGEABench 和 SpectralEarth 的标准 EO 基准测试中,通过分类 (https://huggingface.co/papers?q=classification)和分割 (https://huggingface.co/papers?q=segmentation)任务验证了该方法的有效性。我们的代码和模型可在 https://github.com/gastruc/UniverSat 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2606.23503)查看 PDF (https://arxiv.org/pdf/2606.23503)项目页面 (https://gastruc.github.io/universat)GitHub1 (https://github.com/gastruc/UniverSat)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.23503)
引用本文的模型1
g-astruc/UniverSat 图像特征提取• 0.2B• 更新于大约 1 小时前 • 5 • 3 (https://huggingface.co/g-astruc/UniverSat)
引用本文的数据集0
暂无链接此论文的数据集
请在数据集的 README.md 中引用 arxiv.org/abs/2606.23503 以从该页面建立链接。
引用本文的 Spaces0
暂无链接此论文的 Space
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.23503 以从该页面建立链接。
包含本文的收藏集0
暂无包含此论文的收藏集
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以从该页面建立链接。
相似文章
ViT-Up: 视觉Transformer的忠实特征上采样
ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器,在任意连续图像坐标上预测特征,从而能够生成任意分辨率的密集特征图,并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器,在Cityscapes上提升了+2.07 mIoU,在SPair-71k上提升了+4.17 [email protected]。
UniT:基于分组自回归Transformer的统一几何学习
UniT是一种统一的几何感知前馈模型,采用分组自回归Transformer,集成了多种范式(在线/离线、多模态、长时域),同时通过自适应尺度损失和队列式KV缓存保持度量尺度精度。它在涵盖七个任务的十个基准上取得了最先进性能。
HADT: 一种用于自主地球观测卫星集群的异构多智能体差分Transformer
本文提出HADT,一种基于Transformer的架构,用于异构卫星集群在执行地球观测任务时的自主资源管理,采用差分注意力和关系化令牌化机制。实验表明,该方法相较于基线有显著改进,并对不同规模的卫星集群展现出强适应性和迁移能力。
Tuna-2: 像素嵌入超越视觉编码器,实现多模态理解与生成
Tuna-2 是一个统一的多模态模型,通过直接从像素嵌入处理视觉理解与生成任务,无需预训练视觉编码器,达到了最先进的性能水平。
SEAOTTER:传感器嵌入式自编码与一次性转码实现高效重建
介绍 SEAOTTER,一种用于云机器人的压缩框架,该框架将学习到的潜在表示与标准 JPEG 兼容性相结合,在极端压缩比下实现了更快的编码/解码速度和更高的准确性。