ViT-Up: 视觉Transformer的忠实特征上采样

Hugging Face Daily Papers 2026/06/12 00:00 论文

摘要

ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器，在任意连续图像坐标上预测特征，从而能够生成任意分辨率的密集特征图，并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器，在Cityscapes上提升了+2.07 mIoU，在SPair-71k上提升了+4.17 [email protected]。

视觉Transformer（ViT）已成为视觉表示学习的主导架构，提供了极其强大且广泛可重用的骨干特征。然而，由于全局自注意力的二次成本，ViT通常在相对较小的patch-token网格上运行，这给语义分割和深度估计等密集预测任务带来了持续瓶颈。这推动了任务无关特征上采样器的发展。尽管最近的最先进方法生成了视觉上锐利的密集表示，但它们依赖浅层图像编码器进行引导上采样，可能会引入特征泄露、碎片化和模糊。我们引入了ViT-Up，一种隐式特征上采样框架，它通过从中间ViT隐藏状态中构建逐层查询来替代外部图像引导。这使得能够在任意连续图像坐标上预测特征，同时保持与骨干特征空间的对齐。实验表明，ViT-Up在密集预测和语义对应任务上持续优于最先进的图像引导上采样器。在DINOv3-S+上，ViT-Up在Cityscapes上比先前方法提升最多+2.07 mIoU，在SPair-71k上提升+4.17 [email protected]。使用更大的DINOv3-B骨干时，这些增益提升至+3.36 mIoU和+8.09 [email protected]，表明ViT-Up随骨干容量的增加而扩展良好。

查看原文

查看缓存全文

缓存时间: 2026/06/18 15:58

论文页面 - ViT-Up：为视觉Transformer设计的忠实特征上采样器

来源：https://huggingface.co/papers/2606.14024 ViT-Up 介绍：一个最先进的、与任务无关的视觉Transformer特征上采样器。ViT-Up 在 ⭐ 任意连续图像坐标 ⭐ 上预测特征，从而能够生成任意分辨率下的密集特征图，并支持仅查询所需特征的样本感知视觉流水线。

通过在一百多万张 ImageNet-1K 图像上进行自监督特征蒸馏预训练，它让下游头直接操作于密集的 DINOv3 特征，从而支持数据受限的密集预测和细粒度对应。

ViT-Up 在密集预测和语义对应基准测试上超越了先前最先进的特征上采样器。在 DINOv3-S+ 上，ViT-Up 相较于先前方法的提升高达：

+2.07 mIoU（Cityscapes）
+4.17 [email protected]（SPair-71k）

项目页面包含预训练检查点、训练和评估代码、定量结果、定性比较、arXiv 预印本以及 Google Colab 演示：

https://vitup.papers.discuna.com/

Group 531 (2) (https://cdn-uploads.huggingface.co/production/uploads/63cb65799f78909f9f862428/oV5inyzEKSm0f5uzcpzoE.jpeg)

相似文章

UniverSat: 面向地球观测的分辨率与模态无关的Transformer

Hugging Face Daily Papers

UniverSat 引入了一种用于Vision Transformers的Universal Patch Encoder，该编码器可以在不同地球观测数据类型上实现鲁棒的、传感器无关的空间特征提取，在分类和分割基准测试上取得了优秀结果。

TIPSv2：以更强的块-文本对齐推进视觉-语言预训练

Hugging Face Daily Papers

# 论文页面 - TIPSv2：以更强的块-文本对齐推进视觉-语言预训练来源：[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间：4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [![](https://huggingface.co/avatars/05be62f5927b8586ef7cb927d47dcd83.svg)](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日作者：，，，，，，，，，，，，，，，，，## 摘要

ViT-Up: 视觉Transformer的忠实特征上采样

论文页面 - ViT-Up：为视觉Transformer设计的忠实特征上采样器

相似文章

UniverSat: 面向地球观测的分辨率与模态无关的Transformer

TIPSv2：以更强的块-文本对齐推进视觉-语言预训练

迈向一致视频几何估计

UniT：基于分组自回归Transformer的统一几何学习

利用测试时训练线性化视觉Transformer

提交意见反馈