ViT-Up: 视觉Transformer的忠实特征上采样

Hugging Face Daily Papers 论文

摘要

ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器,在任意连续图像坐标上预测特征,从而能够生成任意分辨率的密集特征图,并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器,在Cityscapes上提升了+2.07 mIoU,在SPair-71k上提升了+4.17 [email protected]

视觉Transformer(ViT)已成为视觉表示学习的主导架构,提供了极其强大且广泛可重用的骨干特征。然而,由于全局自注意力的二次成本,ViT通常在相对较小的patch-token网格上运行,这给语义分割和深度估计等密集预测任务带来了持续瓶颈。这推动了任务无关特征上采样器的发展。尽管最近的最先进方法生成了视觉上锐利的密集表示,但它们依赖浅层图像编码器进行引导上采样,可能会引入特征泄露、碎片化和模糊。我们引入了ViT-Up,一种隐式特征上采样框架,它通过从中间ViT隐藏状态中构建逐层查询来替代外部图像引导。这使得能够在任意连续图像坐标上预测特征,同时保持与骨干特征空间的对齐。实验表明,ViT-Up在密集预测和语义对应任务上持续优于最先进的图像引导上采样器。在DINOv3-S+上,ViT-Up在Cityscapes上比先前方法提升最多+2.07 mIoU,在SPair-71k上提升+4.17 [email protected]。使用更大的DINOv3-B骨干时,这些增益提升至+3.36 mIoU和+8.09 [email protected],表明ViT-Up随骨干容量的增加而扩展良好。
查看原文
查看缓存全文

缓存时间: 2026/06/18 15:58

论文页面 - ViT-Up:为视觉Transformer设计的忠实特征上采样器

来源:https://huggingface.co/papers/2606.14024 ViT-Up 介绍:一个最先进的、与任务无关的视觉Transformer特征上采样器。ViT-Up 在 ⭐ 任意连续图像坐标 ⭐ 上预测特征,从而能够生成任意分辨率下的密集特征图,并支持仅查询所需特征的样本感知视觉流水线。

通过在一百多万张 ImageNet-1K 图像上进行自监督特征蒸馏预训练,它让下游头直接操作于密集的 DINOv3 特征,从而支持数据受限的密集预测和细粒度对应。

ViT-Up 在密集预测和语义对应基准测试上超越了先前最先进的特征上采样器。在 DINOv3-S+ 上,ViT-Up 相较于先前方法的提升高达:

项目页面包含预训练检查点、训练和评估代码、定量结果、定性比较、arXiv 预印本以及 Google Colab 演示:

https://vitup.papers.discuna.com/

Group 531 (2) (https://cdn-uploads.huggingface.co/production/uploads/63cb65799f78909f9f862428/oV5inyzEKSm0f5uzcpzoE.jpeg)

相似文章

TIPSv2:以更强的块-文本对齐推进视觉-语言预训练

Hugging Face Daily Papers

# 论文页面 - TIPSv2:以更强的块-文本对齐推进视觉-语言预训练 来源:[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间:4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [![](https://huggingface.co/avatars/05be62f5927b8586ef7cb927d47dcd83.svg)](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日 作者:,,,,,,,,,,,,,,,,,## 摘要

迈向一致视频几何估计

Hugging Face Daily Papers

ViGeo是一个基于Transformer的基础模型,使用动态分块注意力和基于补全的数据精炼框架,从视频中恢复密集且一致的3D几何,在多项任务上实现了最先进的性能。

UniT:基于分组自回归Transformer的统一几何学习

Hugging Face Daily Papers

UniT是一种统一的几何感知前馈模型,采用分组自回归Transformer,集成了多种范式(在线/离线、多模态、长时域),同时通过自适应尺度损失和队列式KV缓存保持度量尺度精度。它在涵盖七个任务的十个基准上取得了最先进性能。

利用测试时训练线性化视觉Transformer

Hugging Face Daily Papers

本文提出了一种方法,将预训练的Softmax注意力模型转换为线性复杂度的测试时训练(TTT)架构,在显著加速推理的同时,实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5,在1K分辨率下实现1.32倍加速。