ViT-Up: 视觉Transformer的忠实特征上采样
摘要
ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器,在任意连续图像坐标上预测特征,从而能够生成任意分辨率的密集特征图,并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器,在Cityscapes上提升了+2.07 mIoU,在SPair-71k上提升了+4.17 [email protected]。
查看缓存全文
缓存时间: 2026/06/18 15:58
论文页面 - ViT-Up:为视觉Transformer设计的忠实特征上采样器
来源:https://huggingface.co/papers/2606.14024 ViT-Up 介绍:一个最先进的、与任务无关的视觉Transformer特征上采样器。ViT-Up 在 ⭐ 任意连续图像坐标 ⭐ 上预测特征,从而能够生成任意分辨率下的密集特征图,并支持仅查询所需特征的样本感知视觉流水线。
通过在一百多万张 ImageNet-1K 图像上进行自监督特征蒸馏预训练,它让下游头直接操作于密集的 DINOv3 特征,从而支持数据受限的密集预测和细粒度对应。
ViT-Up 在密集预测和语义对应基准测试上超越了先前最先进的特征上采样器。在 DINOv3-S+ 上,ViT-Up 相较于先前方法的提升高达:
- +2.07 mIoU(Cityscapes)
- +4.17 [email protected](SPair-71k)
项目页面包含预训练检查点、训练和评估代码、定量结果、定性比较、arXiv 预印本以及 Google Colab 演示:
https://vitup.papers.discuna.com/
Group 531 (2) (https://cdn-uploads.huggingface.co/production/uploads/63cb65799f78909f9f862428/oV5inyzEKSm0f5uzcpzoE.jpeg)
相似文章
UniverSat: 面向地球观测的分辨率与模态无关的Transformer
UniverSat 引入了一种用于Vision Transformers的Universal Patch Encoder,该编码器可以在不同地球观测数据类型上实现鲁棒的、传感器无关的空间特征提取,在分类和分割基准测试上取得了优秀结果。
TIPSv2:以更强的块-文本对齐推进视觉-语言预训练
# 论文页面 - TIPSv2:以更强的块-文本对齐推进视觉-语言预训练 来源:[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间:4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日 作者:,,,,,,,,,,,,,,,,,## 摘要
迈向一致视频几何估计
ViGeo是一个基于Transformer的基础模型,使用动态分块注意力和基于补全的数据精炼框架,从视频中恢复密集且一致的3D几何,在多项任务上实现了最先进的性能。
UniT:基于分组自回归Transformer的统一几何学习
UniT是一种统一的几何感知前馈模型,采用分组自回归Transformer,集成了多种范式(在线/离线、多模态、长时域),同时通过自适应尺度损失和队列式KV缓存保持度量尺度精度。它在涵盖七个任务的十个基准上取得了最先进性能。
利用测试时训练线性化视觉Transformer
本文提出了一种方法,将预训练的Softmax注意力模型转换为线性复杂度的测试时训练(TTT)架构,在显著加速推理的同时,实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5,在1K分辨率下实现1.32倍加速。