dense-prediction

#dense-prediction

ViT-Up: Faithful Feature Upsampling for Vision Transformers

Hugging Face Daily Papers ↗ · 2026-06-12 Cached

ViT-Up introduces a task-agnostic feature upsampler for Vision Transformers that predicts features at arbitrary continuous image coordinates, enabling dense feature maps at any resolution and improving dense prediction and semantic correspondence benchmarks. It outperforms prior state-of-the-art upsamplers, with gains of up to +2.07 mIoU on Cityscapes and +4.17 [email protected] on SPair-71k.

0 favorites 0 likes

#dense-prediction

Phase Marginalization for Patch-Grid Instability in Vision Transformers

Hugging Face Daily Papers ↗ · 2026-06-06 Cached

Phase Marginalization is a post-hoc method that addresses phase-dependent instability in Vision Transformers by evaluating structured patch-grid phases and aggregating outputs. It improves segmentation, depth, and local matching over the canonical baseline with minimal extra cost.

0 favorites 0 likes

dense-prediction

ViT-Up: Faithful Feature Upsampling for Vision Transformers

Phase Marginalization for Patch-Grid Instability in Vision Transformers

Submit Feedback