标签
ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器,在任意连续图像坐标上预测特征,从而能够生成任意分辨率的密集特征图,并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器,在Cityscapes上提升了+2.07 mIoU,在SPair-71k上提升了+4.17 [email protected]。
Phase Marginalization是一种事后方法,通过评估结构化补丁网格相位并聚合输出来解决Vision Transformers中依赖于相位的不稳定性。与标准基线相比,它以最小的额外成本改善了分割、深度和局部匹配性能。