标签
UniverSat 引入了一种用于Vision Transformers的Universal Patch Encoder,该编码器可以在不同地球观测数据类型上实现鲁棒的、传感器无关的空间特征提取,在分类和分割基准测试上取得了优秀结果。
ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器,在任意连续图像坐标上预测特征,从而能够生成任意分辨率的密集特征图,并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器,在Cityscapes上提升了+2.07 mIoU,在SPair-71k上提升了+4.17 [email protected]。
Phase Marginalization是一种事后方法,通过评估结构化补丁网格相位并聚合输出来解决Vision Transformers中依赖于相位的不稳定性。与标准基线相比,它以最小的额外成本改善了分割、深度和局部匹配性能。
本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文,提出了一种核心-外围块稀疏注意力结构,与 DINOv3 等密集自注意力方法相比,该结构提高了可扩展性和准确率。