RaysUp:通过几何感知射线表示的超轻量通用特征上采样

Hugging Face Daily Papers 论文

摘要

RaysUp 是一个超轻量、任务无关的特征上采样框架,利用几何感知射线域技术从低分辨率VFM输出重建高分辨率特征,以比先前工作减少84%的参数和7倍更快的推理速度实现了最先进的性能。

预训练的视觉基础模型(VFMs)因其强大的语义表示和泛化能力而成为现代计算机视觉的核心。然而,其分块或池化的输出本质上是低分辨率的,限制了它们在需要细粒度、像素级推理的任务中的有效性。现有的特征上采样方法要么降低语义保真度,要么依赖于特定VFM的重新训练和繁重的架构,从而影响了效率和可扩展性。为了解决这些挑战,我们提出了 RaysUp,一个超轻量、任务无关且与VFM无关的特征上采样框架,能够在任意分辨率下重建高分辨率特征图。与传统的2D插值或基于注意力的方案不同,RaysUp 将特征重建提升到几何感知的射线域。具体来说,我们引入了一个空间解耦引导编码器用于方向感知的引导编码,一种任意分辨率交叉注意力机制用于分辨率灵活的重建,以及一种新颖的射线位置编码(RayPE),通过6D普吕克射线坐标注入隐式3D几何先验。最后,几何感知邻域注意力模块进一步确保了内容自适应的双边聚合,同时保持了几何一致性。在多种密集预测任务上的大量实验表明,RaysUp 实现了最先进的性能,同时仅使用 AnyUp 参数的16%且提供了约7倍的推理加速。这些结果凸显了显著改善的精度-效率权衡,并将 RaysUp 确立为一种实用且可扩展的通用特征上采样解决方案。代码可在 https://github.com/MAP-RaysUp/RaysUp 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/30 15:37

论文页面 - RaysUp:基于几何感知光线表示的超轻量通用特征上采样

来源:https://huggingface.co/papers/2606.22749

摘要

RaysUp 是一个轻量级、任务无关的特征上采样框架,通过几何感知的光线域技术重构高分辨率特征,同时提升了效率与精度。

预训练视觉基础模型(Vision Foundation Models, VFMs)因其强大的语义表示能力和泛化能力,已成为现代计算机视觉的核心。然而,它们输出的分块化或池化特征分辨率天然较低,限制了在需要细粒度像素级推理的任务中的有效性。现有特征上采样方法要么降低语义保真度,要么依赖针对特定 VFM 的重新训练和庞大架构,损害了效率与可扩展性。为应对这些挑战,我们提出 RaysUp,一个超轻量、任务无关且与 VFM 无关的特征上采样框架,能够在任意分辨率下重构高分辨率特征图。与传统的 2D 插值或基于注意力的方案不同,RaysUp 将特征重构提升至几何感知的光线域。具体来说,我们引入了:用于方向感知引导编码的空间解耦引导编码器(Spatially Decoupled Guidance Encoder)、用于分辨率灵活重构的任意分辨率交叉注意力(Any-Resolution Cross-Attention)机制,以及一种新颖的光线位置编码(Ray Positional Encoding, RayPE),该编码通过 6D Plücker 光线坐标注入隐式 3D 几何先验。最后,几何感知邻域注意力(Geometry-Aware Neighborhood Attention)模块进一步确保内容自适应的双边聚合,同时保持几何一致性。在多种密集预测任务上的广泛实验表明,RaysUp 在使用仅 AnyUp 16% 参数并实现约 7 倍更快推理速度的情况下,取得了最先进的性能。这些结果凸显了显著改善的精度-效率权衡,并使 RaysUp 成为通用特征上采样的实用且可扩展的解决方案。代码可在 https://github.com/MAP-RaysUp/RaysUp 获得。

查看 arXiv 页面 (https://arxiv.org/abs/2606.22749)查看 PDF (https://arxiv.org/pdf/2606.22749)项目页面 (https://lif314.github.io/projects/raysup/)GitHub10 (https://github.com/MAP-RaysUp/RaysUp)添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2606.22749)

在你的 agent 中获取此论文:

hf papers read 2606.22749

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.22749 以从该页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.22749 以从该页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.22749 以从该页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

添加此论文到一个收藏集 (https://huggingface.co/new-collection) 以从该页面链接。

相似文章

ViT-Up: 视觉Transformer的忠实特征上采样

Hugging Face Daily Papers

ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器,在任意连续图像坐标上预测特征,从而能够生成任意分辨率的密集特征图,并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器,在Cityscapes上提升了+2.07 mIoU,在SPair-71k上提升了+4.17 [email protected]

Lite3R:一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers

Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。

SurGe:点地图中改进的表面几何

Hugging Face Daily Papers

SurGe引入了一个Neighborhood Attention Decoder和一种重新制定的尺度不变梯度匹配损失,以改进前馈式3D重建中的局部表面几何精度,特别是对于薄结构。它在零样本单目几何基准测试中取得了最先进的平均排名,并在局部点图和法线度量方面表现更好。