SurGe:点地图中改进的表面几何
摘要
SurGe引入了一个Neighborhood Attention Decoder和一种重新制定的尺度不变梯度匹配损失,以改进前馈式3D重建中的局部表面几何精度,特别是对于薄结构。它在零样本单目几何基准测试中取得了最先进的平均排名,并在局部点图和法线度量方面表现更好。
查看缓存全文
缓存时间: 2026/06/01 23:22
论文页面 - SurGe:改进点地图中的表面几何
来源:https://huggingface.co/papers/2605.31577
我们提升了前馈三维重建中的局部精度。当前的点地图模型在处理薄结构(椅子腿、路灯等)时存在弯曲和振荡伪影问题。这些伪影肉眼易于察觉,但像 AbsRel 这样的逐点指标却难以有效捕捉。
HJuetyMW4AIHjw4 (https://cdn-uploads.huggingface.co/production/uploads/63d50ffa695c73ecef30cc34/-7zETEA-qG5AZMGtiZ-F6.jpeg)
我们采用了邻域注意力解码器(NAD)。与 DPT 风格的头类似,它跨尺度逐步解码点地图,但将基于卷积的局部混合替换为 ViT 风格块中的邻域注意力和窗口匹配的 RoPE。
HJugEuKWkAEZJWQ (https://cdn-uploads.huggingface.co/production/uploads/63d50ffa695c73ecef30cc34/-OnVAnq94qS0hNevxIp6W.jpeg)
这使得在像素分辨率下无需完全自注意力即可实现内容相关的局部混合。在实践中,它有助于处理薄结构和不连续处,同时避免了纯 ViT/MLP 解码器中常见的块状伪影。
HJu_LPzXEAAT7d1 (https://cdn-uploads.huggingface.co/production/uploads/63d50ffa695c73ecef30cc34/Z5rzxpoR-O1vewqPd4hwT.jpeg)
我们还重新构建了点地图的尺度不变梯度匹配方法。当主要全局误差为相对误差时,这类损失函数对我们效果最佳。我们的版本保留了成对尺度不变的行为,但直接适用于点而非仅适用于标量深度。
在评估方面,我们建议将点地图法线平均角度误差作为全局和局部 AbsRel 的补充指标。我们从相邻的预测三维点计算法线,并报告与真实值的角度差异。实验表明,这更符合我们的定性观感。
在零样本单目几何基准测试中,SurGe 在全局点地图 AbsRel 上取得了当前最先进方法中的最佳平均排名。更重要的是,它改进了局点地图和点地图法线指标,表明局部表面几何质量更优。这与我们定性观察到的情况一致。
HJut9e2WoAAci7c (https://cdn-uploads.huggingface.co/production/uploads/63d50ffa695c73ecef30cc34/fRIL0OhqNWjhUkSl75RGT.jpeg)
相似文章
Surflo:具有全局状态的一致3D表面流模型
Surflo是一种前馈3D重建模型,它将未定姿的RGB视图压缩成潜在标记,并通过流匹配解码出一致的3D表面点,支持可变分辨率输出,在速度上优于现有方法。
超越3D VQA:将3D空间先验注入视觉语言模型以增强几何推理
本文提出GASP框架,通过深度监督结合对比损失和深度一致性损失将几何先验注入视觉语言模型,在3D空间推理基准上取得了显著提升,且无需使用3D VQA数据。
几何至关重要:用于学习语义对应的3D基础先验
本文介绍了一个后训练框架,利用SAM3D的3D先验来改进2D基础特征中的语义对应,解决了左右混淆和重复部分等问题。该方法使用实例特定的3D重建,无需姿态注释或球面几何捷径。
用于鲁棒多视图三维重建的几何感知表示去噪
提出GARD,一种基于扩散的框架,在前馈三维重建器的特征空间中操作,从退化输入中联合恢复场景几何和高质量图像。
Sat3DGen:基于单张卫星图像的全面街景级3D场景生成
Sat3DGen采用几何优先的方法,从单张卫星图像生成街景级3D场景,通过新颖的约束条件和训练策略,提高了几何精度和照片级真实感。该方法在VIGOR-OOD基准测试上相比先前工作有显著改进。