SurGe:点地图中改进的表面几何

Hugging Face Daily Papers 论文

摘要

SurGe引入了一个Neighborhood Attention Decoder和一种重新制定的尺度不变梯度匹配损失,以改进前馈式3D重建中的局部表面几何精度,特别是对于薄结构。它在零样本单目几何基准测试中取得了最先进的平均排名,并在局部点图和法线度量方面表现更好。

最近的前馈式3D重建方法能够很好地预测点图并估计全局3D几何。然而,它们的预测仍然显示出不准确的局部表面几何,这在定性上清晰可见,但在常见度量中仅微弱反映。为了使这些错误在评估中更加明确,我们引入了一种点图法线度量,用于评估由邻近3D预测引起的局部表面方向。为了减少这些错误,我们提出了两个互补组件:一个点梯度匹配损失,用于监督深度归一化的3D有限差分;以及一个Neighborhood Attention Decoder (NAD),它逐步上采样特征并使用Neighborhood Attention进行局部特征混合。在八个零样本单目几何基准测试中,我们的模型SurGe在全局点图AbsRel上取得了最佳平均排名,并一致地改进了局部点图和点图法线评估。
查看原文
查看缓存全文

缓存时间: 2026/06/01 23:22

论文页面 - SurGe:改进点地图中的表面几何

来源:https://huggingface.co/papers/2605.31577
我们提升了前馈三维重建中的局部精度。当前的点地图模型在处理薄结构(椅子腿、路灯等)时存在弯曲和振荡伪影问题。这些伪影肉眼易于察觉,但像 AbsRel 这样的逐点指标却难以有效捕捉。

HJuetyMW4AIHjw4 (https://cdn-uploads.huggingface.co/production/uploads/63d50ffa695c73ecef30cc34/-7zETEA-qG5AZMGtiZ-F6.jpeg)

我们采用了邻域注意力解码器(NAD)。与 DPT 风格的头类似,它跨尺度逐步解码点地图,但将基于卷积的局部混合替换为 ViT 风格块中的邻域注意力和窗口匹配的 RoPE。

HJugEuKWkAEZJWQ (https://cdn-uploads.huggingface.co/production/uploads/63d50ffa695c73ecef30cc34/-OnVAnq94qS0hNevxIp6W.jpeg)

这使得在像素分辨率下无需完全自注意力即可实现内容相关的局部混合。在实践中,它有助于处理薄结构和不连续处,同时避免了纯 ViT/MLP 解码器中常见的块状伪影。

HJu_LPzXEAAT7d1 (https://cdn-uploads.huggingface.co/production/uploads/63d50ffa695c73ecef30cc34/Z5rzxpoR-O1vewqPd4hwT.jpeg)

我们还重新构建了点地图的尺度不变梯度匹配方法。当主要全局误差为相对误差时,这类损失函数对我们效果最佳。我们的版本保留了成对尺度不变的行为,但直接适用于点而非仅适用于标量深度。

在评估方面,我们建议将点地图法线平均角度误差作为全局和局部 AbsRel 的补充指标。我们从相邻的预测三维点计算法线,并报告与真实值的角度差异。实验表明,这更符合我们的定性观感。

在零样本单目几何基准测试中,SurGe 在全局点地图 AbsRel 上取得了当前最先进方法中的最佳平均排名。更重要的是,它改进了局点地图和点地图法线指标,表明局部表面几何质量更优。这与我们定性观察到的情况一致。

HJut9e2WoAAci7c (https://cdn-uploads.huggingface.co/production/uploads/63d50ffa695c73ecef30cc34/fRIL0OhqNWjhUkSl75RGT.jpeg)

相似文章

Surflo:具有全局状态的一致3D表面流模型

Hugging Face Daily Papers

Surflo是一种前馈3D重建模型,它将未定姿的RGB视图压缩成潜在标记,并通过流匹配解码出一致的3D表面点,支持可变分辨率输出,在速度上优于现有方法。

几何至关重要:用于学习语义对应的3D基础先验

Hugging Face Daily Papers

本文介绍了一个后训练框架,利用SAM3D的3D先验来改进2D基础特征中的语义对应,解决了左右混淆和重复部分等问题。该方法使用实例特定的3D重建,无需姿态注释或球面几何捷径。

Sat3DGen:基于单张卫星图像的全面街景级3D场景生成

Hugging Face Daily Papers

Sat3DGen采用几何优先的方法,从单张卫星图像生成街景级3D场景,通过新颖的约束条件和训练策略,提高了几何精度和照片级真实感。该方法在VIGOR-OOD基准测试上相比先前工作有显著改进。