用于流式 3D 重建的几何上下文 Transformer

Papers with Code Trending 论文

摘要

介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。

流式 3D 重建旨在从视频流中恢复 3D 信息(例如相机位姿和点云),这需要具备几何准确性、时间一致性以及计算效率。受同时定位与建图(SLAM)原理的启发,我们提出了 LingBot-Map,这是一种用于从流式数据重建场景的前馈式 3D 基础模型,其构建基于几何上下文 Transformer(GCT)架构。LingBot-Map 的一个显著特征在于其精心设计的注意力机制,该机制整合了锚点上下文、位姿参考窗口和轨迹记忆,分别用于解决坐标定位、密集几何线索以及长程漂移校正问题。这种设计在保留丰富几何上下文的同时,保持了流式状态的紧凑性,使得在超过 10,000 帧的长序列上,针对 518 x 378 分辨率的输入能够实现约 20 FPS 的稳定高效推理。在多种基准测试上的广泛评估表明,与现有的流式方法及基于迭代优化的方法相比,我们的方法取得了更优越的性能。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:43

论文页面 - 用于流式 3D 重建的几何上下文 Transformer

来源:https://huggingface.co/papers/2604.14141

摘要

LingBot-Map 是一个前馈式 3D 基础模型,利用带有专门注意力机制的几何上下文 Transformer 架构,从视频流中重建场景。这些注意力机制针对坐标定位、密集几何线索以及长程漂移校正进行了优化,在 20 FPS 下实现了稳定的实时性能。

流式 3D 重建旨在从视频流中恢复相机姿态和点云等 3D 信息,这需要几何精度、时间一致性和计算效率。受同时定位与建图(SLAM)原理的启发,我们提出了 LingBot-Map,这是一个用于从流式数据重建场景的前馈式 3D 基础模型,构建于几何上下文 Transformer(GCT)架构之上。LingBot-Map 的一个关键特性在于其精心设计的注意力机制,该机制集成了锚点上下文、姿态参考窗口和轨迹记忆,分别用于解决坐标定位、密集几何线索和长程漂移校正问题。这种设计在保持丰富几何上下文的同时,使流式状态保持紧凑,从而在超过 10,000 帧的长序列上,以 518 x 378 的分辨率输入实现了约 20 FPS 的稳定高效推理。在各种基准上的广泛评估表明,与现有的流式和基于迭代优化的方法相比,我们的方法取得了卓越的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2604.14141)查看 PDF (https://arxiv.org/pdf/2604.14141)项目页面 (https://technology.robbyant.com/lingbot-map)GitHub 5.91k (https://github.com/robbyant/lingbot-map)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2604.14141)

在您的 Agent 中获取此论文:

hf papers read 2604.14141

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 3

robbyant/lingbot-map 更新于 12 天前 • 195 (https://huggingface.co/robbyant/lingbot-map)

agramoi/lingbot-map (https://huggingface.co/agramoi/lingbot-map)

maujim/lingbot-map-long-only 更新于 4 天前 (https://huggingface.co/maujim/lingbot-map-long-only)

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2604.14141 即可从该页面建立链接。

引用此论文的空间 5

包含此论文的收藏集 1

相似文章

robbyant/lingbot-map

Hugging Face Models Trending

LingBot-Map 是一个前馈式 3D 基础模型,用于流式 3D 重建,采用几何上下文转换器架构,在超过 10,000 帧的长序列上实现最先进的性能,并具有高效的 ~20 FPS 推理速度。

D4RT:教会 AI 以四维视角观察世界

Google DeepMind Blog

DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。

TT4D:一种基于单目视频进行乒乓球4D重建的Pipeline与数据集

Hugging Face Daily Papers

本文介绍了TT4D,这是一种新颖的Pipeline和大规模数据集,旨在从单目视频中重建乒乓球比赛的4D场景。该方案采用独特的“先升维”策略,在进行时间分割之前,先估计乒乓球的3D轨迹和旋转,从而即使在存在遮挡的情况下也能实现稳健的重建。