用于流式 3D 重建的几何上下文 Transformer
摘要
介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。
查看缓存全文
缓存时间: 2026/05/08 08:43
论文页面 - 用于流式 3D 重建的几何上下文 Transformer
来源:https://huggingface.co/papers/2604.14141
摘要
LingBot-Map 是一个前馈式 3D 基础模型,利用带有专门注意力机制的几何上下文 Transformer 架构,从视频流中重建场景。这些注意力机制针对坐标定位、密集几何线索以及长程漂移校正进行了优化,在 20 FPS 下实现了稳定的实时性能。
流式 3D 重建旨在从视频流中恢复相机姿态和点云等 3D 信息,这需要几何精度、时间一致性和计算效率。受同时定位与建图(SLAM)原理的启发,我们提出了 LingBot-Map,这是一个用于从流式数据重建场景的前馈式 3D 基础模型,构建于几何上下文 Transformer(GCT)架构之上。LingBot-Map 的一个关键特性在于其精心设计的注意力机制,该机制集成了锚点上下文、姿态参考窗口和轨迹记忆,分别用于解决坐标定位、密集几何线索和长程漂移校正问题。这种设计在保持丰富几何上下文的同时,使流式状态保持紧凑,从而在超过 10,000 帧的长序列上,以 518 x 378 的分辨率输入实现了约 20 FPS 的稳定高效推理。在各种基准上的广泛评估表明,与现有的流式和基于迭代优化的方法相比,我们的方法取得了卓越的性能。
查看 arXiv 页面 (https://arxiv.org/abs/2604.14141)查看 PDF (https://arxiv.org/pdf/2604.14141)项目页面 (https://technology.robbyant.com/lingbot-map)GitHub 5.91k (https://github.com/robbyant/lingbot-map)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2604.14141)
在您的 Agent 中获取此论文:
hf papers read 2604.14141
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 3
robbyant/lingbot-map 更新于 12 天前 • 195 (https://huggingface.co/robbyant/lingbot-map)
agramoi/lingbot-map (https://huggingface.co/agramoi/lingbot-map)
maujim/lingbot-map-long-only 更新于 4 天前 (https://huggingface.co/maujim/lingbot-map-long-only)
引用此论文的数据集 0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2604.14141 即可从该页面建立链接。
引用此论文的空间 5
包含此论文的收藏集 1
相似文章
robbyant/lingbot-map
LingBot-Map 是一个前馈式 3D 基础模型,用于流式 3D 重建,采用几何上下文转换器架构,在超过 10,000 帧的长序列上实现最先进的性能,并具有高效的 ~20 FPS 推理速度。
AnyRecon:基于视频扩散模型的任意视角 3D 重建
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
@FinanceYF5: This AI is powerful. LingBot-Map can convert real-time video streams into real-time 3D reconstruction. 20 FPS code + model
LingBot-Map is an AI model that can convert real-time video streams into real-time 3D reconstruction, running at 20 FPS with complete code and models provided.
D4RT:教会 AI 以四维视角观察世界
DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。
TT4D:一种基于单目视频进行乒乓球4D重建的Pipeline与数据集
本文介绍了TT4D,这是一种新颖的Pipeline和大规模数据集,旨在从单目视频中重建乒乓球比赛的4D场景。该方案采用独特的“先升维”策略,在进行时间分割之前,先估计乒乓球的3D轨迹和旋转,从而即使在存在遮挡的情况下也能实现稳健的重建。