用于流式 3D 重建的几何上下文 Transformer

Papers with Code Trending 2026/04/15 00:00 论文

3d-reconstruction streaming-3d transformer slam computer-vision foundation-model

摘要

介绍了 LingBot-Map，这是一种前馈式 3D 基础模型，采用几何上下文 Transformer 架构用于流式 3D 重建，能够在 20 FPS 的速率下实现稳定的实时性能。

流式 3D 重建旨在从视频流中恢复 3D 信息（例如相机位姿和点云），这需要具备几何准确性、时间一致性以及计算效率。受同时定位与建图（SLAM）原理的启发，我们提出了 LingBot-Map，这是一种用于从流式数据重建场景的前馈式 3D 基础模型，其构建基于几何上下文 Transformer（GCT）架构。LingBot-Map 的一个显著特征在于其精心设计的注意力机制，该机制整合了锚点上下文、位姿参考窗口和轨迹记忆，分别用于解决坐标定位、密集几何线索以及长程漂移校正问题。这种设计在保留丰富几何上下文的同时，保持了流式状态的紧凑性，使得在超过 10,000 帧的长序列上，针对 518 x 378 分辨率的输入能够实现约 20 FPS 的稳定高效推理。在多种基准测试上的广泛评估表明，与现有的流式方法及基于迭代优化的方法相比，我们的方法取得了更优越的性能。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:43

论文页面 - 用于流式 3D 重建的几何上下文 Transformer

来源：https://huggingface.co/papers/2604.14141

摘要

LingBot-Map 是一个前馈式 3D 基础模型，利用带有专门注意力机制的几何上下文 Transformer 架构，从视频流中重建场景。这些注意力机制针对坐标定位、密集几何线索以及长程漂移校正进行了优化，在 20 FPS 下实现了稳定的实时性能。

流式 3D 重建旨在从视频流中恢复相机姿态和点云等 3D 信息，这需要几何精度、时间一致性和计算效率。受同时定位与建图（SLAM）原理的启发，我们提出了 LingBot-Map，这是一个用于从流式数据重建场景的前馈式 3D 基础模型，构建于几何上下文 Transformer（GCT）架构之上。LingBot-Map 的一个关键特性在于其精心设计的注意力机制，该机制集成了锚点上下文、姿态参考窗口和轨迹记忆，分别用于解决坐标定位、密集几何线索和长程漂移校正问题。这种设计在保持丰富几何上下文的同时，使流式状态保持紧凑，从而在超过 10,000 帧的长序列上，以 518 x 378 的分辨率输入实现了约 20 FPS 的稳定高效推理。在各种基准上的广泛评估表明，与现有的流式和基于迭代优化的方法相比，我们的方法取得了卓越的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2604.14141)查看 PDF (https://arxiv.org/pdf/2604.14141)项目页面 (https://technology.robbyant.com/lingbot-map)GitHub 5.91k (https://github.com/robbyant/lingbot-map)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2604.14141)

在您的 Agent 中获取此论文：

hf papers read 2604.14141

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 3

robbyant/lingbot-map 更新于 12 天前 • 195 (https://huggingface.co/robbyant/lingbot-map)

agramoi/lingbot-map (https://huggingface.co/agramoi/lingbot-map)

maujim/lingbot-map-long-only 更新于 4 天前 (https://huggingface.co/maujim/lingbot-map-long-only)

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2604.14141 即可从该页面建立链接。

引用此论文的空间 5

包含此论文的收藏集 1

相似文章

robbyant/lingbot-map

Hugging Face Models Trending

LingBot-Map 是一个前馈式 3D 基础模型，用于流式 3D 重建，采用几何上下文转换器架构，在超过 10,000 帧的长序列上实现最先进的性能，并具有高效的 ~20 FPS 推理速度。

AnyRecon：基于视频扩散模型的任意视角 3D 重建

Hugging Face Daily Papers

AnyRecon 提出了一种可扩展框架，利用具备持久场景记忆与几何感知条件的视频扩散模型，从任意稀疏输入进行 3D 重建。

@FinanceYF5: This AI is powerful. LingBot-Map can convert real-time video streams into real-time 3D reconstruction. 20 FPS code + model

X AI KOLs Following

LingBot-Map is an AI model that can convert real-time video streams into real-time 3D reconstruction, running at 20 FPS with complete code and models provided.

D4RT：教会 AI 以四维视角观察世界

Google DeepMind Blog

DeepMind 推出 D4RT，一个统一的 AI 模型，用于动态 4D 场景重建与追踪，效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构，为机器人技术与 AR 应用解决复杂的空间和时序任务。

TT4D：一种基于单目视频进行乒乓球4D重建的Pipeline与数据集