robbyant/lingbot-map

Hugging Face Models Trending 模型

摘要

LingBot-Map 是一个前馈式 3D 基础模型,用于流式 3D 重建,采用几何上下文转换器架构,在超过 10,000 帧的长序列上实现最先进的性能,并具有高效的 ~20 FPS 推理速度。

标签: arxiv:2604.14141,地区:us
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:45

robbyant/lingbot-map · Hugging Face 来源: https://huggingface.co/robbyant/lingbot-map

LingBot-Map:用于流式3D重建的几何上下文Transformer

Robbyant Team 论文 PDF 项目 HuggingFace ModelScope 许可证

https://github.com/user-attachments/assets/fe39e095-af2c-4ec9-b68d-a8ba97e505ab


🗺️ 认识LingBot-Map!我们构建了一个用于流式3D重建的前馈3D基础模型!🏗️🌍

LingBot-Map关注以下方面:

  • 几何上下文Transformer:在单一流式框架内通过锚点上下文、姿态参考窗口和轨迹记忆,在架构上统一了坐标定位、密集几何线索和长程漂移纠正。
  • 高效流式推理:采用前馈架构和分页KV缓存注意力机制,可在518×378分辨率上以~20 FPS的速度稳定推理,处理超过10,000帧的长序列。
  • 最先进的重建效果:在多个基准上的性能优于现有的流式和基于迭代优化的方法。

⚙️ 快速开始

安装

1. 创建conda环境

conda create -n lingbot-map python=3.10 -y
conda activate lingbot-map

2. 安装PyTorch(CUDA 12.8)

pip install torch==2.9.1 torchvision==0.24.1 --index-url https://download.pytorch.org/whl/cu128

其他CUDA版本,请参见PyTorch 快速开始

3. 安装lingbot-map

pip install -e .

4. 安装FlashInfer(推荐)

FlashInfer为高效的流式推理提供分页KV缓存注意力:

# CUDA 12.8 + PyTorch 2.9
pip install flashinfer-python -i https://flashinfer.ai/whl/cu128/torch2.9/

其他CUDA/PyTorch组合,请参见FlashInfer安装

如果未安装FlashInfer,模型将使用--use_sdpa回退到SDPA(PyTorch原生注意力)。

5. 可视化依赖(可选)

pip install -e ".[vis]"

📦 模型下载

🎬 演示

从图像进行流式推理

python demo.py --model_path /path/to/checkpoint.pt \
--image_folder /path/to/images/

从视频进行流式推理

python demo.py --model_path /path/to/checkpoint.pt \
--video_path video.mp4 --fps 10

使用关键帧间隔的流式处理

使用--keyframe_interval来减少KV缓存内存,仅将每第N帧保留为关键帧。非关键帧仍会产生预测,但不会存储在缓存中。这对超过320帧的长序列很有用。

python demo.py --model_path /path/to/checkpoint.pt \
--image_folder /path/to/images/ --keyframe_interval 6

窗口推理(适用于长序列,>3000帧)

python demo.py --model_path /path/to/checkpoint.pt \
--video_path video.mp4 --fps 10 \
--mode windowed --window_size 64

天空掩膜

天空掩膜使用ONNX天空分割模型过滤重建点云中的天空点,改进室外场景的可视化质量。

设置:

# 安装onnxruntime(必需)
pip install onnxruntime # CPU
# 或
pip install onnxruntime-gpu # GPU(对大型图像集更快)

天空分割模型(skyseg.onnx)将在首次使用时自动从HuggingFace下载。

使用方法:

python demo.py --model_path /path/to/checkpoint.pt \
--image_folder /path/to/images/ --mask_sky

天空掩膜缓存在_sky_masks/中,因此后续运行会跳过重新生成。

不使用FlashInfer(SDPA回退)

python demo.py --model_path /path/to/checkpoint.pt \
--image_folder /path/to/images/ --use_sdpa

📜 许可证

本项目根据Apache License 2.0发布。详见LICENSE文件。

📖 引用

@article{chen2026geometric,
  title={Geometric Context Transformer for Streaming 3D Reconstruction},
  author={Chen, Lin-Zhuo and Gao, Jian and Chen, Yihang and Cheng, Ka Leong and Sun, Yipengjing and Hu, Liangxiao and Xue, Nan and Zhu, Xing and Shen, Yujun and Yao, Yao and Xu, Yinghao},
  journal={arXiv preprint arXiv:2604.14141},
  year={2026}
}

✨ 致谢

感谢Shangzhan Zhang、Jianyuan Wang、Yudong Jin、Christian Rupprecht和Xun Cao提供的帮助讨论和支持。本项目建立在几个优秀的开源项目之上:

相似文章

用于流式 3D 重建的几何上下文 Transformer

Papers with Code Trending

介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。

Lite3R:一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers

Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。

LiquidAI/LFM2.5-ColBERT-350M

Hugging Face Models Trending

LiquidAI 发布 LFM2.5-ColBERT-350M,这是一种后期交互多语言检索模型,同时还有一个密集双编码器变体,两者均基于 LFM2.5-350M-Base,支持 11 种语言,并设计为 RAG 管道的即插即用替代品。