@IlirAliu_: 忘掉激光雷达吧。仅需一个摄像头。实时运行且开源:一个流式3D模型,实时重建场景…
摘要
LingBot-Map 是一个开源、实时流式3D重建模型,使用单个摄像头,通过前馈几何上下文转换器以约20 FPS运行,性能优于流式和离线方法。
查看缓存全文
缓存时间: 2026/06/28 06:02
忘记激光雷达吧。只需一个摄像头。实时运行,开源:一个流式3D模型,以约20 FPS实时重建场景,支持长序列。端到端。优化技巧、清理步骤?不需要。而且它超越了流式方法,甚至超过了一些离线方法。感知正在走向软件优先。更接近能够实时观察和理解世界的机器。感谢分享,@YinghaoXu1 模型:https://huggingface.co/robbyant/lingbot-map… 项目页面:https://technology.robbyant.com/lingbot-map 代码:https://github.com/Robbyant/lingbot-map… 论文:https://arxiv.org/abs/2604.14141 —— 每周机器人与AI洞察。免费订阅:http://22astronauts.com — # robbyant/lingbot-map · Hugging Face 来源:https://huggingface.co/robbyant/lingbot-map ## LingBot-Map:面向流式3D重建的几何上下文变换器 Robbyant 团队 论文 (https://arxiv.org/abs/2604.14141) PDF (https://huggingface.co/robbyant/lingbot-map/blob/main/lingbot-map_paper.pdf) 项目 (https://technology.robbyant.com/lingbot-map) HuggingFace (https://huggingface.co/robbyant/lingbot-map) ModelScope (https://www.modelscope.cn/models/Robbyant/lingbot-map) 许可证 (https://huggingface.co/robbyant/lingbot-map/blob/main/LICENSE.txt) https://github.com/user-attachments/assets/fe39e095-af2c-4ec9-b68d-a8ba97e505ab — ### https://huggingface.co/robbyant/lingbot-map#%F0%9F%97%BA%EF%B8%8F-meet-lingbot-map-weve-built-a-feed-forward-3d-foundation-model-for-streaming-3d-reconstruction-%F0%9F%8F%97%EF%B8%8F%F0%9F%8C%8D 🗺️ 认识 LingBot-Map!我们构建了一个前馈3D基础模型,用于流式3D重建!🏗️🌍 LingBot-Map 专注于: - 几何上下文变换器:在单一流式框架内,通过锚点上下文、姿态参考窗口和轨迹记忆,在架构上统一了坐标定位、密集几何线索和长程漂移校正。 - 高效流式推理:采用带分页KV缓存注意力的前馈架构,在518×378分辨率下,对超过10,000帧的长序列可实现约20 FPS的稳定推理。 - 最先进的重建效果:在多种基准测试上,无论是与现有流式方法还是迭代优化方法相比,均表现出色。 — ## https://huggingface.co/robbyant/lingbot-map#%E2%9A%99%EF%B8%8F-quick-start ⚙️ 快速开始 ## https://huggingface.co/robbyant/lingbot-map#installation 安装 1. 创建 conda 环境 bash conda create -n lingbot-map python=3.10 -y conda activate lingbot-map 2. 安装 PyTorch(CUDA 12.8) bash pip install torch==2.9.1 torchvision==0.24.1 --index-url https://download.pytorch.org/whl/cu128 > 其他 CUDA 版本,请参见 PyTorch 官方入门 (https://pytorch.org/get-started/locally/)。 3. 安装 lingbot-map bash pip install -e . 4. 安装 FlashInfer(推荐) FlashInfer 提供了分页 KV 缓存注意力,用于高效的流式推理: bash # CUDA 12.8 + PyTorch 2.9 pip install flashinfer-python -i https://flashinfer.ai/whl/cu128/torch2.9/ > 其他 CUDA/PyTorch 组合,请参见 FlashInfer 安装文档 (https://docs.flashinfer.ai/installation.html)。如果未安装 FlashInfer,模型将通过 --use_sdpa 回退到 SDPA(PyTorch 原生注意力)。 5. 可视化依赖(可选) bash pip install -e ".[vis]" ## https://huggingface.co/robbyant/lingbot-map#%F0%9F%93%A6-model-download 📦 模型下载 ## https://huggingface.co/robbyant/lingbot-map#%F0%9F%8E%AC-demo 🎬 演示 ### https://huggingface.co/robbyant/lingbot-map#streaming-inference-from-images 从图片进行流式推理 bash python demo.py --model_path /path/to/checkpoint.pt \ --image_folder /path/to/images/ ### https://huggingface.co/robbyant/lingbot-map#streaming-inference-from-video 从视频进行流式推理 bash python demo.py --model_path /path/to/checkpoint.pt \ --video_path video.mp4 --fps 10 ### https://huggingface.co/robbyant/lingbot-map#streaming-with-keyframe-interval 带关键帧间隔的流式推理 使用 --keyframe_interval 可仅将每 N 帧作为关键帧保留,从而减少 KV 缓存内存。非关键帧仍会生成预测,但不会存储在缓存中。这对于超过 320 帧的长序列很有用。 bash python demo.py --model_path /path/to/checkpoint.pt \ --image_folder /path/to/images/ --keyframe_interval 6 ### https://huggingface.co/robbyant/lingbot-map#windowed-inference-for-long-sequences-3000-frames 窗口推理(适用于长序列,>3000 帧) bash python demo.py --model_path /path/to/checkpoint.pt \ --video_path video.mp4 --fps 10 \ --mode windowed --window_size 64 ### https://huggingface.co/robbyant/lingbot-map#sky-masking 天空掩膜 天空掩膜使用一个 ONNX 天空分割模型从重建的点云中过滤掉天空点,从而提高户外场景的可视化质量。 设置: bash # 安装 onnxruntime(必需) pip install onnxruntime # CPU # 或 pip install onnxruntime-gpu # GPU(对于大图像集更快) 天空分割模型(skyseg.onnx)会在首次使用时从 HuggingFace (https://huggingface.co/JianyuanWang/skyseg/resolve/main/skyseg.onnx) 自动下载。 使用: bash python demo.py --model_path /path/to/checkpoint.pt \ --image_folder /path/to/images/ --mask_sky 天空掩膜会缓存到 _sky_masks/ 目录中,后续运行将跳过重新生成。 ### https://huggingface.co/robbyant/lingbot-map#without-flashinfer-sdpa-fallback 不使用 FlashInfer(SDPA 回退) bash python demo.py --model_path /path/to/checkpoint.pt \ --image_folder /path/to/images/ --use_sdpa ## https://huggingface.co/robbyant/lingbot-map#%F0%9F%93%9C-license 📜 许可证 本项目基于 Apache License 2.0 发布。详见 LICENSE (https://huggingface.co/robbyant/lingbot-map/blob/main/LICENSE.txt) 文件。 ## https://huggingface.co/robbyant/lingbot-map#%F0%9F%93%96-citation 📖 引用 bibtex @article{chen2026geometric, title={Geometric Context Transformer for Streaming 3D Reconstruction}, author={Chen, Lin-Zhuo and Gao, Jian and Chen, Yihang and Cheng, Ka Leong and Sun, Yipengjing and Hu, Liangxiao and Xue, Nan and Zhu, Xing and Shen, Yujun and Yao, Yao and Xu, Yinghao}, journal={arXiv preprint arXiv:2604.14141}, year={2026} } ## https://huggingface.co/robbyant/lingbot-map#%E2%9C%A8-acknowledgments ✨ 致谢 我们感谢 Shangzhan Zhang、Jianyuan Wang、Yudong Jin、Christian Rupprecht 和 Xun Cao 的有益讨论和支持。本工作基于以下几个优秀的开源项目: - VGGT (https://github.com/facebookresearch/vggt) - DINOv2 (https://github.com/facebookresearch/dinov2) - Flashinfer (https://github.com/flashinfer-ai/flashinfer) —
相似文章
robbyant/lingbot-map
LingBot-Map 是一个前馈式 3D 基础模型,用于流式 3D 重建,采用几何上下文转换器架构,在超过 10,000 帧的长序列上实现最先进的性能,并具有高效的 ~20 FPS 推理速度。
用于流式 3D 重建的几何上下文 Transformer
介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。
@FinanceYF5: This AI is powerful. LingBot-Map can convert real-time video streams into real-time 3D reconstruction. 20 FPS code + model
LingBot-Map is an AI model that can convert real-time video streams into real-time 3D reconstruction, running at 20 FPS with complete code and models provided.
我们很高兴开源 LIDARLearn [R] [D] [P]
LIDARLearn 是一个开源 PyTorch 库,用于 3D 点云深度学习,统一了 56 个预配置模型,内置交叉验证和自动生成出版级 LaTeX 报告的功能。该框架支持有监督学习、自监督学习和参数高效微调方法,适用于 ModelNet40、ShapeNet 和遥感基准等数据集。
Lite3R:一种高效的模型无关前馈3D重建框架
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。