Lite3R:一种高效的模型无关前馈3D重建框架
摘要
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。
查看缓存全文
缓存时间: 2026/05/13 08:12
论文页面 - Lite3R: 一种模型无关的高效前馈3D重建框架
来源: https://huggingface.co/papers/2605.11354
摘要
Lite3R 通过稀疏注意力和低精度量化,在保持几何精度的同时,解决了基于 Transformer 的 3D 重建中的效率问题。
基于 Transformer 的 3D 重建 (https://huggingface.co/papers?q=Transformer-based%203D%20reconstruction) 已成为从多视角观测中恢复几何形状和外观的有力范式,在具有挑战性的视觉条件下表现出强大的性能。随着这些模型扩展到更大的主干网络和更高分辨率的输入,提高其效率对于实际部署变得越来越重要。然而,现代 3D Transformer 流水线面临两个耦合的挑战:密集多视角注意力 (https://huggingface.co/papers?q=multi-view%20attention) 造成了巨大的 token 混合开销,而低精度执行会 destabilize 对几何敏感的表示,并降低深度、姿态和 3D 一致性 (https://huggingface.co/papers?q=3D%20consistency)。为了解决第一个挑战,我们提出了 Lite3R,这是一个模型无关的教师-学生框架,用稀疏线性注意力 (https://huggingface.co/papers?q=Sparse%20Linear%20Attention) 替换密集注意力 (https://huggingface.co/papers?q=dense%20attention),在减少注意力成本的同时保留重要的几何交互。为了解决第二个挑战,我们引入了一种参数高效的 FP8 感知量化感知训练 (https://huggingface.co/papers?q=FP8-aware%20quantization-aware%20training)(FP8-aware QAT)策略,结合部分注意力蒸馏 (https://huggingface.co/papers?q=attention%20distillation),该策略冻结绝大多数预训练主干 (https://huggingface.co/papers?q=pretrained%20backbone) 参数,仅训练轻量级的线性分支投影层,从而在保留预训练几何先验 (https://huggingface.co/papers?q=geometric%20priors) 的同时实现稳定的低精度部署。我们进一步在两个代表性主干 VGGT 和 DA3-Large 上评估了 Lite3R,使用 BlendedMVS 和 DTU64 数据集,结果显示它显著降低了延迟(1.7-2.0x)和内存使用量(1.9-2.4x),同时保持了具有竞争力的整体重建质量。这些结果表明,Lite3R 为实用的基于 Transformer 的 3D 重建 (https://huggingface.co/papers?q=transformer-based%203D%20reconstruction) 提供了一种有效的算法-系统协同设计方法。代码: https://github.com/AIGeeksGroup/Lite3R。网站: https://aigeeksgroup.github.io/Lite3R。
查看 arXiv 页面 (https://arxiv.org/abs/2605.11354)查看 PDF (https://arxiv.org/pdf/2605.11354)项目页面 (https://aigeeksgroup.github.io/Lite3R)GitHub (https://github.com/AIGeeksGroup/Lite3R)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.11354)
在您的 Agent 中获取此论文:
hf papers read 2605\.11354
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.11354 以从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.11354 以从此页面链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.11354 以从此页面链接它。
包含此论文的收藏集 0
没有包含此论文的收藏集
添加此论文到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
用于流式 3D 重建的几何上下文 Transformer
介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。
robbyant/lingbot-map
LingBot-Map 是一个前馈式 3D 基础模型,用于流式 3D 重建,采用几何上下文转换器架构,在超过 10,000 帧的长序列上实现最先进的性能,并具有高效的 ~20 FPS 推理速度。
AnyRecon:基于视频扩散模型的任意视角 3D 重建
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
Aletheia:基于梯度引导的层选择方法,实现跨架构的高效LoRA微调
Aletheia 提出了一种基于梯度引导的层选择方法,用于高效的 LoRA 微调。该方法通过轻量级梯度探针识别与任务相关的 Transformer 层,并选择性地应用适配器,在 14 个模型上实现了 15%-28% 的训练加速,同时保持了在 MMLU、GSM8K 和 HumanEval 基准测试中的下游性能。
内存高效型循环Transformer:循环语言模型中的计算与内存解耦
提出内存高效型循环Transformer(MELT),这是一种新型循环大语言模型架构,通过跨循环共享单一KV缓存,并结合插值过渡与注意力对齐蒸馏的分块训练方法,实现了推理深度与内存消耗的解耦。