Lite3R:一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers 论文

摘要

Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。

基于 Transformer 的 3D 重建已成为从多视角观测中恢复几何和外观的强大范式,在各种具有挑战性的视觉条件下均表现出强劲的性能。随着这些模型扩展到更大的主干网络和更高分辨率的输入,提高其效率对于实际部署变得愈发重要。然而,现代 3D Transformer 流水线面临两个相互耦合的挑战:密集的多视角注意力机制产生了巨大的 token 混合开销,而低精度执行可能会 destabilize 对几何敏感的特征表示,从而降低深度、姿态和 3D 一致性。为了解决第一个挑战,我们提出了 Lite3R,这是一个模型无关的教师-学生框架,它用稀疏线性注意力(Sparse Linear Attention)替代密集注意力,在降低注意力成本的同时保留重要的几何交互。为了解决第二个挑战,我们引入了一种参数高效的 FP8 感知量化感知训练(FP8-aware QAT)策略,并结合部分注意力蒸馏,该策略冻结了绝大部分预训练主干参数,仅训练轻量级的线性分支投影层,从而在保留预训练几何先验的同时实现稳定的低精度部署。我们在 BlendedMVS 和 DTU64 数据集上对两个代表性主干网络 VGGT 和 DA3-Large 评估了 Lite3R,结果显示它显著降低了延迟(1.7-2.0 倍)和内存占用(1.9-2.4 倍),同时整体保持了具有竞争力的重建质量。这些结果表明,Lite3R 为实际应用的基于 Transformer 的 3D 重建提供了一种有效的算法-系统协同设计方法。代码:https://github.com/AIGeeksGroup/Lite3R。网站:https://aigeeksgroup.github.io/Lite3R。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 08:12

论文页面 - Lite3R: 一种模型无关的高效前馈3D重建框架

来源: https://huggingface.co/papers/2605.11354

摘要

Lite3R 通过稀疏注意力和低精度量化,在保持几何精度的同时,解决了基于 Transformer 的 3D 重建中的效率问题。

基于 Transformer 的 3D 重建 (https://huggingface.co/papers?q=Transformer-based%203D%20reconstruction) 已成为从多视角观测中恢复几何形状和外观的有力范式,在具有挑战性的视觉条件下表现出强大的性能。随着这些模型扩展到更大的主干网络和更高分辨率的输入,提高其效率对于实际部署变得越来越重要。然而,现代 3D Transformer 流水线面临两个耦合的挑战:密集多视角注意力 (https://huggingface.co/papers?q=multi-view%20attention) 造成了巨大的 token 混合开销,而低精度执行会 destabilize 对几何敏感的表示,并降低深度、姿态和 3D 一致性 (https://huggingface.co/papers?q=3D%20consistency)。为了解决第一个挑战,我们提出了 Lite3R,这是一个模型无关的教师-学生框架,用稀疏线性注意力 (https://huggingface.co/papers?q=Sparse%20Linear%20Attention) 替换密集注意力 (https://huggingface.co/papers?q=dense%20attention),在减少注意力成本的同时保留重要的几何交互。为了解决第二个挑战,我们引入了一种参数高效的 FP8 感知量化感知训练 (https://huggingface.co/papers?q=FP8-aware%20quantization-aware%20training)(FP8-aware QAT)策略,结合部分注意力蒸馏 (https://huggingface.co/papers?q=attention%20distillation),该策略冻结绝大多数预训练主干 (https://huggingface.co/papers?q=pretrained%20backbone) 参数,仅训练轻量级的线性分支投影层,从而在保留预训练几何先验 (https://huggingface.co/papers?q=geometric%20priors) 的同时实现稳定的低精度部署。我们进一步在两个代表性主干 VGGT 和 DA3-Large 上评估了 Lite3R,使用 BlendedMVS 和 DTU64 数据集,结果显示它显著降低了延迟(1.7-2.0x)和内存使用量(1.9-2.4x),同时保持了具有竞争力的整体重建质量。这些结果表明,Lite3R 为实用的基于 Transformer 的 3D 重建 (https://huggingface.co/papers?q=transformer-based%203D%20reconstruction) 提供了一种有效的算法-系统协同设计方法。代码: https://github.com/AIGeeksGroup/Lite3R。网站: https://aigeeksgroup.github.io/Lite3R。

查看 arXiv 页面 (https://arxiv.org/abs/2605.11354)查看 PDF (https://arxiv.org/pdf/2605.11354)项目页面 (https://aigeeksgroup.github.io/Lite3R)GitHub (https://github.com/AIGeeksGroup/Lite3R)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.11354)

在您的 Agent 中获取此论文:

hf papers read 2605\.11354

还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.11354 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.11354 以从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.11354 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

添加此论文到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

用于流式 3D 重建的几何上下文 Transformer

Papers with Code Trending

介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。

robbyant/lingbot-map

Hugging Face Models Trending

LingBot-Map 是一个前馈式 3D 基础模型,用于流式 3D 重建,采用几何上下文转换器架构,在超过 10,000 帧的长序列上实现最先进的性能,并具有高效的 ~20 FPS 推理速度。

Aletheia:基于梯度引导的层选择方法,实现跨架构的高效LoRA微调

arXiv cs.CL

Aletheia 提出了一种基于梯度引导的层选择方法,用于高效的 LoRA 微调。该方法通过轻量级梯度探针识别与任务相关的 Transformer 层,并选择性地应用适配器,在 14 个模型上实现了 15%-28% 的训练加速,同时保持了在 MMLU、GSM8K 和 HumanEval 基准测试中的下游性能。