Lite3R：一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers 2026/05/12 00:00 论文

3d-reconstruction efficiency quantization sparse-attention transformer computer-vision

摘要

Lite3R 是一个模型无关框架，通过稀疏线性注意力和 FP8 感知量化，提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时，它将延迟和内存占用降低了高达 2.4 倍。

基于 Transformer 的 3D 重建已成为从多视角观测中恢复几何和外观的强大范式，在各种具有挑战性的视觉条件下均表现出强劲的性能。随着这些模型扩展到更大的主干网络和更高分辨率的输入，提高其效率对于实际部署变得愈发重要。然而，现代 3D Transformer 流水线面临两个相互耦合的挑战：密集的多视角注意力机制产生了巨大的 token 混合开销，而低精度执行可能会 destabilize 对几何敏感的特征表示，从而降低深度、姿态和 3D 一致性。为了解决第一个挑战，我们提出了 Lite3R，这是一个模型无关的教师-学生框架，它用稀疏线性注意力（Sparse Linear Attention）替代密集注意力，在降低注意力成本的同时保留重要的几何交互。为了解决第二个挑战，我们引入了一种参数高效的 FP8 感知量化感知训练（FP8-aware QAT）策略，并结合部分注意力蒸馏，该策略冻结了绝大部分预训练主干参数，仅训练轻量级的线性分支投影层，从而在保留预训练几何先验的同时实现稳定的低精度部署。我们在 BlendedMVS 和 DTU64 数据集上对两个代表性主干网络 VGGT 和 DA3-Large 评估了 Lite3R，结果显示它显著降低了延迟（1.7-2.0 倍）和内存占用（1.9-2.4 倍），同时整体保持了具有竞争力的重建质量。这些结果表明，Lite3R 为实际应用的基于 Transformer 的 3D 重建提供了一种有效的算法-系统协同设计方法。代码：https://github.com/AIGeeksGroup/Lite3R。网站：https://aigeeksgroup.github.io/Lite3R。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 08:12

论文页面 - Lite3R: 一种模型无关的高效前馈3D重建框架

来源: https://huggingface.co/papers/2605.11354

摘要

Lite3R 通过稀疏注意力和低精度量化，在保持几何精度的同时，解决了基于 Transformer 的 3D 重建中的效率问题。

基于 Transformer 的 3D 重建 (https://huggingface.co/papers?q=Transformer-based%203D%20reconstruction) 已成为从多视角观测中恢复几何形状和外观的有力范式，在具有挑战性的视觉条件下表现出强大的性能。随着这些模型扩展到更大的主干网络和更高分辨率的输入，提高其效率对于实际部署变得越来越重要。然而，现代 3D Transformer 流水线面临两个耦合的挑战：密集多视角注意力 (https://huggingface.co/papers?q=multi-view%20attention) 造成了巨大的 token 混合开销，而低精度执行会 destabilize 对几何敏感的表示，并降低深度、姿态和 3D 一致性 (https://huggingface.co/papers?q=3D%20consistency)。为了解决第一个挑战，我们提出了 Lite3R，这是一个模型无关的教师-学生框架，用稀疏线性注意力 (https://huggingface.co/papers?q=Sparse%20Linear%20Attention) 替换密集注意力 (https://huggingface.co/papers?q=dense%20attention)，在减少注意力成本的同时保留重要的几何交互。为了解决第二个挑战，我们引入了一种参数高效的 FP8 感知量化感知训练 (https://huggingface.co/papers?q=FP8-aware%20quantization-aware%20training)（FP8-aware QAT）策略，结合部分注意力蒸馏 (https://huggingface.co/papers?q=attention%20distillation)，该策略冻结绝大多数预训练主干 (https://huggingface.co/papers?q=pretrained%20backbone) 参数，仅训练轻量级的线性分支投影层，从而在保留预训练几何先验 (https://huggingface.co/papers?q=geometric%20priors) 的同时实现稳定的低精度部署。我们进一步在两个代表性主干 VGGT 和 DA3-Large 上评估了 Lite3R，使用 BlendedMVS 和 DTU64 数据集，结果显示它显著降低了延迟（1.7-2.0x）和内存使用量（1.9-2.4x），同时保持了具有竞争力的整体重建质量。这些结果表明，Lite3R 为实用的基于 Transformer 的 3D 重建 (https://huggingface.co/papers?q=transformer-based%203D%20reconstruction) 提供了一种有效的算法-系统协同设计方法。代码: https://github.com/AIGeeksGroup/Lite3R。网站: https://aigeeksgroup.github.io/Lite3R。

查看 arXiv 页面 (https://arxiv.org/abs/2605.11354)查看 PDF (https://arxiv.org/pdf/2605.11354)项目页面 (https://aigeeksgroup.github.io/Lite3R)GitHub (https://github.com/AIGeeksGroup/Lite3R)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.11354)

在您的 Agent 中获取此论文：

hf papers read 2605\.11354

还没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.11354 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.11354 以从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.11354 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

添加此论文到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

Lite3R：一种高效的模型无关前馈3D重建框架

论文页面 - Lite3R: 一种模型无关的高效前馈3D重建框架

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

用于流式 3D 重建的几何上下文 Transformer

robbyant/lingbot-map

AnyRecon：基于视频扩散模型的任意视角 3D 重建

Aletheia：基于梯度引导的层选择方法，实现跨架构的高效LoRA微调

内存高效型循环Transformer：循环语言模型中的计算与内存解耦

提交意见反馈