AnyRecon：基于视频扩散模型的任意视角 3D 重建

Hugging Face Daily Papers 2026/04/21 00:00 论文

摘要

AnyRecon 提出了一种可扩展框架，利用具备持久场景记忆与几何感知条件的视频扩散模型，从任意稀疏输入进行 3D 重建。

稀疏视角 3D 重建对于随手拍摄的场景建模至关重要，但在非生成式方法中仍具挑战。现有扩散模型通过合成新视角缓解此问题，但往往仅以一或两帧拍摄图像为条件，限制了几何一致性，也难以扩展到大型或多样化场景。我们提出 AnyRecon，一个可从任意无序稀疏输入重建的可扩展框架，既保留显式几何控制，又支持灵活的条件帧数量。为支持长程条件，我们的方法通过前置拍摄视角缓存构建持久的全局场景记忆，并去除时序压缩，在大视角变化下保持帧级对应。除改进生成模型外，我们发现生成与重建的协同对大规模 3D 场景尤为关键。为此，我们引入几何感知条件策略，通过显式 3D 几何记忆与几何驱动的拍摄视角检索，将生成与重建紧密耦合。为保证效率，我们结合 4 步扩散蒸馏与上下文窗口稀疏注意力，将二次复杂度降低。大量实验表明，该方法在不规则输入、大视角间隔和长轨迹下均能实现稳健且可扩展的重建。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - AnyRecon：基于视频扩散模型的任意视角三维重建

来源：https://huggingface.co/papers/2604.19747

摘要

AnyRecon 利用扩散模型，从任意稀疏输入实现可扩展的三维重建，通过持久场景记忆与几何感知条件，提升几何一致性。

稀疏视角三维重建（https://huggingface.co/papers?q=Sparse-view%203D%20reconstruction）对日常拍摄建模至关重要，但对非生成式重建（https://huggingface.co/papers?q=generative%20reconstruction）仍具挑战。现有扩散方法通过合成新视角缓解此问题，但通常仅条件于一两帧，限制几何一致性，难以扩展至大场景或多样场景。我们提出 AnyRecon，一个可从任意无序稀疏输入重建的可扩展框架，保留显式几何控制，同时支持灵活的条件帧数量。为支持长程条件，方法构建持久全局场景记忆（https://huggingface.co/papers?q=global%20scene%20memory），通过前置拍摄视角缓存（https://huggingface.co/papers?q=capture%20view%20cache）实现，并移除时序压缩（https://huggingface.co/papers?q=temporal%20compression），在大视角变化下保持帧级对应。除更好的生成模型外，我们发现生成与重建的协同对大场景至关重要。因此，引入几何感知条件（https://huggingface.co/papers?q=geometry-aware%20conditioning）策略，通过显式三维几何记忆（https://huggingface.co/papers?q=3D%20geometric%20memory）与几何驱动的拍摄视角检索，耦合生成与重建。为确保效率，结合 4 步扩散蒸馏（https://huggingface.co/papers?q=diffusion%20distillation）与上下文窗口稀疏注意力（https://huggingface.co/papers?q=context-window%20sparse%20attention），降低二次复杂度。大量实验表明，在不规则输入、大视角间隔及长轨迹下，重建稳健且可扩展。

查看 arXiv 页面（https://arxiv.org/abs/2604.19747）
查看 PDF（https://arxiv.org/pdf/2604.19747）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.19747）

在本地代理中获取该论文：

hf papers read 2604.19747

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 1

Yutian10/AnyRecon 约 3 小时前更新（https://huggingface.co/Yutian10/AnyRecon）

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.19747，即可在此页面显示。

引用该论文的 Spaces 0

暂无 Spaces 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.19747，即可在此页面显示。

包含该论文的合集 0

暂无合集包含该论文

将该论文添加到合集（https://huggingface.co/new-collection），即可在此页面显示。

AnyRecon：基于视频扩散模型的任意视角 3D 重建

论文页面 - AnyRecon：基于视频扩散模型的任意视角三维重建

摘要

引用该论文的模型 1

Yutian10/AnyRecon 约 3 小时前更新（https://huggingface.co/Yutian10/AnyRecon）

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的合集 0

相似文章

用于流式 3D 重建的几何上下文 Transformer

表征先于像素：语义引导的分层视频预测

ReImagine：以图像为先的可控高质量人体视频生成新思路

TT4D：一种基于单目视频进行乒乓球4D重建的Pipeline与数据集

UniVidX：基于扩散先验的多功能视频生成统一多模态框架

提交意见反馈