VGGT-Edit: 基于残差场预测的前馈原生3D场景编辑

Hugging Face Daily Papers 论文

摘要

VGGT-Edit 提出了一种基于深度同步文本注入和残差场预测的前馈框架,用于文本驱动的原生3D场景编辑,相较于2D提升方法,实现了更优的质量和效率。

高质量3D场景重建近期已向可泛化的前馈架构发展,使得在单次前向传播中生成复杂环境成为可能。然而,尽管这些模型在静态场景感知方面表现出色,但在应对动态人工指令方面仍存在局限,这限制了它们在交互式应用中的使用。现有编辑方法通常依赖2D提升策略,即各视图独立编辑后再提升回3D空间。这种间接流程常导致纹理模糊和几何不一致,因为2D编辑器缺乏保持跨视角结构所需的空间感知能力。为解决这些局限,我们提出VGGT-Edit——一种用于文本驱动的原生3D场景编辑的前馈框架。VGGT-Edit引入了深度同步文本注入,将语义指导与主干网络的空间姿态对齐,确保稳定的指令锚定。该语义信号随后由残差变换头处理,直接预测3D几何位移以变形场景,同时保持背景稳定。为确保高保真结果,我们使用多项目标函数监督框架,强制几何精度和跨视角一致性。我们还构建了DeltaScene数据集,这是一个通过自动化流程生成的大规模数据集,并采用3D一致性过滤以确保真值质量。实验表明,VGGT-Edit显著优于2D提升基线,产生更锐利的物体细节、更强的多视角一致性以及近乎即时的推理速度。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - VGGT-Edit: 基于前馈式残差场预测的原生3D场景编辑

来源:https://huggingface.co/papers/2605.15186 作者:

,

,

,

,

,

,

,

,

,

,

摘要

VGGT-Edit 通过深度同步文本注入和直接的几何位移预测,实现了文本引导的3D场景编辑,在质量和效率上均优于基于2D提升的方法。

高质量3D场景重建 (https://huggingface.co/papers?q=3D%20scene%20reconstruction) 近期已向可泛化的前馈架构 (https://huggingface.co/papers?q=feed-forward%20architectures) 发展,能够在单次前向传播中生成复杂环境。然而,尽管这些模型在静态场景感知方面表现出色,但在响应动态人类指令方面仍存在局限,限制了其在交互式应用中的使用。现有编辑方法通常依赖于2D提升策略 (https://huggingface.co/papers?q=2D-lifting%20strategy),即先独立编辑各个视角,再提升回3D空间。这种间接流程常导致纹理模糊和几何不一致,因为2D编辑器缺乏保持跨视角结构所需的空间感知能力。为解决这些局限,我们提出了 VGGT-Edit,一个用于文本引导的原生3D场景编辑的前馈框架。VGGT-Edit 引入了深度同步文本注入 (https://huggingface.co/papers?q=depth-synchronized%20text%20injection),将语义引导与主干网络的空间位姿对齐,确保稳定的指令锚定。该语义信号随后由残差变换头 (https://huggingface.co/papers?q=residual%20transformation%20head) 处理,直接预测3D几何位移 (https://huggingface.co/papers?q=geometric%20displacements),在保持背景稳定的同时变形场景。为确保高保真结果,我们使用多项目标函数 (https://huggingface.co/papers?q=multi-term%20objective%20function) 对框架进行监督,以强制几何精度和跨视角一致性 (https://huggingface.co/papers?q=cross-view%20consistency)。我们还构建了DeltaScene 数据集 (https://huggingface.co/papers?q=DeltaScene%20Dataset),这是一个通过自动化流水线生成的大规模数据集,并采用3D一致性过滤以确保真值质量。实验表明,VGGT-Edit 大幅优于2D提升基线,产生更清晰的物体细节、更强的多视角一致性以及近乎瞬时的推理速度。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15186) 查看 PDF (https://arxiv.org/pdf/2605.15186) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15186)

在你的智能体中获取此论文:

hf papers read 2605\.15186

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15186 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15186 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15186 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

Lite3R:一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers

Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。

先见后码:面向空间感知的教育动画生成中的视觉先验学习

arXiv cs.AI

本文介绍了 OmniManim,一个基于渲染反馈感知的框架,利用大语言模型从自然语言描述生成教育动画。它通过引入显式的视觉规划、渲染后诊断和局部修复来解决元素重叠、对齐错误等视觉缺陷,并在新构建的数据集上展示了改进的渲染质量。