VGGT-Edit: 基于残差场预测的前馈原生3D场景编辑

Hugging Face Daily Papers 2026/05/14 00:00 论文

摘要

VGGT-Edit 提出了一种基于深度同步文本注入和残差场预测的前馈框架，用于文本驱动的原生3D场景编辑，相较于2D提升方法，实现了更优的质量和效率。

高质量3D场景重建近期已向可泛化的前馈架构发展，使得在单次前向传播中生成复杂环境成为可能。然而，尽管这些模型在静态场景感知方面表现出色，但在应对动态人工指令方面仍存在局限，这限制了它们在交互式应用中的使用。现有编辑方法通常依赖2D提升策略，即各视图独立编辑后再提升回3D空间。这种间接流程常导致纹理模糊和几何不一致，因为2D编辑器缺乏保持跨视角结构所需的空间感知能力。为解决这些局限，我们提出VGGT-Edit——一种用于文本驱动的原生3D场景编辑的前馈框架。VGGT-Edit引入了深度同步文本注入，将语义指导与主干网络的空间姿态对齐，确保稳定的指令锚定。该语义信号随后由残差变换头处理，直接预测3D几何位移以变形场景，同时保持背景稳定。为确保高保真结果，我们使用多项目标函数监督框架，强制几何精度和跨视角一致性。我们还构建了DeltaScene数据集，这是一个通过自动化流程生成的大规模数据集，并采用3D一致性过滤以确保真值质量。实验表明，VGGT-Edit显著优于2D提升基线，产生更锐利的物体细节、更强的多视角一致性以及近乎即时的推理速度。

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - VGGT-Edit: 基于前馈式残差场预测的原生3D场景编辑

来源：https://huggingface.co/papers/2605.15186 作者：

摘要

VGGT-Edit 通过深度同步文本注入和直接的几何位移预测，实现了文本引导的3D场景编辑，在质量和效率上均优于基于2D提升的方法。

高质量3D场景重建 (https://huggingface.co/papers?q=3D%20scene%20reconstruction) 近期已向可泛化的前馈架构 (https://huggingface.co/papers?q=feed-forward%20architectures) 发展，能够在单次前向传播中生成复杂环境。然而，尽管这些模型在静态场景感知方面表现出色，但在响应动态人类指令方面仍存在局限，限制了其在交互式应用中的使用。现有编辑方法通常依赖于2D提升策略 (https://huggingface.co/papers?q=2D-lifting%20strategy)，即先独立编辑各个视角，再提升回3D空间。这种间接流程常导致纹理模糊和几何不一致，因为2D编辑器缺乏保持跨视角结构所需的空间感知能力。为解决这些局限，我们提出了 VGGT-Edit，一个用于文本引导的原生3D场景编辑的前馈框架。VGGT-Edit 引入了深度同步文本注入 (https://huggingface.co/papers?q=depth-synchronized%20text%20injection)，将语义引导与主干网络的空间位姿对齐，确保稳定的指令锚定。该语义信号随后由残差变换头 (https://huggingface.co/papers?q=residual%20transformation%20head) 处理，直接预测3D几何位移 (https://huggingface.co/papers?q=geometric%20displacements)，在保持背景稳定的同时变形场景。为确保高保真结果，我们使用多项目标函数 (https://huggingface.co/papers?q=multi-term%20objective%20function) 对框架进行监督，以强制几何精度和跨视角一致性 (https://huggingface.co/papers?q=cross-view%20consistency)。我们还构建了DeltaScene 数据集 (https://huggingface.co/papers?q=DeltaScene%20Dataset)，这是一个通过自动化流水线生成的大规模数据集，并采用3D一致性过滤以确保真值质量。实验表明，VGGT-Edit 大幅优于2D提升基线，产生更清晰的物体细节、更强的多视角一致性以及近乎瞬时的推理速度。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15186) 查看 PDF (https://arxiv.org/pdf/2605.15186) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15186)

在你的智能体中获取此论文：

hf papers read 2605\.15186

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15186 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15186 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15186 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

VGGT-Edit: 基于残差场预测的前馈原生3D场景编辑

论文页面 - VGGT-Edit: 基于前馈式残差场预测的原生3D场景编辑

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

EVA01：通过混合变换器实现统一原生3D理解与生成

超越3D VQA：将3D空间先验注入视觉语言模型以增强几何推理

Lite3R：一种高效的模型无关前馈3D重建框架

HP-Edit：面向图像编辑的人类偏好后训练框架

先见后码：面向空间感知的教育动画生成中的视觉先验学习

提交意见反馈