VGGT-Edit: 基于残差场预测的前馈原生3D场景编辑
摘要
VGGT-Edit 提出了一种基于深度同步文本注入和残差场预测的前馈框架,用于文本驱动的原生3D场景编辑,相较于2D提升方法,实现了更优的质量和效率。
查看缓存全文
缓存时间: 2026/05/15 04:23
论文页面 - VGGT-Edit: 基于前馈式残差场预测的原生3D场景编辑
来源:https://huggingface.co/papers/2605.15186 作者:
,
,
,
,
,
,
,
,
,
,
摘要
VGGT-Edit 通过深度同步文本注入和直接的几何位移预测,实现了文本引导的3D场景编辑,在质量和效率上均优于基于2D提升的方法。
高质量3D场景重建 (https://huggingface.co/papers?q=3D%20scene%20reconstruction) 近期已向可泛化的前馈架构 (https://huggingface.co/papers?q=feed-forward%20architectures) 发展,能够在单次前向传播中生成复杂环境。然而,尽管这些模型在静态场景感知方面表现出色,但在响应动态人类指令方面仍存在局限,限制了其在交互式应用中的使用。现有编辑方法通常依赖于2D提升策略 (https://huggingface.co/papers?q=2D-lifting%20strategy),即先独立编辑各个视角,再提升回3D空间。这种间接流程常导致纹理模糊和几何不一致,因为2D编辑器缺乏保持跨视角结构所需的空间感知能力。为解决这些局限,我们提出了 VGGT-Edit,一个用于文本引导的原生3D场景编辑的前馈框架。VGGT-Edit 引入了深度同步文本注入 (https://huggingface.co/papers?q=depth-synchronized%20text%20injection),将语义引导与主干网络的空间位姿对齐,确保稳定的指令锚定。该语义信号随后由残差变换头 (https://huggingface.co/papers?q=residual%20transformation%20head) 处理,直接预测3D几何位移 (https://huggingface.co/papers?q=geometric%20displacements),在保持背景稳定的同时变形场景。为确保高保真结果,我们使用多项目标函数 (https://huggingface.co/papers?q=multi-term%20objective%20function) 对框架进行监督,以强制几何精度和跨视角一致性 (https://huggingface.co/papers?q=cross-view%20consistency)。我们还构建了DeltaScene 数据集 (https://huggingface.co/papers?q=DeltaScene%20Dataset),这是一个通过自动化流水线生成的大规模数据集,并采用3D一致性过滤以确保真值质量。实验表明,VGGT-Edit 大幅优于2D提升基线,产生更清晰的物体细节、更强的多视角一致性以及近乎瞬时的推理速度。
查看 arXiv 页面 (https://arxiv.org/abs/2605.15186) 查看 PDF (https://arxiv.org/pdf/2605.15186) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15186)
在你的智能体中获取此论文:
hf papers read 2605\.15186
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.15186 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.15186 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.15186 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
EVA01:通过混合变换器实现统一原生3D理解与生成
EVA01是一个统一框架,通过混合变换器架构将3D网格作为原生模态集成到多模态语言模型中,实现了先进的文本到3D生成以及长上下文多轮几何编辑。
超越3D VQA:将3D空间先验注入视觉语言模型以增强几何推理
本文提出GASP框架,通过深度监督结合对比损失和深度一致性损失将几何先验注入视觉语言模型,在3D空间推理基准上取得了显著提升,且无需使用3D VQA数据。
Lite3R:一种高效的模型无关前馈3D重建框架
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。
HP-Edit:面向图像编辑的人类偏好后训练框架
HP-Edit 提出一种后训练框架,通过 RLHF 将基于扩散的图像编辑模型与人类偏好对齐,依托全新 5 万张真实场景数据集及自动 VLM 评估器。
先见后码:面向空间感知的教育动画生成中的视觉先验学习
本文介绍了 OmniManim,一个基于渲染反馈感知的框架,利用大语言模型从自然语言描述生成教育动画。它通过引入显式的视觉规划、渲染后诊断和局部修复来解决元素重叠、对齐错误等视觉缺陷,并在新构建的数据集上展示了改进的渲染质量。