CoIn:基于Gaussian Splatting引导的全面2D-3D修复
摘要
本文介绍CoIn,一种新颖的3D场景修复框架,通过多阶段一致性流水线连接2D扩散模型与3D Gaussian Splatting,支持灵活遮罩下的物体移除与插入。
arXiv:2606.27584v1 公告类型:交叉
摘要:3D场景修复对于重建因遮挡或视角有限而损坏的区域至关重要。近期方法利用Gaussian Splatting(GS)实现高效3D编辑,但通常依赖精确的多视图分割遮罩,且固有地局限于物体移除任务。我们提出CoIn,一种新颖的框架,通过多阶段一致性流水线连接2D修复模型与3DGS。我们的方法首先利用扩散模型生成初始修复图像,从而支持任意形状遮罩及物体插入等多样化任务。随后引入带有特征注意力的参考自适应GS(Reference Adaptive GS),通过自适应地偏向参考视图(2D→3D)来重建粗略的3D场景。该3D表示通过基于GS的参考特征扭曲(GS-based Reference Feature Warping)为扩散过程提供几何指导,确保多视图一致性(3D→2D)。最后,纹理增强判别器(Texture-Enhancing Discriminator)优化3D场景以实现高光度真实感(2D→3D)。实验表明,CoIn有效利用双向信息流,实现了最先进的性能,并能在灵活遮罩输入下处理物体移除与插入任务。
查看缓存全文
缓存时间: 2026/06/29 05:29
# CoIn: 基于高斯泼溅引导的综合2D-3D修复
来源:https://arxiv.org/html/2606.27584
11institutetext:LG Electronics, Seoul, South Korea11email:hana1106\.kim@lge\.com22institutetext:KAIST, Daejeon, South Korea22email:\{minjekim, kimtaekyun\}@kaist\.ac\.kr###### 摘要
3D场景修复对于重建因遮挡或有限视角而损坏的区域至关重要。尽管近期方法利用高斯泼溅(GS)实现高效的3D编辑,但它们通常依赖于精确的多视图分割掩码,并且固有地局限于物体移除任务。我们提出CoIn,一种新颖框架,通过多阶段一致性流水线桥接2D修复模型和3DGS。我们的方法首先使用扩散模型生成初始修复图像,从而能够使用任意形状的掩码并执行物体插入等多样化任务。然后,我们引入带有特征注意力的参考自适应GS,通过自适应地加权参考视图(2D→→3D)来重建粗糙的3D场景。该3D表示通过基于GS的参考特征扭曲为扩散过程提供几何引导,确保多视图一致性(3D→→2D)。最后,纹理增强判别器对3D场景进行细化,以实现高光度真实性(2D→→3D)。实验表明,CoIn有效利用双向信息流,取得了最先进的性能,并且在灵活掩码输入下有效处理物体移除和物体插入任务。
![[未加说明的图像]](https://arxiv.org/html/2606.27584v1/x1.png)
图1:不一致掩码对3D优先 vs. 2D优先流水线的关键影响。(a) 先前工作通常采用3D优先流水线,在跨视图的2D分割掩码不一致时常常失败,导致过度移除区域和错误的三维分割。(b) 相比之下,CoIn采用2D优先流水线,在高斯泼溅引导下综合集成2D和3D修复分支。这种方法确保了空间和语义一致性,能够使用任意形状的掩码,并支持物体移除和插入等多种任务 (c)。
## 1 引言
修复3D场景对于重建因遮挡、传感器噪声或有限视角而产生的不完整或损坏场景至关重要。近期生成模型的进展将此范围从简单的物体移除扩展到编辑和物体插入。为实现这一点,各种方法直接优化神经辐射场(NeRF)[mildenhall2020nerf],并使用RGB和深度[mirzaei2023spin]或基于扩散的[chen2024mvip]先验。然而,NeRF的隐式表示阻碍了直接的几何操作,需要复杂的体积优化才能进行精确的移除、插入或形状编辑。
为了进行更具几何性和高效性的编辑,后续方法[wang2024learning,ye2024gaussian,shi2025imfine,huang20253d,wu2025aurafusion360]采用“3D优先”流水线,即首先从原始图像重建3D高斯泼溅(3DGS)[kerbl20233d]场景以提供结构基础,然后再进行修复。然而,这种顺序需要在多个视图上获得精确的分割掩码(例如,从SAM2[ravi2024sam]获得),以便在3D空间中精确隔离目标区域。此外,通过修剪这些重建高斯来启动修复的方法(如IMFine[shi2025imfine]、3DGIC[huang20253d]和AuraFusion[wu2025aurafusion360])固有地局限于移除任务。虽然GScream[wang2024learning]避免了初始修剪,但它仅基于单个2D修复参考图像,这限制了其在较大视点变化下保持一致性的能力。
相比之下,“2D优先”流水线表示一种策略,优先在多个视图上进行2D修复,然后利用3D信息(如光流[cao2024mvinpainter]或网格[barda2025instant3dit])来确保生成图像之间的一致性。尽管像MVInpainter[cao2024mvinpainter]或Instant3dit[barda2025instant3dit]这样的流水线受益于2D生成模型的多样化编辑能力,但它们通常依赖于使用精炼数据集进行微调,或需要额外的精确3D标签。
我们提出一种新颖框架,结合了2D优先流水线的灵活性与3DGS的高效优化。通过集成这些方法,我们的方法支持任意形状的掩码,并以高效率处理多样化的修复任务。通过使用来自参考自适应GS的3D先验引导2D修复器来维护多视图一致性,同时纹理增强判别器进一步细化光度真实性。我们通过物体移除和插入任务的定量和定性实验来展示我们的方法。总之,我们的贡献如下:
- • 我们提出CoIn,一种新颖框架,通过多阶段流水线无缝桥接生成式2D合成和显式3D重建。
- • 我们引入带有特征注意力的参考自适应高斯泼溅(Ref-GS),它分配自适应权重给每个视图,以优化3DGS朝向参考视点。
- • 我们提出一致性损失引导(CLG),在去噪过程中利用基于GS的参考特征扭曲,强制与参考图像的3D一致性。
- • 纹理增强判别器(TE-D)通过学习真实图像块的分布,减轻生成块的模糊性。
## 2 相关工作
### 2.1 2D图像修复
2D修复是指利用可见区域的上下文线索重建图像中缺失或被掩蔽区域的任务。早期方法主要通过复制附近内容来填充缺失区域,通常导致视觉上不一致的补全[efros1999texture]。随着在数据集上训练的神经网络的到来,近期方法[wang2024gridformer,lugmayr2022repaint,ju2024brushnet,saharia2022palette,wang2023towards]使用了卷积网络(如GAN[yu2022high])、傅里叶卷积[suvorov2022resolution]或小波分解[jeevan2023wavepaint]的组合。
同时,基于扩散的模型因其能够产生多样化且高度可行的结果而被广泛用于2D修复[saharia2022palette,lugmayr2022repaint]。RePaint[lugmayr2022repaint]通过使用图像的已知区域作为条件来扩展无条件DDPM的概念,使得去噪过程能够对未知区域进行修复。近期方法[ju2024brushnet,wang2023towards]将潜在扩散模型[rombach2022high]应用于修复任务。稳定扩散(SD)修复流水线[rombach2022high]将掩蔽图像作为输入,并直接在潜在空间中进行去噪,实现更快的推理同时产生合理且逼真的结果。
然而,使用纯2D图像修复器而不加任何额外修改时,去噪过程中的随机采样会导致多视图图像中即使很小的视点变化也产生严重不一致的结果,即使是对于相同的图像也是如此。这些不一致性不适用于后续的3D重建,会导致不准确的几何和模糊。虽然多种方法[deng2023mv,shi2023mvdream,poole2022dreamfusion,tang2024lgm,ai2024dream360,liu2023zero,shen2023anything,barda2025instant3dit,zhuang2024tip,cao2024mvinpainter,weber2024nerfiller,kim2025srhand]考虑了2D生成和编辑的3D一致性,但它们通常表现出计算效率与结构灵活性之间的权衡。具体来说,MVInpainter[cao2024mvinpainter]和NeRFiller[weber2024nerfiller]尝试通过光流监督或共享网格先验来强制一致性;然而,这些方法在掩码形状灵活性、输出分辨率或需要按数据集进行适配方面仍然存在局限性。
### 2.2 潜在扩散模型的引导
存在多种策略[kim2024arbitrary,wang2025lldiffusion,ho2022classifier]使扩散模型能够执行特定任务或适应特定领域,具体包括微调[hu2022lora]、结合预训练适配器[ye2023ip,mou2024t2i]或注入引导[bansal2023universal,yu2023freedom,song2023loss]以将模型与所需任务或数据集对齐。然而,微调或训练适配器通常依赖于特定任务的训练数据,这限制了每场景适配的灵活性。
相反,基于引导的控制方法[bansal2023universal,yu2023freedom,song2023loss]在推理时间向去噪过程引入附加控制信号。FreeDoM[yuk2023freedom]制定了一个能量函数,用于衡量给定条件\(c\)与带噪中间结果\(x_t\)之间的距离。通过在去噪步骤中最小化能量函数的值,扩散模型可以在无需额外训练的情况下生成期望结果。我们的方法利用基于引导的控制来生成3D一致的修复图像。我们将已训练的3DGS的引导纳入修复扩散模型的能量函数中。
### 2.3 3D场景修复
基于NeRF的3D修复方法[mirzaei2023spin,chen2024mvip,lin2024taming]最近通过优化一个隐式辐射场表现出强大性能,该场可以从多视图观测中合成缺失的几何和外观。然而,隐式公式通常涉及大量计算和漫长的训练/渲染时间,并且显式局部编辑通常需要重新优化或复杂的体素过程,限制了实际应用。
随着3D高斯泼溅(3DGS)[kerbl20233d]的出现,许多后续方法使用基于点的场景表示显式地在3D空间中进行修复[ye2024gaussian,shi2025imfine,wang2024learning,huang20253d,wu2025aurafusion360]。它们通常获得一张参考图像作为修复3D场景的引导。然而,GScream[wang2024learning]仅依赖单个参考视图,该视图不与其他视点图像协作,因此与参考视图的较大偏差会导致3D修复失败。相比之下,3D优先流水线直接在3D中移除物体,并使用如拉普拉斯平滑等线索扭曲参考图像来完成几何,从而处理较大的视点变化[shi2025imfine,huang20253d,wu2025aurafusion360]。虽然高效,但它们依赖于高精度的2D分割掩码来跨密集视图一致地指定目标对象。如图1(https://arxiv.org/html/2606.27584#S0.F1)所示,在掩码缺乏3D一致性的情况下,分割区域在3D空间中对齐不良。这导致几何上不一致的补全或意外删除非目标区域,并降低3D稳定性。此外,这些流水线主要设计用于物体移除而非通用修复任务,例如插入。
据我们所知,CoIn代表了一种综合框架,通过集成2D模型的生成能力与3D高斯泼溅的显式表示,建立了关联的修复流水线。我们的框架CoIn旨在同时利用2D和3D的优势:2D修复分支使得在任意形状掩码下进行语义上有意义的编辑成为可能,而显式3D修复分支则确保了严格的多视图一致性。与3D优先流水线不同,CoIn不需要精确的分割掩码,并同时支持移除和插入,同时避免了常见于2D多视图修复中的跨视图不一致问题。
## 3 预备知识
#### 3D高斯泼溅。
3D高斯泼溅(3DGS)[kerbl20233d]是一种显式的基于点的场景表示,其中每个高斯原语由其中心位置μ、旋转矩阵R、尺度S、颜色c和不透明度α参数化。每个高斯的协方差矩阵定义为Σ=R S S^T R^⊤,高斯由下式表示:
\( G(x) = \exp\left(-\frac{1}{2}(x-\mu)^\top \Sigma^{-1}(x-\mu)\right) \) (1)
训练通过最小化渲染图像\(R_n\)与真实RGB图像\(I_n\)之间的\(L_1\)和\(L_{SSIM}\)的组合来进行:
\( \mathcal{L}_R(R_n, I_n) = (1-\lambda) \mathcal{L}_1 + \lambda(1-\mathcal{L}_{SSIM}) \) (2)
#### Scaffold-GS。
与原始3DGS直接优化分布高斯的参数不同,Scaffold-GS[lu2024scaffold]采用了一种轻量级的基于锚点的结构。每个锚点有一个可学习的特征嵌入(锚点特征),紧凑的MLP将该嵌入解码为其体素定义局部区域内的神经高斯属性。这种层次化设计通过在锚点级别进行密集化来减少冗余,实现与原始3DGS相当的渲染质量。稀疏锚点结构还允许高效的点基引导来维持跨视图的几何对应关系,而锚点特征允许在3D中直接应用注意力,从而便于3D修复。我们采用它作为表示3D场景的基础模型,并提出一种高效的物体处理方案。
参见说明文字图2:CoIn概览。我们从初始2D修复结果开始,并应用带有特征注意力的参考GS获得粗糙的修复3D场景。然后,我们对冻结的潜在扩散修复模型使用基于GS参考特征扭曲的一致性损失引导,最终将一致性保持的结果用于微调3D高斯泼溅场景\(G\),并使用纹理增强判别器以获得逼真的细节。
## 4 方法
### 4.1 一致的2D-3D修复
#### 概述。
我们的方法旨在从一组包含物体的输入图像\(\{I_n\}_{n=1}^N\)及其对应的掩码\(\{M_n\}_{n=1}^N\)中实现3D一致的修复。我们从通过SD修复模型获得的初始修复结果\(\{\hat{I}_n\}_{n=1}^N\)开始,该模型为每个图像生成视觉上合理的补全,但未能实现跨视图的一致性。为解决这个问题,我们从这些初始结果构建一个3D高斯场景,并对其进行精炼以强制多视图一致性,同时保留细节。
图2(https://arxiv.org/html/2606.27584#S3.F2)a 说明了我们的流水线。我们首先应用粗糙阶段,即带有特征注意力的参考自适应GS,通过逐视图权重对一个选定的参考视图\(\hat{I}_k\)进行上加权,对其他视图进行下加权,同时在修复区域通过注意相邻锚点来正则化锚点特征。然后,它通过扭曲基于GS点云的参考特征并将其作为引导注入潜在扩散修复模型中,强制多视图几何和外观一致性。借助一致性引导的修复图像,我们在精炼阶段通过对抗性块判别器细化GS场景的高频纹理和光度真实性。
通过集成这些组件,我们的框架生成一个在几何上一致、视觉上连贯且在所有视图上无缝完成的3D修复场景。我们在第4.2节(https://arxiv.org/html/2606.27584#S4.SS2)中介绍带有特征注意力的参考自适应GS(Ref-GS),在第4.3节(https://arxiv.org/html/2606.27584#S4.SS3)中介绍一致性损失引导(CLG)。相似文章
GlobalSplat: 通过全局场景标记实现高效的前馈式三维高斯散射
GlobalSplat 引入了一种高效的前馈框架,用于三维高斯散射,通过全局场景标记实现紧凑且一致的场景重建,将计算开销和推理时间降低至78毫秒以下。该方法采用从粗到细的训练策略,防止表示膨胀,同时以显著更少的高斯原语(16K)达到有竞争力的新视角合成性能,与密集基线相比更为高效。
VidSplat:利用几何引导的视频扩散先验进行高斯泼溅重建
VidSplat 是一种无需训练的生成式重建框架,它利用视频扩散先验,通过合成新视角,从稀疏输入中恢复完整的 3D 场景。
CoInteract:通过空间结构化协同生成实现物理一致的人-物交互视频合成
CoInteract 提出端到端 Diffusion Transformer 框架,联合建模 RGB 外观与 HOI 几何,在零推理开销下生成物理合理、手脸稳定的人-物交互视频。
Multi4D: 通过多级竞争分配实现高保真动态高斯泼溅
Multi4D 提出了一种用于动态三维高斯泼溅的多级竞争分配框架,它平衡了运动一致性与视觉保真度,实现了最先进的渲染质量和实时性能。
ZipSplat:更少的高斯,更优的 Splats
ZipSplat 是一种基于 token 的前馈 3D 高斯溅射模型,利用 k-means 聚类将高斯放置与像素网格解耦,在无需真实位姿或内参的情况下,在 DL3DV 和 RealEstate10K 上实现了约 6 倍的高斯减少,同时设立了新的最佳结果。