Realiz3D: 通过域感知学习实现照片级真实感的3D生成

Hugging Face Daily Papers 论文

摘要

Realiz3D 引入了域感知学习,以在三维一致性图像生成中将视觉域与控制信号解耦,通过残差适配器和层级特定去噪,从合成渲染生成照片级真实感的输出。

我们通常希望生成既具有照片级真实感又保持三维一致性的图像,并遵循精确的几何、材质和视角控制。通常,这通过微调一个在数十亿真实图像上预训练的图像生成器来实现,使用合成3D资产的渲染图,这些渲染图带有控制信号的标注。虽然这种方法可以学习所需的控制,但由于照片与渲染之间的域差距,往往会损害图像的真实感。我们观察到,这个问题很大程度上源于模型学习到了控制信号存在与图像合成外观之间的非预期关联。为了解决这一问题,我们提出了Realiz3D,一个轻量级的扩散模型训练框架,将控制信号与视觉域解耦。关键思想是通过引入一个协变量,将其输入到小型残差适配器中以改变域,从而显式地将视觉域(真实或合成)与其他控制信号分开学习。这样,生成器可以在不拟合特定视觉域的情况下获得可控性。通过这种方式,即使在施加控制时,模型也能被引导生成逼真的图像。我们利用对扩散生成器中不同层和去噪步骤作用的洞察,增强了控制向真实域的迁移能力,并据此设计了新的训练和推理策略,进一步缩小了域差距。我们展示了Realiz3D在文本到多视图生成和从3D输入进行纹理贴图等任务中的优势,其输出具有三维一致性和照片级真实感。
查看原文
查看缓存全文

缓存时间: 2026/05/15 08:24

论文页面 - Realiz3D:通过域感知学习实现逼真的3D生成

来源:https://huggingface.co/papers/2605.13852

摘要

Realiz3D通过残差适配器和层特定去噪策略,将视觉域与控制信号解耦,从而解决了合成渲染与真实图像在3D一致图像生成中的域差距问题。

我们通常希望生成既逼真又3D一致的图像,并遵循精确的几何、材质和视角控制。通常,这是通过使用合成3D资产的渲染图对预训练于数十亿真实图像的图像生成器进行微调来实现的,其中包含控制信号的标注。虽然这种方法可以学习到所需的控制,但由于照片与渲染图之间的域差距,往往牺牲了图像的逼真度。我们观察到,这个问题很大程度上源于模型将控制信号的存在与图像的合成外观之间建立了非预期的关联。为了解决这一问题,我们引入了Realiz3D,一个轻量级的扩散模型训练框架,它将控制信号与视觉域解耦。关键思想是通过引入一个协变量,将其输入到小型残差适配器中,从而实现域的迁移,从而将视觉域(真实或合成)与其他控制信号分开显式学习。这样,生成器可以在不拟合特定视觉域的情况下获得可控性。因此,即使在施加控制时,模型也能被引导生成逼真的图像。我们利用扩散生成器中不同层和去噪步骤作用的见解,增强了控制向真实域的迁移能力,并提出了新的训练和推理策略,进一步缩小差距。我们展示了Realiz3D在文本到多视角生成和基于3D输入的纹理贴图任务中的优势,其输出结果兼具3D一致性和逼真度。

查看arXiv页面 (https://arxiv.org/abs/2605.13852)查看PDF (https://arxiv.org/pdf/2605.13852)项目页面 (https://idosobol.github.io/realiz3d/)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13852)

在您的智能体中获取此论文:

hf papers read 2605\.13852

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型关联此论文

请在模型的README.md中引用arxiv.org/abs/2605.13852以在此页面建立链接。

引用该论文的数据集0

没有数据集关联此论文

请在数据集的README.md中引用arxiv.org/abs/2605.13852以在此页面建立链接。

引用该论文的Spaces0

没有Space关联此论文

请在Space的README.md中引用arxiv.org/abs/2605.13852以在此页面建立链接。

包含该论文的收藏集0

没有收藏集包含此论文

请将此论文添加至一个收藏集 (https://huggingface.co/new-collection)以在此页面建立链接。

相似文章

Pixal3D:基于图像的像素对齐3D生成

Hugging Face Daily Papers

Pixal3D提出了一种像素对齐的3D生成方法,通过反向投影条件化建立直接的像素到3D对应关系,从而提高保真度,解决了规范空间生成中的问题。

GenRecon:结合生成先验的多视图3D场景重建

Hugging Face Daily Papers

GenRecon提出了一种3D场景重建方法,将生成式3D先验与多视图图像条件相结合,实现了室内环境的高保真、可编辑网格重建,性能比现有方法提升16%。

JanusMesh: 快速零样本3D视觉幻觉生成——基于跨空间去噪

Hugging Face Daily Papers

JanusMesh 是一个快速、免训练的框架,通过将生成过程解耦为跨空间双分支去噪和视图条件纹理合成,生成文本驱动的3D视觉错觉——单个网格从不同视角展示不同语义——在仅3-5分钟内实现高真实感。