Realiz3D: 通过域感知学习实现照片级真实感的3D生成

Hugging Face Daily Papers 2026/03/25 00:00 论文

3d-generation photorealistic domain-gap diffusion-models residual-adapters text-to-multiview texturing

摘要

Realiz3D 引入了域感知学习，以在三维一致性图像生成中将视觉域与控制信号解耦，通过残差适配器和层级特定去噪，从合成渲染生成照片级真实感的输出。

我们通常希望生成既具有照片级真实感又保持三维一致性的图像，并遵循精确的几何、材质和视角控制。通常，这通过微调一个在数十亿真实图像上预训练的图像生成器来实现，使用合成3D资产的渲染图，这些渲染图带有控制信号的标注。虽然这种方法可以学习所需的控制，但由于照片与渲染之间的域差距，往往会损害图像的真实感。我们观察到，这个问题很大程度上源于模型学习到了控制信号存在与图像合成外观之间的非预期关联。为了解决这一问题，我们提出了Realiz3D，一个轻量级的扩散模型训练框架，将控制信号与视觉域解耦。关键思想是通过引入一个协变量，将其输入到小型残差适配器中以改变域，从而显式地将视觉域（真实或合成）与其他控制信号分开学习。这样，生成器可以在不拟合特定视觉域的情况下获得可控性。通过这种方式，即使在施加控制时，模型也能被引导生成逼真的图像。我们利用对扩散生成器中不同层和去噪步骤作用的洞察，增强了控制向真实域的迁移能力，并据此设计了新的训练和推理策略，进一步缩小了域差距。我们展示了Realiz3D在文本到多视图生成和从3D输入进行纹理贴图等任务中的优势，其输出具有三维一致性和照片级真实感。

查看原文

查看缓存全文

缓存时间: 2026/05/15 08:24

论文页面 - Realiz3D：通过域感知学习实现逼真的3D生成

来源：https://huggingface.co/papers/2605.13852

摘要

Realiz3D通过残差适配器和层特定去噪策略，将视觉域与控制信号解耦，从而解决了合成渲染与真实图像在3D一致图像生成中的域差距问题。

我们通常希望生成既逼真又3D一致的图像，并遵循精确的几何、材质和视角控制。通常，这是通过使用合成3D资产的渲染图对预训练于数十亿真实图像的图像生成器进行微调来实现的，其中包含控制信号的标注。虽然这种方法可以学习到所需的控制，但由于照片与渲染图之间的域差距，往往牺牲了图像的逼真度。我们观察到，这个问题很大程度上源于模型将控制信号的存在与图像的合成外观之间建立了非预期的关联。为了解决这一问题，我们引入了Realiz3D，一个轻量级的扩散模型训练框架，它将控制信号与视觉域解耦。关键思想是通过引入一个协变量，将其输入到小型残差适配器中，从而实现域的迁移，从而将视觉域（真实或合成）与其他控制信号分开显式学习。这样，生成器可以在不拟合特定视觉域的情况下获得可控性。因此，即使在施加控制时，模型也能被引导生成逼真的图像。我们利用扩散生成器中不同层和去噪步骤作用的见解，增强了控制向真实域的迁移能力，并提出了新的训练和推理策略，进一步缩小差距。我们展示了Realiz3D在文本到多视角生成和基于3D输入的纹理贴图任务中的优势，其输出结果兼具3D一致性和逼真度。

查看arXiv页面 (https://arxiv.org/abs/2605.13852)查看PDF (https://arxiv.org/pdf/2605.13852)项目页面 (https://idosobol.github.io/realiz3d/)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13852)

在您的智能体中获取此论文：

hf papers read 2605\.13852

没有最新CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型关联此论文

请在模型的README.md中引用arxiv.org/abs/2605.13852以在此页面建立链接。

引用该论文的数据集0

没有数据集关联此论文

请在数据集的README.md中引用arxiv.org/abs/2605.13852以在此页面建立链接。

引用该论文的Spaces0

没有Space关联此论文

请在Space的README.md中引用arxiv.org/abs/2605.13852以在此页面建立链接。

包含该论文的收藏集0

没有收藏集包含此论文

请将此论文添加至一个收藏集 (https://huggingface.co/new-collection)以在此页面建立链接。

Realiz3D: 通过域感知学习实现照片级真实感的3D生成

论文页面 - Realiz3D：通过域感知学习实现逼真的3D生成

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的Spaces0

包含该论文的收藏集0

相似文章

Pixal3D：基于图像的像素对齐3D生成

GenRecon：结合生成先验的多视图3D场景重建

ReImagine：以图像为先的可控高质量人体视频生成新思路

RayDer：从真实世界视频中实现可扩展的自监督新颖视图合成

JanusMesh: 快速零样本3D视觉幻觉生成——基于跨空间去噪

提交意见反馈