Realiz3D: 通过域感知学习实现照片级真实感的3D生成
摘要
Realiz3D 引入了域感知学习,以在三维一致性图像生成中将视觉域与控制信号解耦,通过残差适配器和层级特定去噪,从合成渲染生成照片级真实感的输出。
查看缓存全文
缓存时间: 2026/05/15 08:24
论文页面 - Realiz3D:通过域感知学习实现逼真的3D生成
来源:https://huggingface.co/papers/2605.13852
摘要
Realiz3D通过残差适配器和层特定去噪策略,将视觉域与控制信号解耦,从而解决了合成渲染与真实图像在3D一致图像生成中的域差距问题。
我们通常希望生成既逼真又3D一致的图像,并遵循精确的几何、材质和视角控制。通常,这是通过使用合成3D资产的渲染图对预训练于数十亿真实图像的图像生成器进行微调来实现的,其中包含控制信号的标注。虽然这种方法可以学习到所需的控制,但由于照片与渲染图之间的域差距,往往牺牲了图像的逼真度。我们观察到,这个问题很大程度上源于模型将控制信号的存在与图像的合成外观之间建立了非预期的关联。为了解决这一问题,我们引入了Realiz3D,一个轻量级的扩散模型训练框架,它将控制信号与视觉域解耦。关键思想是通过引入一个协变量,将其输入到小型残差适配器中,从而实现域的迁移,从而将视觉域(真实或合成)与其他控制信号分开显式学习。这样,生成器可以在不拟合特定视觉域的情况下获得可控性。因此,即使在施加控制时,模型也能被引导生成逼真的图像。我们利用扩散生成器中不同层和去噪步骤作用的见解,增强了控制向真实域的迁移能力,并提出了新的训练和推理策略,进一步缩小差距。我们展示了Realiz3D在文本到多视角生成和基于3D输入的纹理贴图任务中的优势,其输出结果兼具3D一致性和逼真度。
查看arXiv页面 (https://arxiv.org/abs/2605.13852)查看PDF (https://arxiv.org/pdf/2605.13852)项目页面 (https://idosobol.github.io/realiz3d/)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13852)
在您的智能体中获取此论文:
hf papers read 2605\.13852
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型关联此论文
请在模型的README.md中引用arxiv.org/abs/2605.13852以在此页面建立链接。
引用该论文的数据集0
没有数据集关联此论文
请在数据集的README.md中引用arxiv.org/abs/2605.13852以在此页面建立链接。
引用该论文的Spaces0
没有Space关联此论文
请在Space的README.md中引用arxiv.org/abs/2605.13852以在此页面建立链接。
包含该论文的收藏集0
没有收藏集包含此论文
请将此论文添加至一个收藏集 (https://huggingface.co/new-collection)以在此页面建立链接。
相似文章
Pixal3D:基于图像的像素对齐3D生成
Pixal3D提出了一种像素对齐的3D生成方法,通过反向投影条件化建立直接的像素到3D对应关系,从而提高保真度,解决了规范空间生成中的问题。
GenRecon:结合生成先验的多视图3D场景重建
GenRecon提出了一种3D场景重建方法,将生成式3D先验与多视图图像条件相结合,实现了室内环境的高保真、可编辑网格重建,性能比现有方法提升16%。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
RayDer:从真实世界视频中实现可扩展的自监督新颖视图合成
RayDer 是一个统一的前馈变换器,它将相机估计、场景重建和渲染整合到单一架构中,用于从真实世界视频进行自监督的新颖视图合成,实现了清晰的幂律扩展和强大的零样本性能。
JanusMesh: 快速零样本3D视觉幻觉生成——基于跨空间去噪
JanusMesh 是一个快速、免训练的框架,通过将生成过程解耦为跨空间双分支去噪和视图条件纹理合成,生成文本驱动的3D视觉错觉——单个网格从不同视角展示不同语义——在仅3-5分钟内实现高真实感。