MoCam:通过结构化去噪动态实现统一的新视角合成
摘要
MoCam 是一篇研究论文,介绍了一种基于扩散的统一新视角合成框架,该框架通过动态协调几何和外观先验,提高了对几何误差的鲁棒性。
查看缓存全文
缓存时间: 2026/05/13 04:12
论文页面 - MoCam: 通过结构化去噪动力学实现统一的新视图合成
来源: https://huggingface.co/papers/2605.12119
摘要
MoCam 在扩散框架内通过结构化去噪动力学,动态协调几何先验与外观先验,从而应对生成式新视图合成的挑战。
生成式新视图合成 (https://huggingface.co/papers?q=view%20synthesis) 面临一个根本性困境:几何先验 (https://huggingface.co/papers?q=geometric%20priors) 提供空间对齐,但在视角变化下会变得稀疏且不准确;而外观先验 (https://huggingface.co/papers?q=appearance%20priors) 虽能提供视觉保真度,却缺乏几何对应关系。现有方法要么在生成过程中传播几何误差 (https://huggingface.co/papers?q=geometric%20errors),要么在静态融合两者时遭受信号冲突。我们引入了 MoCam,它利用结构化去噪动力学 (https://huggingface.co/papers?q=denoising%20dynamics) 在扩散过程 (https://huggingface.co/papers?q=diffusion%20process) 中协调从几何到外观的有序推进。MoCam 首先在早期阶段利用几何先验 (https://huggingface.co/papers?q=geometric%20priors) 来锚定粗略结构并容忍其不完整性,然后在后期阶段切换到外观先验 (https://huggingface.co/papers?q=appearance%20priors) 以主动纠正几何误差 (https://huggingface.co/papers?q=geometric%20errors) 并细化细节。这种设计通过在扩散过程 (https://huggingface.co/papers?q=diffusion%20process) 中在时间上解耦几何对齐和外观细化 (https://huggingface.co/papers?q=appearance%20refinement),自然地统一了静态和动态视图合成 (https://huggingface.co/papers?q=view%20synthesis)。实验表明,MoCam 显著优于先前方法,特别是在点云 (https://huggingface.co/papers?q=point%20clouds) 包含严重空洞或失真时,实现了鲁棒的几何-外观解耦。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12119) 查看 PDF (https://arxiv.org/pdf/2605.12119) 项目页面 (https://orange-3dv-team.github.io/MoCam/) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12119)
在你的 Agent 中获取此论文:
hf papers read 2605\.12119
没有最新的 CLI? curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.12119 即可从此页面建立链接。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.12119 即可从此页面建立链接。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.12119 即可从此页面建立链接。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
AnyRecon:基于视频扩散模型的任意视角 3D 重建
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
sensenova/SenseNova-U1-8B-MoT
SenseNova U1 是基于 NEO-Unify 框架构建的新一代原生多模态模型系列,在单一架构内统一了理解与生成能力,无需单独的视觉编码器或 VAE。
MoCapAnything V2: 面向任意骨骼的端到端动作捕捉
MoCapAnything V2 提出了一种面向任意骨骼单目视频动作捕捉的完全端到端框架,通过联合优化视频到姿态以及姿态到旋转的预测,解决旋转歧义性问题。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。