RayDer:从真实世界视频中实现可扩展的自监督新颖视图合成
摘要
RayDer 是一个统一的前馈变换器,它将相机估计、场景重建和渲染整合到单一架构中,用于从真实世界视频进行自监督的新颖视图合成,实现了清晰的幂律扩展和强大的零样本性能。
查看缓存全文
缓存时间: 2026/06/01 19:21
论文页面 - RayDer:从真实世界视频中可扩展的自监督新视角合成
来源:https://huggingface.co/papers/2605.31535
摘要
RayDer 是一个统一的前馈 Transformer,将相机估计、场景重建和渲染整合到单一主干网络中,用于自监督新视角合成。它通过动态状态吸收实现真实世界视频上的稳定训练,并展现出清晰的缩放行为。
自监督新视角合成(https://huggingface.co/papers?q=novel%20view%20synthesis)(NVS) 仍然难以扩展,尽管视频数据非常丰富,这主要归因于在真实视频上训练的脆弱性以及多网络系统设计中难以预测的缩放行为。我们提出了 RayDer,一个统一的前馈 Transformer(https://huggingface.co/papers?q=feed-forward%20transformer),它将相机估计(https://huggingface.co/papers?q=camera%20estimation)、场景重建(https://huggingface.co/papers?q=scene%20reconstruction)和渲染(https://huggingface.co/papers?q=rendering)整合到单一主干网络中,将自监督 NVS 转化为一个良定义的单一模型缩放问题。一个最小化的动态状态(https://huggingface.co/papers?q=dynamic%20state)被视为干扰因素,吸收随时间变化的内容,从而在无约束的真实世界视频上实现稳定训练。重要的是,RayDer 将静态场景 NVS 作为其目标任务:动态内容仅用作可扩展的监督信号,而不是像动态场景(4D)NVS 那样进行重建。在多种模型规模和跨越多个数量级的数据上,RayDer 展现出与数据和计算量相关的清晰幂律缩放(https://huggingface.co/papers?q=power-law%20scaling)特性,并且优于静态场景数据混合。在大量基准测试中,RayDer 取得了强大的零样本开放集性能(https://huggingface.co/papers?q=zero-shot%20open-set%20performance),可与最先进的有监督方法相媲美。项目页面:https://compvis.github.io/rayder
查看 arXiv 页面(https://arxiv.org/abs/2605.31535)查看 PDF(https://arxiv.org/pdf/2605.31535)项目页面(https://compvis.github.io/rayder/)GitHub1(https://github.com/CompVis/rayder)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.31535)
在您的代理中获取此论文:
hf papers read 2605\.31535
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
CompVis/rayder 图像到图像• 更新于16分钟前 • 2(https://huggingface.co/CompVis/rayder)
引用此论文的数据集0
没有引用此论文的数据集
请在数据集 README.md 中引用 arxiv.org/abs/2605.31535,以在此页面链接该数据集。
引用此论文的 Spaces0
没有引用此论文的 Space
请在 Space README.md 中引用 arxiv.org/abs/2605.31535,以在此页面链接该 Space。
包含此论文的集合0
没有包含此论文的集合
请将此论文添加到一个集合(https://huggingface.co/new-collection)中,以在此页面链接该集合。
相似文章
AnyRecon:基于视频扩散模型的任意视角 3D 重建
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
表征先于像素:语义引导的分层视频预测
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
MoCam:通过结构化去噪动态实现统一的新视角合成
MoCam 是一篇研究论文,介绍了一种基于扩散的统一新视角合成框架,该框架通过动态协调几何和外观先验,提高了对几何误差的鲁棒性。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。