RayDer：从真实世界视频中实现可扩展的自监督新颖视图合成

Hugging Face Daily Papers 2026/05/29 00:00 论文

self-supervised novel-view-synthesis transformer video camera-estimation scene-reconstruction rendering

摘要

RayDer 是一个统一的前馈变换器，它将相机估计、场景重建和渲染整合到单一架构中，用于从真实世界视频进行自监督的新颖视图合成，实现了清晰的幂律扩展和强大的零样本性能。

自监督新颖视图合成（NVS）尽管有丰富的视频数据，但因其在真实视频上训练的脆弱性以及多网络系统设计难以预测的扩展行为，仍难以扩展。我们提出了 RayDer，一个统一的前馈变换器，它将相机估计、场景重建和渲染整合到一个主干网络中，使自监督 NVS 成为一个适定的单模型扩展问题。一个最小动态状态（视为干扰因素）吸收时变内容，使得能够在无约束的真实世界视频上进行稳定训练。重要的是，RayDer 将静态场景 NVS 作为其目标任务：动态内容仅作为可扩展的监督信号被利用，而不是像动态场景（4D）NVS 那样重建出来。在多种模型规模和数量级的数据上，RayDer 展现出清晰的数据和计算幂律扩展，并优于静态场景数据混合。在大量基准测试中，RayDer 实现了强零样本开放集性能，与最先进的监督方法相媲美。项目页面：https://compvis.github.io/rayder

查看原文

查看缓存全文

缓存时间: 2026/06/01 19:21

论文页面 - RayDer：从真实世界视频中可扩展的自监督新视角合成

来源：https://huggingface.co/papers/2605.31535

摘要

RayDer 是一个统一的前馈 Transformer，将相机估计、场景重建和渲染整合到单一主干网络中，用于自监督新视角合成。它通过动态状态吸收实现真实世界视频上的稳定训练，并展现出清晰的缩放行为。

自监督新视角合成（https://huggingface.co/papers?q=novel%20view%20synthesis）(NVS) 仍然难以扩展，尽管视频数据非常丰富，这主要归因于在真实视频上训练的脆弱性以及多网络系统设计中难以预测的缩放行为。我们提出了 RayDer，一个统一的前馈 Transformer（https://huggingface.co/papers?q=feed-forward%20transformer），它将相机估计（https://huggingface.co/papers?q=camera%20estimation）、场景重建（https://huggingface.co/papers?q=scene%20reconstruction）和渲染（https://huggingface.co/papers?q=rendering）整合到单一主干网络中，将自监督 NVS 转化为一个良定义的单一模型缩放问题。一个最小化的动态状态（https://huggingface.co/papers?q=dynamic%20state）被视为干扰因素，吸收随时间变化的内容，从而在无约束的真实世界视频上实现稳定训练。重要的是，RayDer 将静态场景 NVS 作为其目标任务：动态内容仅用作可扩展的监督信号，而不是像动态场景（4D）NVS 那样进行重建。在多种模型规模和跨越多个数量级的数据上，RayDer 展现出与数据和计算量相关的清晰幂律缩放（https://huggingface.co/papers?q=power-law%20scaling）特性，并且优于静态场景数据混合。在大量基准测试中，RayDer 取得了强大的零样本开放集性能（https://huggingface.co/papers?q=zero-shot%20open-set%20performance），可与最先进的有监督方法相媲美。项目页面：https://compvis.github.io/rayder

查看 arXiv 页面（https://arxiv.org/abs/2605.31535）查看 PDF（https://arxiv.org/pdf/2605.31535）项目页面（https://compvis.github.io/rayder/）GitHub1（https://github.com/CompVis/rayder）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.31535）

在您的代理中获取此论文：

hf papers read 2605\.31535

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

CompVis/rayder 图像到图像• 更新于16分钟前 • 2（https://huggingface.co/CompVis/rayder）

引用此论文的数据集0

没有引用此论文的数据集

请在数据集 README.md 中引用 arxiv.org/abs/2605.31535，以在此页面链接该数据集。

引用此论文的 Spaces0

没有引用此论文的 Space

请在 Space README.md 中引用 arxiv.org/abs/2605.31535，以在此页面链接该 Space。

包含此论文的集合0

没有包含此论文的集合

请将此论文添加到一个集合（https://huggingface.co/new-collection）中，以在此页面链接该集合。

RayDer：从真实世界视频中实现可扩展的自监督新颖视图合成

论文页面 - RayDer：从真实世界视频中可扩展的自监督新视角合成

摘要

引用此论文的模型1

CompVis/rayder 图像到图像• 更新于16分钟前 • 2（https://huggingface.co/CompVis/rayder）

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的集合0

相似文章

AnyRecon：基于视频扩散模型的任意视角 3D 重建

表征先于像素：语义引导的分层视频预测

长视频生成（阅读时间 4 分钟）

MoCam：通过结构化去噪动态实现统一的新视角合成

ReImagine：以图像为先的可控高质量人体视频生成新思路

提交意见反馈