RayDer:从真实世界视频中实现可扩展的自监督新颖视图合成

Hugging Face Daily Papers 论文

摘要

RayDer 是一个统一的前馈变换器,它将相机估计、场景重建和渲染整合到单一架构中,用于从真实世界视频进行自监督的新颖视图合成,实现了清晰的幂律扩展和强大的零样本性能。

自监督新颖视图合成(NVS)尽管有丰富的视频数据,但因其在真实视频上训练的脆弱性以及多网络系统设计难以预测的扩展行为,仍难以扩展。我们提出了 RayDer,一个统一的前馈变换器,它将相机估计、场景重建和渲染整合到一个主干网络中,使自监督 NVS 成为一个适定的单模型扩展问题。一个最小动态状态(视为干扰因素)吸收时变内容,使得能够在无约束的真实世界视频上进行稳定训练。重要的是,RayDer 将静态场景 NVS 作为其目标任务:动态内容仅作为可扩展的监督信号被利用,而不是像动态场景(4D)NVS 那样重建出来。在多种模型规模和数量级的数据上,RayDer 展现出清晰的数据和计算幂律扩展,并优于静态场景数据混合。在大量基准测试中,RayDer 实现了强零样本开放集性能,与最先进的监督方法相媲美。项目页面:https://compvis.github.io/rayder
查看原文
查看缓存全文

缓存时间: 2026/06/01 19:21

论文页面 - RayDer:从真实世界视频中可扩展的自监督新视角合成

来源:https://huggingface.co/papers/2605.31535

摘要

RayDer 是一个统一的前馈 Transformer,将相机估计、场景重建和渲染整合到单一主干网络中,用于自监督新视角合成。它通过动态状态吸收实现真实世界视频上的稳定训练,并展现出清晰的缩放行为。

自监督新视角合成(https://huggingface.co/papers?q=novel%20view%20synthesis)(NVS) 仍然难以扩展,尽管视频数据非常丰富,这主要归因于在真实视频上训练的脆弱性以及多网络系统设计中难以预测的缩放行为。我们提出了 RayDer,一个统一的前馈 Transformer(https://huggingface.co/papers?q=feed-forward%20transformer),它将相机估计(https://huggingface.co/papers?q=camera%20estimation)、场景重建(https://huggingface.co/papers?q=scene%20reconstruction)和渲染(https://huggingface.co/papers?q=rendering)整合到单一主干网络中,将自监督 NVS 转化为一个良定义的单一模型缩放问题。一个最小化的动态状态(https://huggingface.co/papers?q=dynamic%20state)被视为干扰因素,吸收随时间变化的内容,从而在无约束的真实世界视频上实现稳定训练。重要的是,RayDer 将静态场景 NVS 作为其目标任务:动态内容仅用作可扩展的监督信号,而不是像动态场景(4D)NVS 那样进行重建。在多种模型规模和跨越多个数量级的数据上,RayDer 展现出与数据和计算量相关的清晰幂律缩放(https://huggingface.co/papers?q=power-law%20scaling)特性,并且优于静态场景数据混合。在大量基准测试中,RayDer 取得了强大的零样本开放集性能(https://huggingface.co/papers?q=zero-shot%20open-set%20performance),可与最先进的有监督方法相媲美。项目页面:https://compvis.github.io/rayder

查看 arXiv 页面(https://arxiv.org/abs/2605.31535)查看 PDF(https://arxiv.org/pdf/2605.31535)项目页面(https://compvis.github.io/rayder/)GitHub1(https://github.com/CompVis/rayder)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.31535)

在您的代理中获取此论文:

hf papers read 2605\.31535

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

CompVis/rayder 图像到图像• 更新于16分钟前 • 2(https://huggingface.co/CompVis/rayder)

引用此论文的数据集0

没有引用此论文的数据集

请在数据集 README.md 中引用 arxiv.org/abs/2605.31535,以在此页面链接该数据集。

引用此论文的 Spaces0

没有引用此论文的 Space

请在 Space README.md 中引用 arxiv.org/abs/2605.31535,以在此页面链接该 Space。

包含此论文的集合0

没有包含此论文的集合

请将此论文添加到一个集合(https://huggingface.co/new-collection)中,以在此页面链接该集合。

相似文章

表征先于像素:语义引导的分层视频预测

Hugging Face Daily Papers

Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。