表征先于像素:语义引导的分层视频预测
摘要
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。
查看缓存全文
缓存时间: 2026/04/20 08:28
论文页面 - 先表征后像素:语义引导的分层视频预测
来源:https://huggingface.co/papers/2604.11707
摘要
Re2Pix 是一个分层视频预测框架,通过先预测语义表征,再利用这些表征指导逼真的视觉合成,同时借助专门的条件化策略解决训练与测试之间的不匹配问题,从而提升未来视频生成的效果。
准确的未来视频预测 (https://huggingface.co/papers?q=video%20prediction) 既需要高视觉保真度,也需要一致的场景语义,在自动驾驶等复杂动态环境中尤为如此。我们提出 Re2Pix,这是一种分层视频预测 (https://huggingface.co/papers?q=video%20prediction) 框架,将预测过程分解为两个阶段:语义表征预测 (https://huggingface.co/papers?q=semantic%20representation%20prediction) 和表征引导的视觉合成。我们的方法并非直接预测未来的 RGB 帧,而是先在冻结的视觉基础模型 (https://huggingface.co/papers?q=vision%20foundation%20model) 的特征空间中预测未来的场景结构,然后以这些预测的表征作为条件,指导潜在扩散模型 (https://huggingface.co/papers?q=latent%20diffusion%20model) 渲染出逼真的帧。这种解耦设计使得模型能够先专注于场景动态,再处理外观生成。一个关键挑战来自训练与测试之间的不匹配 (https://huggingface.co/papers?q=train-test%20mismatch):训练时可获得真实表征,而推理时使用的是预测表征。为解决此问题,我们引入了两种条件化策略——嵌套丢弃 (https://huggingface.co/papers?q=nested%20dropout) 和混合监督 (https://huggingface.co/papers?q=mixed%20supervision)——这些策略提高了模型对不完美自回归预测的鲁棒性。在具有挑战性的驾驶基准上的实验表明,与强大的扩散基线相比,所提出的语义优先设计显著提升了时间语义一致性 (https://huggingface.co/papers?q=temporal%20semantic%20consistency)、感知质量 (https://huggingface.co/papers?q=perceptual%20quality) 和训练效率。我们在 https://github.com/Sta8is/Re2Pix 提供了实现代码。
查看 arXiv 页面 (https://arxiv.org/abs/2604.11707)查看 PDF (https://arxiv.org/pdf/2604.11707)GitHub8 (https://github.com/Sta8is/Re2Pix)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.11707)
社区
论文提交者
3 天前 (https://huggingface.co/papers/2604.11707#69e1f27e67ed2fdf660b12c4)
像素世界模型还是潜在世界模型?
视频世界模型分为两大阵营:• 生成逼真帧 • 预测未来的语义特征 (例如 DINOv2)
为何要二选一?
我们提出了 Re2Pix,这是一种结合两者的分层方法。combined_video_60 (https://cdn-uploads.huggingface.co/production/uploads/677272184d148b904333e874/7oF3pYvDvaEVo5UVIUgMs.gif) combined_video_228 (https://cdn-uploads.huggingface.co/production/uploads/677272184d148b904333e874/itFW8_VbKd4J9yP2_v34i.gif)
拖拽或粘贴图片、音频和视频到文本输入区域,或点击此处上传。
点击或粘贴此处上传图片
在你的代理中获取这篇论文:
hf papers read 2604.11707
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型与此论文关联
请在模型 README.md 中引用 arxiv.org/abs/2604.11707 以从本页面链接到该模型。
引用此论文的数据集0
没有数据集与此论文关联
请在数据集 README.md 中引用 arxiv.org/abs/2604.11707 以从本页面链接到该数据集。
引用此论文的 Spaces0
没有 Space 与此论文关联
请在 Space README.md 中引用 arxiv.org/abs/2604.11707 以从本页面链接到该 Space。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中,以从本页面链接到该收藏集。
相似文章
先想象后预测:用于视频事件预测的交错潜在视觉推理
介绍了Future-L1,一种交错潜在视觉推理框架,通过在潜在空间中保持视觉语义来改进视频事件预测。在FutureBench和TwiFF-Bench基准上取得了最先进的结果。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
MilliVid:用于视频生成中长程一致性的分层潜在变量
本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。
RayDer:从真实世界视频中实现可扩展的自监督新颖视图合成
RayDer 是一个统一的前馈变换器,它将相机估计、场景重建和渲染整合到单一架构中,用于从真实世界视频进行自监督的新颖视图合成,实现了清晰的幂律扩展和强大的零样本性能。
Memento:通过重建实现记忆,用于一致的长时间视频生成
Memento 是一个以主体重建为引导的框架,通过基于记忆的重建和双查询机制来保留重复出现的主体,从而改进长视频生成,在长期主体一致性和跨镜头连贯性方面达到了最先进的性能。