表征先于像素:语义引导的分层视频预测
摘要
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。
查看缓存全文
缓存时间: 2026/04/20 08:28
论文页面 - 先表征后像素:语义引导的分层视频预测
来源:https://huggingface.co/papers/2604.11707
摘要
Re2Pix 是一个分层视频预测框架,通过先预测语义表征,再利用这些表征指导逼真的视觉合成,同时借助专门的条件化策略解决训练与测试之间的不匹配问题,从而提升未来视频生成的效果。
准确的未来视频预测 (https://huggingface.co/papers?q=video%20prediction) 既需要高视觉保真度,也需要一致的场景语义,在自动驾驶等复杂动态环境中尤为如此。我们提出 Re2Pix,这是一种分层视频预测 (https://huggingface.co/papers?q=video%20prediction) 框架,将预测过程分解为两个阶段:语义表征预测 (https://huggingface.co/papers?q=semantic%20representation%20prediction) 和表征引导的视觉合成。我们的方法并非直接预测未来的 RGB 帧,而是先在冻结的视觉基础模型 (https://huggingface.co/papers?q=vision%20foundation%20model) 的特征空间中预测未来的场景结构,然后以这些预测的表征作为条件,指导潜在扩散模型 (https://huggingface.co/papers?q=latent%20diffusion%20model) 渲染出逼真的帧。这种解耦设计使得模型能够先专注于场景动态,再处理外观生成。一个关键挑战来自训练与测试之间的不匹配 (https://huggingface.co/papers?q=train-test%20mismatch):训练时可获得真实表征,而推理时使用的是预测表征。为解决此问题,我们引入了两种条件化策略——嵌套丢弃 (https://huggingface.co/papers?q=nested%20dropout) 和混合监督 (https://huggingface.co/papers?q=mixed%20supervision)——这些策略提高了模型对不完美自回归预测的鲁棒性。在具有挑战性的驾驶基准上的实验表明,与强大的扩散基线相比,所提出的语义优先设计显著提升了时间语义一致性 (https://huggingface.co/papers?q=temporal%20semantic%20consistency)、感知质量 (https://huggingface.co/papers?q=perceptual%20quality) 和训练效率。我们在 https://github.com/Sta8is/Re2Pix 提供了实现代码。
查看 arXiv 页面 (https://arxiv.org/abs/2604.11707)查看 PDF (https://arxiv.org/pdf/2604.11707)GitHub8 (https://github.com/Sta8is/Re2Pix)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.11707)
社区
论文提交者
3 天前 (https://huggingface.co/papers/2604.11707#69e1f27e67ed2fdf660b12c4)
像素世界模型还是潜在世界模型?
视频世界模型分为两大阵营:• 生成逼真帧 • 预测未来的语义特征 (例如 DINOv2)
为何要二选一?
我们提出了 Re2Pix,这是一种结合两者的分层方法。combined_video_60 (https://cdn-uploads.huggingface.co/production/uploads/677272184d148b904333e874/7oF3pYvDvaEVo5UVIUgMs.gif) combined_video_228 (https://cdn-uploads.huggingface.co/production/uploads/677272184d148b904333e874/itFW8_VbKd4J9yP2_v34i.gif)
拖拽或粘贴图片、音频和视频到文本输入区域,或点击此处上传。
点击或粘贴此处上传图片
在你的代理中获取这篇论文:
hf papers read 2604.11707
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型与此论文关联
请在模型 README.md 中引用 arxiv.org/abs/2604.11707 以从本页面链接到该模型。
引用此论文的数据集0
没有数据集与此论文关联
请在数据集 README.md 中引用 arxiv.org/abs/2604.11707 以从本页面链接到该数据集。
引用此论文的 Spaces0
没有 Space 与此论文关联
请在 Space README.md 中引用 arxiv.org/abs/2604.11707 以从本页面链接到该 Space。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中,以从本页面链接到该收藏集。
相似文章
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
使用CLIP潜在表示的分层文本条件图像生成
OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。
LeWorldModel:从像素出发的稳定端到端联合嵌入预测架构
LeWorldModel 提出了一种稳定的端到端联合嵌入预测架构(JEPA),可直接从像素进行训练,仅需极少超参数,并具有可证明的反坍塌保证。与基础模型相比,它在规划速度上实现了显著提升,同时在机器人操作任务中保持了具有竞争力的性能。
AnyRecon:基于视频扩散模型的任意视角 3D 重建
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。