表征先于像素:语义引导的分层视频预测

Hugging Face Daily Papers 论文

摘要

Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。

准确的未来视频预测需要高视觉保真度和一致的场景语义,尤其是在自动驾驶等复杂动态环境中。我们提出了 Re2Pix,一种分层视频预测框架,将预测分解为两个阶段:语义表征预测和表征引导的视觉合成。我们的方法不是直接预测未来的 RGB 帧,而是首先在冻结的视觉基础模型的特征空间中预测未来的场景结构,然后将这些预测的表征作为条件输入到潜在扩散模型中,以渲染逼真的帧。这种分解使得模型能够首先关注场景动态,然后关注外观生成。一个关键挑战来自训练时可用真实表征与推理时使用的预测表征之间的训练-测试不匹配。为了解决这个问题,我们引入了两种条件策略:嵌套丢弃和混合监督,提高了对不完美自回归预测的鲁棒性。在具有挑战性的驾驶基准测试上的实验表明,与强大的扩散基线相比,所提出的语义优先设计显著提高了时间语义一致性、感知质量和训练效率。我们在 https://github.com/Sta8is/Re2Pix 提供了实现代码。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - 先表征后像素:语义引导的分层视频预测

来源:https://huggingface.co/papers/2604.11707

摘要

Re2Pix 是一个分层视频预测框架,通过先预测语义表征,再利用这些表征指导逼真的视觉合成,同时借助专门的条件化策略解决训练与测试之间的不匹配问题,从而提升未来视频生成的效果。

准确的未来视频预测 (https://huggingface.co/papers?q=video%20prediction) 既需要高视觉保真度,也需要一致的场景语义,在自动驾驶等复杂动态环境中尤为如此。我们提出 Re2Pix,这是一种分层视频预测 (https://huggingface.co/papers?q=video%20prediction) 框架,将预测过程分解为两个阶段:语义表征预测 (https://huggingface.co/papers?q=semantic%20representation%20prediction) 和表征引导的视觉合成。我们的方法并非直接预测未来的 RGB 帧,而是先在冻结的视觉基础模型 (https://huggingface.co/papers?q=vision%20foundation%20model) 的特征空间中预测未来的场景结构,然后以这些预测的表征作为条件,指导潜在扩散模型 (https://huggingface.co/papers?q=latent%20diffusion%20model) 渲染出逼真的帧。这种解耦设计使得模型能够先专注于场景动态,再处理外观生成。一个关键挑战来自训练与测试之间的不匹配 (https://huggingface.co/papers?q=train-test%20mismatch):训练时可获得真实表征,而推理时使用的是预测表征。为解决此问题,我们引入了两种条件化策略——嵌套丢弃 (https://huggingface.co/papers?q=nested%20dropout) 和混合监督 (https://huggingface.co/papers?q=mixed%20supervision)——这些策略提高了模型对不完美自回归预测的鲁棒性。在具有挑战性的驾驶基准上的实验表明,与强大的扩散基线相比,所提出的语义优先设计显著提升了时间语义一致性 (https://huggingface.co/papers?q=temporal%20semantic%20consistency)、感知质量 (https://huggingface.co/papers?q=perceptual%20quality) 和训练效率。我们在 https://github.com/Sta8is/Re2Pix 提供了实现代码。

查看 arXiv 页面 (https://arxiv.org/abs/2604.11707)查看 PDF (https://arxiv.org/pdf/2604.11707)GitHub8 (https://github.com/Sta8is/Re2Pix)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.11707)

社区

论文提交者

3 天前 (https://huggingface.co/papers/2604.11707#69e1f27e67ed2fdf660b12c4)

像素世界模型还是潜在世界模型?

视频世界模型分为两大阵营:• 生成逼真帧 • 预测未来的语义特征 (例如 DINOv2)

为何要二选一?

我们提出了 Re2Pix,这是一种结合两者的分层方法。combined_video_60 (https://cdn-uploads.huggingface.co/production/uploads/677272184d148b904333e874/7oF3pYvDvaEVo5UVIUgMs.gif) combined_video_228 (https://cdn-uploads.huggingface.co/production/uploads/677272184d148b904333e874/itFW8_VbKd4J9yP2_v34i.gif)

拖拽或粘贴图片、音频和视频到文本输入区域,或点击此处上传。

点击或粘贴此处上传图片

在你的代理中获取这篇论文:

hf papers read 2604.11707

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型与此论文关联

请在模型 README.md 中引用 arxiv.org/abs/2604.11707 以从本页面链接到该模型。

引用此论文的数据集0

没有数据集与此论文关联

请在数据集 README.md 中引用 arxiv.org/abs/2604.11707 以从本页面链接到该数据集。

引用此论文的 Spaces0

没有 Space 与此论文关联

请在 Space README.md 中引用 arxiv.org/abs/2604.11707 以从本页面链接到该 Space。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中,以从本页面链接到该收藏集。

相似文章

使用CLIP潜在表示的分层文本条件图像生成

OpenAI Blog

OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。

LeWorldModel:从像素出发的稳定端到端联合嵌入预测架构

Papers with Code Trending

LeWorldModel 提出了一种稳定的端到端联合嵌入预测架构(JEPA),可直接从像素进行训练,仅需极少超参数,并具有可证明的反坍塌保证。与基础模型相比,它在规划速度上实现了显著提升,同时在机器人操作任务中保持了具有竞争力的性能。