MilliVid:用于视频生成中长程一致性的分层潜在变量

Hugging Face Daily Papers 论文

摘要

本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。

视频生成模型日益强大,但长程一致性仍然难以实现,因为即使只有几十帧,也需要不切实际的长Transformer序列长度。我们表明,通过在多尺度标记空间内使用由粗到细的展开方式生成视频,可以缓解这一问题。我们的方法很简单:首先,我们预训练一个自编码器,将每一帧压缩成一个标记层级,层级范围从典型的潜在分辨率到每帧仅有少量标记。最粗糙的层级捕捉最重要的信息,如场景布局和语义,而较细的层级则添加高频外观和纹理。然后,我们训练一个视频扩散模型,使用由粗到细的展开方式来生成这些标记。通过仔细控制在每次展开步骤中生成帧和用作上下文的细节级别,我们能够在几何和物体恒存性上保持长程一致性,同时将计算资源更多地用于对长程一致性要求不高的、感知上不太重要的细节。我们使用一个自定义的长Minecraft视频数据集验证了这种方法,与现有基线相比,它产生了更加一致的展开结果。
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - MilliVid: 长视频生成中基于分层潜变量的长程一致性

来源: https://huggingface.co/papers/2606.09056

摘要

视频生成模型通过采用多尺度自编码器与扩散模型架构进行从粗到细的令牌生成,实现了改进的长程一致性。

视频生成模型 (https://huggingface.co/papers?q=Video%20generative%20models) 已变得日益强大,但长程一致性 (https://huggingface.co/papers?q=long-range%20consistency) 仍然难以实现,因为即使仅几十帧也需要极长的 Transformer 序列长度 (https://huggingface.co/papers?q=transformer%20sequence%20lengths) ,这在实践中难以承受。我们证明,可以通过在多尺度令牌空间 (https://huggingface.co/papers?q=multi-scale%20token%20space) 内采用从粗到细的展开 (https://huggingface.co/papers?q=coarse-to-fine%20rollout) 来缓解这一问题。我们的方法简单明了:首先,预训练一个自编码器 (https://huggingface.co/papers?q=autoencoder),将每一帧压缩成一个令牌层次结构,层级范围从常见的潜在分辨率直到每帧仅几个令牌。最粗的层级捕获最重要的信息,如场景布局 (https://huggingface.co/papers?q=scene%20layout) 和语义,而较细的层级则添加高频外观和纹理。然后,训练一个视频扩散模型 (https://huggingface.co/papers?q=video%20diffusion%20model),使用从粗到细的展开来生成这些令牌。通过精心控制在每个展开步骤中帧的细节级别以及作为上下文使用的细节级别,我们能够在几何和物体恒常性 (https://huggingface.co/papers?q=object%20permanence) 方面保持长程一致性,同时将对那些感知上不那么重要的细节的长程一致性计算开销降到最低。我们使用一个自定义的长 Minecraft 视频数据集验证了该方法的有效性,与现有基线相比,该方法生成了更加一致的展开结果。

查看 arXiv 页面 (https://arxiv.org/abs/2606.09056) 查看 PDF (https://arxiv.org/pdf/2606.09056) 项目页面 (https://davidcharatan.com/millivid/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09056)

在您的代理中获取此论文:

hf papers read 2606.09056

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.09056 即可从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.09056 即可从此页面链接。

引用此论文的 Space0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.09056 即可从此页面链接。

包含此论文的收藏0

无收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。