MilliVid:用于视频生成中长程一致性的分层潜在变量
摘要
本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。
查看缓存全文
缓存时间: 2026/06/10 05:45
论文页面 - MilliVid: 长视频生成中基于分层潜变量的长程一致性
来源: https://huggingface.co/papers/2606.09056
摘要
视频生成模型通过采用多尺度自编码器与扩散模型架构进行从粗到细的令牌生成,实现了改进的长程一致性。
视频生成模型 (https://huggingface.co/papers?q=Video%20generative%20models) 已变得日益强大,但长程一致性 (https://huggingface.co/papers?q=long-range%20consistency) 仍然难以实现,因为即使仅几十帧也需要极长的 Transformer 序列长度 (https://huggingface.co/papers?q=transformer%20sequence%20lengths) ,这在实践中难以承受。我们证明,可以通过在多尺度令牌空间 (https://huggingface.co/papers?q=multi-scale%20token%20space) 内采用从粗到细的展开 (https://huggingface.co/papers?q=coarse-to-fine%20rollout) 来缓解这一问题。我们的方法简单明了:首先,预训练一个自编码器 (https://huggingface.co/papers?q=autoencoder),将每一帧压缩成一个令牌层次结构,层级范围从常见的潜在分辨率直到每帧仅几个令牌。最粗的层级捕获最重要的信息,如场景布局 (https://huggingface.co/papers?q=scene%20layout) 和语义,而较细的层级则添加高频外观和纹理。然后,训练一个视频扩散模型 (https://huggingface.co/papers?q=video%20diffusion%20model),使用从粗到细的展开来生成这些令牌。通过精心控制在每个展开步骤中帧的细节级别以及作为上下文使用的细节级别,我们能够在几何和物体恒常性 (https://huggingface.co/papers?q=object%20permanence) 方面保持长程一致性,同时将对那些感知上不那么重要的细节的长程一致性计算开销降到最低。我们使用一个自定义的长 Minecraft 视频数据集验证了该方法的有效性,与现有基线相比,该方法生成了更加一致的展开结果。
查看 arXiv 页面 (https://arxiv.org/abs/2606.09056) 查看 PDF (https://arxiv.org/pdf/2606.09056) 项目页面 (https://davidcharatan.com/millivid/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09056)
在您的代理中获取此论文:
hf papers read 2606.09056
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.09056 即可从此页面链接。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.09056 即可从此页面链接。
引用此论文的 Space0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.09056 即可从此页面链接。
包含此论文的收藏0
无收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
PermaVid: 通过解耦上下文记忆实现编辑间一致的视频生成
PermaVid 引入了一种多模态上下文记忆,将外观和几何结构解耦,从而在编辑操作后保持长期视频一致性,超越了此前的方法。
增强无需训练的无限帧生成以实现一致的长视频
MIGA是一种无需训练的方法,通过减少训练与推理之间的差距并利用双重一致性机制增强时间一致性来生成一致的长视频。
VideoMLA:用于分钟级自回归视频扩散的低秩潜变量KV缓存
VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存,在 B200 上将每个 token 的 KV 内存降低了 92.7%,吞吐量提升了 1.23 倍,同时在 VBench 基准测试中保持了质量。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。