增强无需训练的无限帧生成以实现一致的长视频

Hugging Face Daily Papers 论文

摘要

MIGA是一种无需训练的方法,通过减少训练与推理之间的差距并利用双重一致性机制增强时间一致性来生成一致的长视频。

在不引入显著计算开销的前提下,无需训练的长视频生成方法旨在使基础视频生成模型能够生成更长的视频。帧级自回归框架(如FIFO-diffusion)具有以恒定内存消耗生成无限长视频的优势。然而,训练与推理之间的不匹配,加上长期一致性维护的挑战,限制了基础模型的有效利用。为缓解这些问题,我们提出MIGA,一种新颖的无限帧长视频生成方法。首先,我们提出了一种有效的两阶段对齐机制,通过减少输入模型的过度噪声跨度来缩小训练-推理差距。接着,我们引入了一种创新的双重一致性增强机制,其中自我反思方法校正早期高噪声帧,而长程帧引导方法利用后期低噪声帧的广泛覆盖来引导生成,共同提升时间一致性。在VBench和NarrLV上的大量实验证明了MIGA的最优性能。我们的项目页面位于https://xiaokunfeng.github.io/miga_homepage/。
查看原文
查看缓存全文

缓存时间: 2026/05/21 10:10

论文页面 - 增强无训练无限帧生成以实现一致的长视频

来源:https://huggingface.co/papers/2605.18233

摘要

MIGA 通过双重一致性机制缩小训练-推理差距并增强时间一致性,从而应对长视频生成的挑战。

在不引入显著计算开销的前提下,无训练长视频生成旨在让基础视频生成模型能够生成长度更长的视频。帧级自回归框架(例如 FIFO-diffusion)的优势在于能够在恒定内存消耗下生成无限长的视频。然而,训练与推理之间的不匹配,以及维持长期一致性的挑战,限制了基础模型的有效利用。为缓解这些问题,我们提出了 MIGA,一种新颖的无限帧长视频生成方法。首先,我们提出一种有效的两阶段对齐机制,通过减少输入模型的噪声跨度来缓解训练-推理差距。接着,我们引入一种创新的双重一致性增强机制,其中自我反思方法校正早期高噪声帧,而长程帧引导方法利用后期低噪声帧的广泛覆盖来指导生成,共同提升时间一致性。在 VBench 和 NarrLV 上的大量实验表明,MIGA 达到了最先进的性能。我们的项目页面位于 https://xiaokunfeng.github.io/miga_homepage/。

查看 arXiv 页面 (https://arxiv.org/abs/2605.18233) 查看 PDF (https://arxiv.org/pdf/2605.18233) 项目页面 (https://xiaokunfeng.github.io/miga_homepage/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18233)

在您的 agent 中获取本文:

hf papers read 2605\.18233

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.18233 以从该页面链接。

引用本文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.18233 以从该页面链接。

引用本文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.18233 以从该页面链接。

包含本文的收藏0

没有包含此论文的收藏

请将本文添加到一个收藏中以从该页面链接。

相似文章

MilliVid:用于视频生成中长程一致性的分层潜在变量

Hugging Face Daily Papers

本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。