增强无需训练的无限帧生成以实现一致的长视频
摘要
MIGA是一种无需训练的方法,通过减少训练与推理之间的差距并利用双重一致性机制增强时间一致性来生成一致的长视频。
查看缓存全文
缓存时间: 2026/05/21 10:10
论文页面 - 增强无训练无限帧生成以实现一致的长视频
来源:https://huggingface.co/papers/2605.18233
摘要
MIGA 通过双重一致性机制缩小训练-推理差距并增强时间一致性,从而应对长视频生成的挑战。
在不引入显著计算开销的前提下,无训练长视频生成旨在让基础视频生成模型能够生成长度更长的视频。帧级自回归框架(例如 FIFO-diffusion)的优势在于能够在恒定内存消耗下生成无限长的视频。然而,训练与推理之间的不匹配,以及维持长期一致性的挑战,限制了基础模型的有效利用。为缓解这些问题,我们提出了 MIGA,一种新颖的无限帧长视频生成方法。首先,我们提出一种有效的两阶段对齐机制,通过减少输入模型的噪声跨度来缓解训练-推理差距。接着,我们引入一种创新的双重一致性增强机制,其中自我反思方法校正早期高噪声帧,而长程帧引导方法利用后期低噪声帧的广泛覆盖来指导生成,共同提升时间一致性。在 VBench 和 NarrLV 上的大量实验表明,MIGA 达到了最先进的性能。我们的项目页面位于 https://xiaokunfeng.github.io/miga_homepage/。
查看 arXiv 页面 (https://arxiv.org/abs/2605.18233) 查看 PDF (https://arxiv.org/pdf/2605.18233) 项目页面 (https://xiaokunfeng.github.io/miga_homepage/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18233)
在您的 agent 中获取本文:
hf papers read 2605\.18233
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.18233 以从该页面链接。
引用本文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.18233 以从该页面链接。
引用本文的 Space0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.18233 以从该页面链接。
包含本文的收藏0
没有包含此论文的收藏
请将本文添加到一个收藏中以从该页面链接。
相似文章
MilliVid:用于视频生成中长程一致性的分层潜在变量
本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。
Memento:通过重建实现记忆,用于一致的长时间视频生成
Memento 是一个以主体重建为引导的框架,通过基于记忆的重建和双查询机制来保留重复出现的主体,从而改进长视频生成,在长期主体一致性和跨镜头连贯性方面达到了最先进的性能。
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
One-Forcing: 迈向稳定的单步自回归视频生成
One-Forcing 通过用辅助 GAN 损失增强 DMD 目标,改进了单步视频生成,以更低的训练成本实现了最先进的性能。
Echo-Infinity: 学习演化记忆用于实时无限视频生成
Echo-Infinity 提出了一种可学习的演化记忆机制,用于自回归视频生成,以恒定的内存成本实现了实时无限视频生成,并达到了最先进的性能。