标签
Memento 是一个以主体重建为引导的框架,通过基于记忆的重建和双查询机制来保留重复出现的主体,从而改进长视频生成,在长期主体一致性和跨镜头连贯性方面达到了最先进的性能。
一种新颖的推理时长视频生成方法,使用重叠滑动窗口结合Tweedie匹配和随机早期阶段采样,在不额外训练的情况下提高时间一致性和视觉质量。
MIGA是一种无需训练的方法,通过减少训练与推理之间的差距并利用双重一致性机制增强时间一致性来生成一致的长视频。
LongLive-2.0 引入了一种基于NVFP4的并行基础设施,用于长视频生成,在训练上实现了高达2.15倍的加速,推理上实现了1.84倍的加速,5B模型达到了45.7 FPS。