标签
SANA-Streaming 利用混合扩散Transformer架构、循环反向正则化以及高效的系统协同设计,在消费级GPU上实现实时高分辨率视频到视频编辑,在单张RTX 5090上达到1280×704分辨率下24 FPS。
LatentOmni 提出了一种跨模态推理框架,将文本推理与音视频潜在状态交错结合,在音视频推理任务上优于显式文本链式思考方法。
一种新颖的推理时长视频生成方法,使用重叠滑动窗口结合Tweedie匹配和随机早期阶段采样,在不额外训练的情况下提高时间一致性和视觉质量。
MIGA是一种无需训练的方法,通过减少训练与推理之间的差距并利用双重一致性机制增强时间一致性来生成一致的长视频。
Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。