标签
作者称赞某部 AI 生成视频的高质量,认为其足以支撑起电影级别的观赏时长,这与以往那些较短且观赏性较差的 AI 视频形成了鲜明对比。
A^2RD 是一篇新论文,介绍了一种用于长视频合成的代理式自回归扩散架构,通过闭环自改进流程实现了更好的一致性和叙事连贯性。
CoInteract 提出端到端 Diffusion Transformer 框架,联合建模 RGB 外观与 HOI 几何,在零推理开销下生成物理合理、手脸稳定的人-物交互视频。
Overworld发布Waypoint-1.5,一款面向日常GPU的实时视频世界模型,具备改进的视觉保真度,并新增360p和720p档位以支持更广泛的硬件设备。
Lyra 2.0 是 NVIDIA 的框架,用于从单张图像生成持久、可探索的 3D 世界,结合了长程视频合成与显式三维重建,并通过新颖的训练技术解决了空间遗忘和时间漂移问题。
Google DeepMind 的 Project Genie 是一个统一的世界模型,它将多样化的电子游戏视为条件视频预测任务,从而生成并与这些游戏进行交互。