标签
微软研究院推出Mirage,一种潜在空间记忆,直接将3D场景存储为潜在标记,实现视频生成速度提升高达10.57倍,内存使用降低55倍,并达到最先进的一致性。
本文介绍了用于视频世界模型的潜在空间记忆,将3D场景信息直接存储在扩散潜在空间中,以避免昂贵的像素空间重建。所提出的Mirage框架实现了高达10.57倍的生成加速和55倍的内存缩减,同时在WorldScore和RealEstate10K上取得了最先进的性能。