@HuggingPapers: 微软研究院推出Mirage潜在空间记忆,直接将3D场景存储为潜在标记,跳过了昂贵的…

X AI KOLs Following 论文

摘要

微软研究院推出Mirage,一种潜在空间记忆,直接将3D场景存储为潜在标记,实现视频生成速度提升高达10.57倍,内存使用降低55倍,并达到最先进的一致性。

微软研究院推出Mirage 潜在空间记忆直接将3D场景存储为潜在标记,跳过了昂贵的RGB渲染与重编码循环。结果是视频生成速度提升高达10.57倍,内存使用降低55倍,并在WorldScore上达到最先进的一致性。 https://t.co/tu9thFHncx
查看原文
查看缓存全文

缓存时间: 2026/06/10 00:18

微软研究院推出Mirage

潜在空间记忆直接将3D场景存储为潜在令牌,跳过了代价高昂的RGB渲染与重新编码循环。这使得视频生成速度最高提升10.57倍,内存占用降低55倍,并在WorldScore上实现了最先进的一致性。https://t.co/tu9thFHncx

相似文章

用于视频世界模型的潜在空间记忆

Hugging Face Daily Papers

本文介绍了用于视频世界模型的潜在空间记忆,将3D场景信息直接存储在扩散潜在空间中,以避免昂贵的像素空间重建。所提出的Mirage框架实现了高达10.57倍的生成加速和55倍的内存缩减,同时在WorldScore和RealEstate10K上取得了最先进的性能。