@HuggingPapers: 微软研究院推出Mirage潜在空间记忆,直接将3D场景存储为潜在标记,跳过了昂贵的…
摘要
微软研究院推出Mirage,一种潜在空间记忆,直接将3D场景存储为潜在标记,实现视频生成速度提升高达10.57倍,内存使用降低55倍,并达到最先进的一致性。
微软研究院推出Mirage
潜在空间记忆直接将3D场景存储为潜在标记,跳过了昂贵的RGB渲染与重编码循环。结果是视频生成速度提升高达10.57倍,内存使用降低55倍,并在WorldScore上达到最先进的一致性。 https://t.co/tu9thFHncx
查看缓存全文
缓存时间: 2026/06/10 00:18
微软研究院推出Mirage
潜在空间记忆直接将3D场景存储为潜在令牌,跳过了代价高昂的RGB渲染与重新编码循环。这使得视频生成速度最高提升10.57倍,内存占用降低55倍,并在WorldScore上实现了最先进的一致性。https://t.co/tu9thFHncx
相似文章
用于视频世界模型的潜在空间记忆
本文介绍了用于视频世界模型的潜在空间记忆,将3D场景信息直接存储在扩散潜在空间中,以避免昂贵的像素空间重建。所提出的Mirage框架实现了高达10.57倍的生成加速和55倍的内存缩减,同时在WorldScore和RealEstate10K上取得了最先进的性能。
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。
@HuggingPapers:微软刚刚在Hugging Face上发布了Lens,一个38亿参数的文本到图像模型,提供高效训练和高…
微软在Hugging Face上发布了Lens,一个38亿参数的文本到图像模型,支持高效训练和高达1440×1440的高分辨率生成。
CoreMem: 对话代理中长期记忆的黎曼检索与Fisher引导蒸馏
CoreMem提出了一种资源高效的边缘-云端内存架构,用于对话代理,采用基于Fisher-Rao度量的黎曼检索和Fisher引导的离散令牌蒸馏,在8 GB VRAM预算内实现了显著的准确性提升。
@HaochengXiUCB: 新博客文章:视频与世界模型中的遗忘墙——长时域视频生成不仅仅受限于计算……
这篇博客文章介绍了长时域视频生成和世界模型中'Forgetting Wall'的概念,认为主要瓶颈是内存(KV缓存增长)而非计算,并探讨了压缩作为未来模型的关键方向。