@HuggingPapers: 微软研究院推出Mirage潜在空间记忆，直接将3D场景存储为潜在标记，跳过了昂贵的…

X AI KOLs Following 2026/06/09 17:03 论文

microsoft-research 3d-scene-representation latent-spatial-memory video-generation memory-efficiency

摘要

微软研究院推出Mirage，一种潜在空间记忆，直接将3D场景存储为潜在标记，实现视频生成速度提升高达10.57倍，内存使用降低55倍，并达到最先进的一致性。

微软研究院推出Mirage 潜在空间记忆直接将3D场景存储为潜在标记，跳过了昂贵的RGB渲染与重编码循环。结果是视频生成速度提升高达10.57倍，内存使用降低55倍，并在WorldScore上达到最先进的一致性。 https://t.co/tu9thFHncx

查看原文

查看缓存全文

缓存时间: 2026/06/10 00:18

微软研究院推出Mirage

潜在空间记忆直接将3D场景存储为潜在令牌，跳过了代价高昂的RGB渲染与重新编码循环。这使得视频生成速度最高提升10.57倍，内存占用降低55倍，并在WorldScore上实现了最先进的一致性。https://t.co/tu9thFHncx

相似文章

用于视频世界模型的潜在空间记忆

Hugging Face Daily Papers

本文介绍了用于视频世界模型的潜在空间记忆，将3D场景信息直接存储在扩散潜在空间中，以避免昂贵的像素空间重建。所提出的Mirage框架实现了高达10.57倍的生成加速和55倍的内存缩减，同时在WorldScore和RealEstate10K上取得了最先进的性能。

MemLens：大规模视觉-语言模型中多模态长期记忆的基准测试

Hugging Face Daily Papers

MemLens是一个新的基准测试，通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法，揭示了二者的局限性，并推动了混合架构的发展。

@HuggingPapers：微软刚刚在Hugging Face上发布了Lens，一个38亿参数的文本到图像模型，提供高效训练和高…

X AI KOLs Following

微软在Hugging Face上发布了Lens，一个38亿参数的文本到图像模型，支持高效训练和高达1440×1440的高分辨率生成。

CoreMem: 对话代理中长期记忆的黎曼检索与Fisher引导蒸馏

arXiv cs.CL

CoreMem提出了一种资源高效的边缘-云端内存架构，用于对话代理，采用基于Fisher-Rao度量的黎曼检索和Fisher引导的离散令牌蒸馏，在8 GB VRAM预算内实现了显著的准确性提升。

@HaochengXiUCB: 新博客文章：视频与世界模型中的遗忘墙——长时域视频生成不仅仅受限于计算……

X AI KOLs Following

这篇博客文章介绍了长时域视频生成和世界模型中'Forgetting Wall'的概念，认为主要瓶颈是内存（KV缓存增长）而非计算，并探讨了压缩作为未来模型的关键方向。

提交意见反馈