Memento:通过重建实现记忆,用于一致的长时间视频生成
摘要
Memento 是一个以主体重建为引导的框架,通过基于记忆的重建和双查询机制来保留重复出现的主体,从而改进长视频生成,在长期主体一致性和跨镜头连贯性方面达到了最先进的性能。
查看缓存全文
缓存时间: 2026/06/16 11:31
论文页面 - Memento:通过重建实现记忆,以生成一致的长视频
来源:https://huggingface.co/papers/2606.14667
摘要
Memento 是一个主体重建引导的框架,通过基于记忆的重建和双查询机制来保持重复出现的主体,从而改进长视频生成。
长视频生成要求重复出现的主体在各种镜头、视角、运动和场景转换中保持一致。现有的时间分解方法通过逐镜头生成视频来提高可扩展性。然而,它们主要专注于优化合理的下一个镜头延续,而不验证历史记忆是否保留了身份关键的主体证据。因此,随着生成的进行,重复出现的主体可能会被稀释、覆盖或遗忘。在本文中,我们提出 Memento,一个主体重建引导的框架,将主体保持视为一个显式的身份基础问题,其前提是:一个忠实地保留主体的记忆库应该能够仅从记忆中重建该主体。具体来说,Memento 联合训练自回归的下一镜头生成和基于记忆的主体重建,利用历史记忆和全局故事描述来恢复目标外观。为了将长程主体证据与短程线索分离,Memento 引入了一种双查询记忆机制,其中一个查询检索身份相关的记忆,另一个选择短上下文关键帧以实现连贯的延续。此外,一个主体感知的电影数据管道通过一致、无代词的主体描述提供了精确的重建监督。实验表明,Memento 在长期主体一致性、跨镜头连贯性和视觉质量方面达到了最先进的性能。
查看 arXiv 页面 (https://arxiv.org/abs/2606.14667) 查看 PDF (https://arxiv.org/pdf/2606.14667) 项目页面 (https://ernie-research.github.io/Memento/) GitHub1 (https://github.com/ernie-research/Memento) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.14667)
在你的代理中获取此论文:
hf papers read 2606.14667
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型1
ernie-research/Memento 文本到视频• 更新于约2小时前 • 19 • 3 (https://huggingface.co/ernie-research/Memento)
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.14667 以从本页链接它。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.14667 以从本页链接它。
包含此论文的收藏集2
相似文章
PermaVid: 通过解耦上下文记忆实现编辑间一致的视频生成
PermaVid 引入了一种多模态上下文记忆,将外观和几何结构解耦,从而在编辑操作后保持长期视频一致性,超越了此前的方法。
DecMem:面向分钟级一致世界生成的解耦记忆方法
DecMem 提出了一种解耦记忆架构,结合稀疏全局记忆和锚定局部记忆,实现了分钟级一致视频生成,性能优于现有最优方法。
MemDreamer:通过分层图记忆与代理检索机制解耦长视频理解中的感知与推理
MemDreamer 通过分层图记忆和代理检索解耦长视频理解中的感知与推理,在降低计算开销的同时实现了最先进的性能。
FadeMem: 距离感知的记忆整合用于自回归视频扩散
FadeMem 引入了一种距离感知的键值记忆整合机制,将历史视频数据组织成时间层次结构,在固定缓存约束下改进长视频生成。
MuSS:面向多镜头主体到视频生成的大规模数据集与电影叙事基准
MuSS 引入了一个用于多镜头主体到视频生成的大规模数据集和基准,旨在解决电影叙事中的逻辑一致性和“复制-粘贴”问题。