Memento：通过重建实现记忆，用于一致的长时间视频生成

Hugging Face Daily Papers 2026/06/12 00:00 论文

long-video-generation subject-consistency memory-based-reconstruction dual-query-mechanism autoregressive-generation video-generation temporal-decomposition

摘要

Memento 是一个以主体重建为引导的框架，通过基于记忆的重建和双查询机制来保留重复出现的主体，从而改进长视频生成，在长期主体一致性和跨镜头连贯性方面达到了最先进的性能。

长时间视频生成要求重复出现的主体在各种镜头、视角、运动和场景转换中保持一致。现有的时间分解方法通过逐镜头生成视频来提高可扩展性。然而，它们主要专注于优化合理的下一镜头延续，而没有验证历史记忆是否保留了身份关键的主体证据。因此，随着生成的进行，重复出现的主体可能会被稀释、覆盖或遗忘。在本文中，我们提出了 Memento，一个以主体重建为引导的框架，将主体保存视为一个明确的身份基础问题，其前提是：一个忠实保存主体的记忆库应该能够仅从记忆中重建该主体。具体来说，Memento 联合训练自回归的下一镜头生成与基于记忆的主体重建，利用历史记忆和全局故事描述来恢复目标外观。为了将长程主体证据与短程线索分离，Memento 引入了一种双查询记忆机制，其中一个查询检索与身份相关的记忆，另一个选择短上下文关键帧以实现连贯的延续。此外，一个主体感知的电影数据管道通过一致的、无代词的主体描述提供精确的重建监督。实验表明，Memento 在长期主体一致性、跨镜头连贯性和视觉质量方面达到了最先进的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:31

论文页面 - Memento：通过重建实现记忆，以生成一致的长视频

来源：https://huggingface.co/papers/2606.14667

摘要

Memento 是一个主体重建引导的框架，通过基于记忆的重建和双查询机制来保持重复出现的主体，从而改进长视频生成。

长视频生成要求重复出现的主体在各种镜头、视角、运动和场景转换中保持一致。现有的时间分解方法通过逐镜头生成视频来提高可扩展性。然而，它们主要专注于优化合理的下一个镜头延续，而不验证历史记忆是否保留了身份关键的主体证据。因此，随着生成的进行，重复出现的主体可能会被稀释、覆盖或遗忘。在本文中，我们提出 Memento，一个主体重建引导的框架，将主体保持视为一个显式的身份基础问题，其前提是：一个忠实地保留主体的记忆库应该能够仅从记忆中重建该主体。具体来说，Memento 联合训练自回归的下一镜头生成和基于记忆的主体重建，利用历史记忆和全局故事描述来恢复目标外观。为了将长程主体证据与短程线索分离，Memento 引入了一种双查询记忆机制，其中一个查询检索身份相关的记忆，另一个选择短上下文关键帧以实现连贯的延续。此外，一个主体感知的电影数据管道通过一致、无代词的主体描述提供了精确的重建监督。实验表明，Memento 在长期主体一致性、跨镜头连贯性和视觉质量方面达到了最先进的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2606.14667) 查看 PDF (https://arxiv.org/pdf/2606.14667) 项目页面 (https://ernie-research.github.io/Memento/) GitHub1 (https://github.com/ernie-research/Memento) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.14667)

在你的代理中获取此论文：

hf papers read 2606.14667

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

ernie-research/Memento 文本到视频• 更新于约2小时前 • 19 • 3 (https://huggingface.co/ernie-research/Memento)

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.14667 以从本页链接它。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.14667 以从本页链接它。

Memento：通过重建实现记忆，用于一致的长时间视频生成

论文页面 - Memento：通过重建实现记忆，以生成一致的长视频

摘要

引用此论文的模型1

ernie-research/Memento 文本到视频• 更新于约2小时前 • 19 • 3 (https://huggingface.co/ernie-research/Memento)

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集2

相似文章

PermaVid: 通过解耦上下文记忆实现编辑间一致的视频生成

DecMem：面向分钟级一致世界生成的解耦记忆方法

MemDreamer：通过分层图记忆与代理检索机制解耦长视频理解中的感知与推理

FadeMem: 距离感知的记忆整合用于自回归视频扩散

MuSS：面向多镜头主体到视频生成的大规模数据集与电影叙事基准

提交意见反馈