Memento:通过重建实现记忆,用于一致的长时间视频生成

Hugging Face Daily Papers 论文

摘要

Memento 是一个以主体重建为引导的框架,通过基于记忆的重建和双查询机制来保留重复出现的主体,从而改进长视频生成,在长期主体一致性和跨镜头连贯性方面达到了最先进的性能。

长时间视频生成要求重复出现的主体在各种镜头、视角、运动和场景转换中保持一致。现有的时间分解方法通过逐镜头生成视频来提高可扩展性。然而,它们主要专注于优化合理的下一镜头延续,而没有验证历史记忆是否保留了身份关键的主体证据。因此,随着生成的进行,重复出现的主体可能会被稀释、覆盖或遗忘。在本文中,我们提出了 Memento,一个以主体重建为引导的框架,将主体保存视为一个明确的身份基础问题,其前提是:一个忠实保存主体的记忆库应该能够仅从记忆中重建该主体。具体来说,Memento 联合训练自回归的下一镜头生成与基于记忆的主体重建,利用历史记忆和全局故事描述来恢复目标外观。为了将长程主体证据与短程线索分离,Memento 引入了一种双查询记忆机制,其中一个查询检索与身份相关的记忆,另一个选择短上下文关键帧以实现连贯的延续。此外,一个主体感知的电影数据管道通过一致的、无代词的主体描述提供精确的重建监督。实验表明,Memento 在长期主体一致性、跨镜头连贯性和视觉质量方面达到了最先进的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:31

论文页面 - Memento:通过重建实现记忆,以生成一致的长视频

来源:https://huggingface.co/papers/2606.14667

摘要

Memento 是一个主体重建引导的框架,通过基于记忆的重建和双查询机制来保持重复出现的主体,从而改进长视频生成。

长视频生成要求重复出现的主体在各种镜头、视角、运动和场景转换中保持一致。现有的时间分解方法通过逐镜头生成视频来提高可扩展性。然而,它们主要专注于优化合理的下一个镜头延续,而不验证历史记忆是否保留了身份关键的主体证据。因此,随着生成的进行,重复出现的主体可能会被稀释、覆盖或遗忘。在本文中,我们提出 Memento,一个主体重建引导的框架,将主体保持视为一个显式的身份基础问题,其前提是:一个忠实地保留主体的记忆库应该能够仅从记忆中重建该主体。具体来说,Memento 联合训练自回归的下一镜头生成和基于记忆的主体重建,利用历史记忆和全局故事描述来恢复目标外观。为了将长程主体证据与短程线索分离,Memento 引入了一种双查询记忆机制,其中一个查询检索身份相关的记忆,另一个选择短上下文关键帧以实现连贯的延续。此外,一个主体感知的电影数据管道通过一致、无代词的主体描述提供了精确的重建监督。实验表明,Memento 在长期主体一致性、跨镜头连贯性和视觉质量方面达到了最先进的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2606.14667) 查看 PDF (https://arxiv.org/pdf/2606.14667) 项目页面 (https://ernie-research.github.io/Memento/) GitHub1 (https://github.com/ernie-research/Memento) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.14667)

在你的代理中获取此论文:

hf papers read 2606.14667

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

ernie-research/Memento 文本到视频• 更新于约2小时前 • 19 • 3 (https://huggingface.co/ernie-research/Memento)

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.14667 以从本页链接它。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.14667 以从本页链接它。

包含此论文的收藏集2

相似文章