PermaVid: 通过解耦上下文记忆实现编辑间一致的视频生成

Hugging Face Daily Papers 论文

摘要

PermaVid 引入了一种多模态上下文记忆,将外观和几何结构解耦,从而在编辑操作后保持长期视频一致性,超越了此前的方法。

在编辑操作下实现一致的视频生成需要持久性:当编辑修改场景外观或布局时,后续生成应在时间和视角上保持连贯。然而,现有记忆设计在修改后难以维持长期一致性,因为存储的上下文可能过时或失效。为解决这一问题,我们提出 PermaVid,这是一种基于多模态上下文记忆的新框架,将空间上下文解耦为语义外观和几何结构,并配合一种编辑感知的记忆更新与检索策略,使记忆演化与后续观察保持一致。具体而言,我们开发了两个互补的记忆库:一个 RGB 上下文记忆,用于捕获外观感知的观察结果并隐式编码几何信息;一个深度上下文记忆,用于保留与语义解耦的纯几何结构。基于这一设计,我们引入了一种记忆引导的视频生成模型,该模型在从混合模态记忆上下文中提取的参考条件下执行多模态特征融合。实验表明,我们的方法在编辑后保持了强大的长期语义和结构一致性,显著优于最先进的方法。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:32

Paper page - PermaVid: 一致视频生成跨越编辑操作 via 解耦上下文记忆

来源:https://huggingface.co/papers/2606.16449

摘要

PermaVid 通过使用分离外观与几何结构的多模态记忆库,解决了编辑后视频的长期一致性问题,实现了跨时间和视角的连贯视频生成。

在编辑操作下保持一致的视频生成需要持久性:当编辑修改场景外观或布局时,后续生成应跨时间和视角保持连贯。然而,现有记忆设计在此类修改后难以维持长期一致性,因为存储的上下文可能过时或失效。为此,我们提出 PermaVid,一种基于多模态上下文记忆(https://huggingface.co/papers?q=multi-modal%20context%20memory)的新型框架,该记忆将空间上下文(https://huggingface.co/papers?q=spatial%20context)解耦为语义外观(https://huggingface.co/papers?q=semantic%20appearance)和几何结构(https://huggingface.co/papers?q=geometric%20structure),并配备编辑感知的记忆更新(https://huggingface.co/papers?q=edit-aware%20memory%20update)与检索策略,使记忆演化与后续观测保持一致。具体而言,我们开发了两个互补的记忆库:一个 RGB 上下文记忆(https://huggingface.co/papers?q=RGB%20context%20memory),捕获外观感知的观测并隐式编码几何信息;一个深度上下文记忆(https://huggingface.co/papers?q=depth%20context%20memory),保留与语义解耦的纯几何结构。基于此设计,我们引入了一个记忆引导的视频生成(https://huggingface.co/papers?q=memory-guided%20video%20generation)模型,该模型在从混合模态记忆上下文中提取的参考条件下执行多模态特征融合(https://huggingface.co/papers?q=multi-modal%20feature%20fusion)。实验表明,我们的方法在编辑后保持了强大的长期语义与结构一致性,显著优于现有最先进方法。

查看 arXiv 页面(https://arxiv.org/abs/2606.16449)查看 PDF(https://arxiv.org/pdf/2606.16449)项目页面(https://ys-imtech.github.io/projects/PermaVid/)GitHub(https://github.com/YS-IMTech/PermaVid)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.16449)

在您的代理中获取本文:

hf papers read 2606\.16449

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

无模型关联本论文

在模型 README.md 中引用 arxiv.org/abs/2606.16449 即可在本页面关联。

引用本论文的数据集0

无数据集关联本论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16449 即可在本页面关联。

引用本论文的 Spaces0

无 Space 关联本论文

在 Space README.md 中引用 arxiv.org/abs/2606.16449 即可在本页面关联。

包含本论文的收藏1

相似文章

MilliVid:用于视频生成中长程一致性的分层潜在变量

Hugging Face Daily Papers

本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。

迈向一致视频几何估计

Hugging Face Daily Papers

ViGeo是一个基于Transformer的基础模型,使用动态分块注意力和基于补全的数据精炼框架,从视频中恢复密集且一致的3D几何,在多项任务上实现了最先进的性能。