PermaVid: 通过解耦上下文记忆实现编辑间一致的视频生成
摘要
PermaVid 引入了一种多模态上下文记忆,将外观和几何结构解耦,从而在编辑操作后保持长期视频一致性,超越了此前的方法。
查看缓存全文
缓存时间: 2026/06/16 11:32
Paper page - PermaVid: 一致视频生成跨越编辑操作 via 解耦上下文记忆
来源:https://huggingface.co/papers/2606.16449
摘要
PermaVid 通过使用分离外观与几何结构的多模态记忆库,解决了编辑后视频的长期一致性问题,实现了跨时间和视角的连贯视频生成。
在编辑操作下保持一致的视频生成需要持久性:当编辑修改场景外观或布局时,后续生成应跨时间和视角保持连贯。然而,现有记忆设计在此类修改后难以维持长期一致性,因为存储的上下文可能过时或失效。为此,我们提出 PermaVid,一种基于多模态上下文记忆(https://huggingface.co/papers?q=multi-modal%20context%20memory)的新型框架,该记忆将空间上下文(https://huggingface.co/papers?q=spatial%20context)解耦为语义外观(https://huggingface.co/papers?q=semantic%20appearance)和几何结构(https://huggingface.co/papers?q=geometric%20structure),并配备编辑感知的记忆更新(https://huggingface.co/papers?q=edit-aware%20memory%20update)与检索策略,使记忆演化与后续观测保持一致。具体而言,我们开发了两个互补的记忆库:一个 RGB 上下文记忆(https://huggingface.co/papers?q=RGB%20context%20memory),捕获外观感知的观测并隐式编码几何信息;一个深度上下文记忆(https://huggingface.co/papers?q=depth%20context%20memory),保留与语义解耦的纯几何结构。基于此设计,我们引入了一个记忆引导的视频生成(https://huggingface.co/papers?q=memory-guided%20video%20generation)模型,该模型在从混合模态记忆上下文中提取的参考条件下执行多模态特征融合(https://huggingface.co/papers?q=multi-modal%20feature%20fusion)。实验表明,我们的方法在编辑后保持了强大的长期语义与结构一致性,显著优于现有最先进方法。
查看 arXiv 页面(https://arxiv.org/abs/2606.16449)查看 PDF(https://arxiv.org/pdf/2606.16449)项目页面(https://ys-imtech.github.io/projects/PermaVid/)GitHub(https://github.com/YS-IMTech/PermaVid)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.16449)
在您的代理中获取本文:
hf papers read 2606\.16449
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
无模型关联本论文
在模型 README.md 中引用 arxiv.org/abs/2606.16449 即可在本页面关联。
引用本论文的数据集0
无数据集关联本论文
在数据集 README.md 中引用 arxiv.org/abs/2606.16449 即可在本页面关联。
引用本论文的 Spaces0
无 Space 关联本论文
在 Space README.md 中引用 arxiv.org/abs/2606.16449 即可在本页面关联。
包含本论文的收藏1
相似文章
Memento:通过重建实现记忆,用于一致的长时间视频生成
Memento 是一个以主体重建为引导的框架,通过基于记忆的重建和双查询机制来保留重复出现的主体,从而改进长视频生成,在长期主体一致性和跨镜头连贯性方面达到了最先进的性能。
MilliVid:用于视频生成中长程一致性的分层潜在变量
本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。
FadeMem: 距离感知的记忆整合用于自回归视频扩散
FadeMem 引入了一种距离感知的键值记忆整合机制,将历史视频数据组织成时间层次结构,在固定缓存约束下改进长视频生成。
迈向一致视频几何估计
ViGeo是一个基于Transformer的基础模型,使用动态分块注意力和基于补全的数据精炼框架,从视频中恢复密集且一致的3D几何,在多项任务上实现了最先进的性能。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。