FadeMem: 距离感知的记忆整合用于自回归视频扩散
摘要
FadeMem 引入了一种距离感知的键值记忆整合机制,将历史视频数据组织成时间层次结构,在固定缓存约束下改进长视频生成。
查看缓存全文
缓存时间: 2026/06/10 13:44
论文页面 - FadeMem:面向自回归视频扩散的距离感知记忆巩固
来源:https://huggingface.co/papers/2606.10671
发布于 6 月 9 日
·
由 https://huggingface.co/Simase 提交
YL(https://huggingface.co/Simase)于 6 月 10 日
摘要
FadeMem 引入了一种距离感知的键值记忆巩固机制,该机制将历史视频数据组织成时间层次结构,通过在固定缓存约束下保留近期上下文和长期锚点,提升了长视频生成的质量。
自回归视频生成器(https://huggingface.co/papers?q=Autoregressive%20video%20generators)通过生成连续的时序片段来合成长视频,但其历史 KV 缓存(https://huggingface.co/papers?q=KV%20cache)会随视频长度增长。现有的有界缓存方法通过局部窗口、汇聚令牌或压缩记忆状态来降低这一开销,但它们通常为历史的不同部分分配固定角色。我们提出 FadeMem,一种距离感知的 KV 记忆巩固(https://huggingface.co/papers?q=memory%20consolidation)机制,在固定缓存预算下将历史 KV 块组织成时间层次结构(https://huggingface.co/papers?q=temporal%20hierarchy)。该设计受频率依赖的时间衰减(https://huggingface.co/papers?q=temporal%20decay)启发:精细细节迅速去相关,而粗糙的场景结构和身份信息在更长时间内仍然有效。在生成过程中,新的历史记录以细粒度条目插入,而较旧的相邻条目则根据幂律时间分配策略逐步合并,从而在单个缓存中形成密近疏远的记忆。无需架构改动,FadeMem 即可为短期动态保留近期上下文,并为身份和场景连贯性提供紧凑的长期锚点。实验表明,与现有有界缓存策略相比,它在主体一致性(https://huggingface.co/papers?q=subject%20consistency)、背景稳定性(https://huggingface.co/papers?q=background%20stability)和时间连贯性(https://huggingface.co/papers?q=temporal%20coherence)方面均有提升。
查看 arXiv 页面(https://arxiv.org/abs/2606.10671)查看 PDF(https://arxiv.org/pdf/2606.10671)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10671)
在你的代理中获取此论文:
hf papers read 2606\.10671
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.10671 即可从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.10671 即可从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.10671 即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
VideoMLA:用于分钟级自回归视频扩散的低秩潜变量KV缓存
VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存,在 B200 上将每个 token 的 KV 内存降低了 92.7%,吞吐量提升了 1.23 倍,同时在 VBench 基准测试中保持了质量。
Forcing-KV:面向高效自回归视频扩散模型的混合KV缓存压缩策略
本文介绍了Forcing-KV,这是一种针对自回归视频扩散模型的混合KV缓存压缩策略,它将注意力头分为静态和动态两类,在1080P分辨率下实现了高达2.82倍的加速,同时保持了输出质量。
DecMem:面向分钟级一致世界生成的解耦记忆方法
DecMem 提出了一种解耦记忆架构,结合稀疏全局记忆和锚定局部记忆,实现了分钟级一致视频生成,性能优于现有最优方法。
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
用于视频世界模型的潜在空间记忆
本文介绍了用于视频世界模型的潜在空间记忆,将3D场景信息直接存储在扩散潜在空间中,以避免昂贵的像素空间重建。所提出的Mirage框架实现了高达10.57倍的生成加速和55倍的内存缩减,同时在WorldScore和RealEstate10K上取得了最先进的性能。