FadeMem: 距离感知的记忆整合用于自回归视频扩散

Hugging Face Daily Papers 论文

摘要

FadeMem 引入了一种距离感知的键值记忆整合机制,将历史视频数据组织成时间层次结构,在固定缓存约束下改进长视频生成。

自回归视频生成器通过生成连续的时间片段来合成长视频,但它们的历史 KV 缓存会随着视频长度增长。现有的有界缓存方法通过局部窗口、sink tokens 或压缩记忆状态来减少这一开销,但它们通常为历史的不同部分分配固定角色。我们提出 FadeMem,一种距离感知的 KV 记忆整合机制,在固定缓存预算下将历史 KV 块组织成时间层次结构。该设计受到频率依赖的时间衰减的启发:细节快速去相关,而粗略的场景结构和身份在更长时间范围内保持有用。在生成过程中,新的历史记录作为细粒度条目插入,而较旧的相邻条目在幂律时间分配调度下逐步合并,在一个缓存内产生近密远疏的记忆。无需架构更改,FadeMem 保留了用于短期动态的近期上下文和用于身份及场景一致性的紧凑远程锚点。实验表明,与现有的有界缓存策略相比,主体一致性、背景稳定性和时间连贯性都有所改善。
查看原文
查看缓存全文

缓存时间: 2026/06/10 13:44

论文页面 - FadeMem:面向自回归视频扩散的距离感知记忆巩固

来源:https://huggingface.co/papers/2606.10671
发布于 6 月 9 日

·

https://huggingface.co/Simase 提交

YL(https://huggingface.co/Simase)于 6 月 10 日

摘要

FadeMem 引入了一种距离感知的键值记忆巩固机制,该机制将历史视频数据组织成时间层次结构,通过在固定缓存约束下保留近期上下文和长期锚点,提升了长视频生成的质量。

自回归视频生成器(https://huggingface.co/papers?q=Autoregressive%20video%20generators)通过生成连续的时序片段来合成长视频,但其历史 KV 缓存(https://huggingface.co/papers?q=KV%20cache)会随视频长度增长。现有的有界缓存方法通过局部窗口、汇聚令牌或压缩记忆状态来降低这一开销,但它们通常为历史的不同部分分配固定角色。我们提出 FadeMem,一种距离感知的 KV 记忆巩固(https://huggingface.co/papers?q=memory%20consolidation)机制,在固定缓存预算下将历史 KV 块组织成时间层次结构(https://huggingface.co/papers?q=temporal%20hierarchy)。该设计受频率依赖的时间衰减(https://huggingface.co/papers?q=temporal%20decay)启发:精细细节迅速去相关,而粗糙的场景结构和身份信息在更长时间内仍然有效。在生成过程中,新的历史记录以细粒度条目插入,而较旧的相邻条目则根据幂律时间分配策略逐步合并,从而在单个缓存中形成密近疏远的记忆。无需架构改动,FadeMem 即可为短期动态保留近期上下文,并为身份和场景连贯性提供紧凑的长期锚点。实验表明,与现有有界缓存策略相比,它在主体一致性(https://huggingface.co/papers?q=subject%20consistency)、背景稳定性(https://huggingface.co/papers?q=background%20stability)和时间连贯性(https://huggingface.co/papers?q=temporal%20coherence)方面均有提升。

查看 arXiv 页面(https://arxiv.org/abs/2606.10671)查看 PDF(https://arxiv.org/pdf/2606.10671)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10671

在你的代理中获取此论文:

hf papers read 2606\.10671

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.10671 即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.10671 即可从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.10671 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。

用于视频世界模型的潜在空间记忆

Hugging Face Daily Papers

本文介绍了用于视频世界模型的潜在空间记忆,将3D场景信息直接存储在扩散潜在空间中,以避免昂贵的像素空间重建。所提出的Mirage框架实现了高达10.57倍的生成加速和55倍的内存缩减,同时在WorldScore和RealEstate10K上取得了最先进的性能。