Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架
摘要
Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。
查看缓存全文
缓存时间: 2026/05/20 02:35
论文页面 - Echo-Forcing:面向交互式长视频生成的场景记忆框架
来源: https://huggingface.co/papers/2605.16003 作者:
,
,
,
,
,
,
,
,
,
摘要
Echo-Forcing 通过分层时间记忆、场景回忆帧和差异感知记忆衰减机制,将历史记忆与近期动态解耦,从而解决了交互式长视频生成中的局限性。
自回归视频扩散模型 (https://huggingface.co/papers?q=Autoregressive%20video%20diffusion%20models) 通过局部注意力 (https://huggingface.co/papers?q=local%20attention) 和 KV 缓存 (https://huggingface.co/papers?q=KV%20caching) 实现了开放式生成。然而,现有的无训练长视频优化 (https://huggingface.co/papers?q=training-free%20long-video%20optimization) 方法主要关注单一提示下的稳定扩展,难以应对涉及提示切换、旧场景遗忘和历史场景回忆的交互式场景。我们将核心瓶颈定位为历史 KV 状态 (https://huggingface.co/papers?q=historical%20KV%20states) 的功能纠缠 (https://huggingface.co/papers?q=functional%20entanglement):稳定锚点 (https://huggingface.co/papers?q=stable%20anchors) 和近期动态 (https://huggingface.co/papers?q=recent%20dynamics) 由相同的缓存策略处理,导致背景污染过时、对新提示响应延迟以及长程记忆 (https://huggingface.co/papers?q=long-range%20memory) 丢失。为解决此问题,我们提出了 Echo-Forcing,一个专为交互式长视频生成设计的无训练场景记忆框架,包含三个核心机制:(1) 分层时间记忆,在相对 RoPE (https://huggingface.co/papers?q=relative%20RoPE) 下解耦稳定锚点、压缩历史和近期窗口;(2) 场景回忆帧 (https://huggingface.co/papers?q=Scene%20Recall%20Frames),将历史场景压缩为空间结构的 KV 表示以支持长期回忆;(3) 差异感知记忆衰减 (https://huggingface.co/papers?q=Difference-aware%20Memory%20Decay),根据新旧场景之间的差异自适应地遗忘冲突标记。基于这些设计,Echo-Forcing 在有限的缓存预算下统一支持平滑过渡、硬切和长程场景回忆。在 VBench-Long (https://huggingface.co/papers?q=VBench-Long) 上的广泛评估进一步表明,Echo-Forcing 在长视频生成和交互式视频生成设置中均取得了最佳综合性能。我们的代码已发布在 https://github.com/mingqiangWu/Echo-Forcing
查看 arXiv 页面 (https://arxiv.org/abs/2605.16003) 查看 PDF (https://arxiv.org/pdf/2605.16003) GitHub (15) (https://github.com/mingqiangWu/Echo-Forcing) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.16003)
在你的 Agent 中获取此论文:
hf papers read 2605.16003
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.16003,即可从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.16003,即可从此页面链接。
引用此论文的空间 0
没有空间链接此论文
在空间 README.md 中引用 arxiv.org/abs/2605.16003,即可从此页面链接。
包含此论文的收藏 0
没有包含此论文的收藏
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中,即可从此页面链接。
相似文章
Echo-Infinity: 学习演化记忆用于实时无限视频生成
Echo-Infinity 提出了一种可学习的演化记忆机制,用于自回归视频生成,以恒定的内存成本实现了实时无限视频生成,并达到了最先进的性能。
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
LongLive-RAG:一种通用的检索增强长视频生成框架
LongLive-RAG将长视频生成形式化为检索增强生成问题,利用先前生成潜变量的动态记忆来减少误差积累和身份漂移,在多种自回归骨干网络上提升了生成质量。
EverMemOS: 面向结构化长程推理的自组织记忆操作系统
EverMemOS 是一种面向大语言模型的自组织记忆操作系统,通过将对话结构化为记忆单元和场景来增强长程推理能力。
S3Mem:面向长周期交互式问答的结构化时空场景事件记忆
S3Mem 提出了一种用于长周期交互式问答的结构化时空场景事件记忆框架,采用锚点敏感检索和令牌预算感知的证据接口,在多个环境中优于标准 RAG。