Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架

Hugging Face Daily Papers 论文

摘要

Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。

自回归视频扩散模型通过局部注意力和KV缓存实现了开放式生成。然而,现有的无需训练的长视频优化方法主要专注于单一提示下的稳定扩展,难以处理涉及提示切换、旧场景遗忘和历史场景召回的交互式场景。我们发现核心瓶颈在于历史KV状态的功能纠缠:稳定锚点和近期动态由同一缓存策略处理,导致过时背景污染、对新提示的响应延迟以及长期记忆的丢失。为了解决这个问题,我们提出了Echo-Forcing,这是一种专为交互式长视频生成设计的无需训练的场景记忆框架,包含三个核心机制:(1) 分层时间记忆,在相对RoPE下将稳定锚点、压缩历史和近期窗口解耦;(2) 场景召回帧,将历史场景压缩为空间结构化的KV表示以支持长期召回;(3) 差异感知记忆衰减,根据新旧场景之间的差异自适应地遗忘冲突令牌。基于这些设计,Echo-Forcing 在有限的缓存预算下统一支持平滑过渡、硬切和长期场景召回。在VBench-Long上的广泛评估进一步表明,Echo-Forcing 在长视频生成和交互式视频生成设置中均取得了最佳整体性能。我们的代码已在 https://github.com/mingqiangWu/Echo-Forcing 发布。
查看原文
查看缓存全文

缓存时间: 2026/05/20 02:35

论文页面 - Echo-Forcing:面向交互式长视频生成的场景记忆框架

来源: https://huggingface.co/papers/2605.16003 作者:

,

,

,

,

,

,

,

,

,

摘要

Echo-Forcing 通过分层时间记忆、场景回忆帧和差异感知记忆衰减机制,将历史记忆与近期动态解耦,从而解决了交互式长视频生成中的局限性。

自回归视频扩散模型 (https://huggingface.co/papers?q=Autoregressive%20video%20diffusion%20models) 通过局部注意力 (https://huggingface.co/papers?q=local%20attention) 和 KV 缓存 (https://huggingface.co/papers?q=KV%20caching) 实现了开放式生成。然而,现有的无训练长视频优化 (https://huggingface.co/papers?q=training-free%20long-video%20optimization) 方法主要关注单一提示下的稳定扩展,难以应对涉及提示切换、旧场景遗忘和历史场景回忆的交互式场景。我们将核心瓶颈定位为历史 KV 状态 (https://huggingface.co/papers?q=historical%20KV%20states) 的功能纠缠 (https://huggingface.co/papers?q=functional%20entanglement):稳定锚点 (https://huggingface.co/papers?q=stable%20anchors) 和近期动态 (https://huggingface.co/papers?q=recent%20dynamics) 由相同的缓存策略处理,导致背景污染过时、对新提示响应延迟以及长程记忆 (https://huggingface.co/papers?q=long-range%20memory) 丢失。为解决此问题,我们提出了 Echo-Forcing,一个专为交互式长视频生成设计的无训练场景记忆框架,包含三个核心机制:(1) 分层时间记忆,在相对 RoPE (https://huggingface.co/papers?q=relative%20RoPE) 下解耦稳定锚点、压缩历史和近期窗口;(2) 场景回忆帧 (https://huggingface.co/papers?q=Scene%20Recall%20Frames),将历史场景压缩为空间结构的 KV 表示以支持长期回忆;(3) 差异感知记忆衰减 (https://huggingface.co/papers?q=Difference-aware%20Memory%20Decay),根据新旧场景之间的差异自适应地遗忘冲突标记。基于这些设计,Echo-Forcing 在有限的缓存预算下统一支持平滑过渡、硬切和长程场景回忆。在 VBench-Long (https://huggingface.co/papers?q=VBench-Long) 上的广泛评估进一步表明,Echo-Forcing 在长视频生成和交互式视频生成设置中均取得了最佳综合性能。我们的代码已发布在 https://github.com/mingqiangWu/Echo-Forcing

查看 arXiv 页面 (https://arxiv.org/abs/2605.16003) 查看 PDF (https://arxiv.org/pdf/2605.16003) GitHub (15) (https://github.com/mingqiangWu/Echo-Forcing) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.16003)

在你的 Agent 中获取此论文:

hf papers read 2605.16003

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.16003,即可从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.16003,即可从此页面链接。

引用此论文的空间 0

没有空间链接此论文

在空间 README.md 中引用 arxiv.org/abs/2605.16003,即可从此页面链接。

包含此论文的收藏 0

没有包含此论文的收藏

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中,即可从此页面链接。

相似文章

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。