LongLive-RAG:一种通用的检索增强长视频生成框架

Hugging Face Daily Papers 论文

摘要

LongLive-RAG将长视频生成形式化为检索增强生成问题,利用先前生成潜变量的动态记忆来减少误差积累和身份漂移,在多种自回归骨干网络上提升了生成质量。

自回归(AR)视频扩散支持可变长度合成,但长时程生成常常遭受累积误差和身份漂移。为了提高效率,现有方法通常在生成过程中采用滑动窗口注意力。这会产生不可逆的生成轨迹:一旦活动窗口积累外观误差,后续生成只能基于这个降级轨迹并进一步漂移。我们通过将长视频生成形式化为检索增强生成(RAG)问题来解决这一局限。我们不仅依赖最近的窗口,而是将先前生成的潜变量视为动态、可搜索的历史。我们提出LongLive-RAG,一种适用于AR视频生成的通用的检索框架。在每个新块中,LongLive-RAG使用查询嵌入来检索相关的历史潜变量。这个轻量级的检索步骤相较于生成仅增加少量开销,使生成器能够基于非局部上下文而非仅最近窗口进行条件生成。为了使检索更具区分性,我们引入窗口时间差异损失,该损失抑制冗余的局部相似性,鼓励嵌入捕捉有意义的时序变化。这些组件共同帮助减少由滑动窗口注意力引起的误差积累。在多种AR骨干网络和生成长度上的实验表明,长视频质量得到提升,并获得了最佳平均VBench-Long排名。据我们所知,在开放式AR长视频生成方法中,LongLive-RAG是首个将自生成潜变量历史建模为内容可寻址检索记忆的工作。代码已开源:https://github.com/qixinhu11/LongLive-RAG。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:37

Paper page - LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

Source: https://huggingface.co/papers/2606.02553

自回归(AR)视频扩散支持变长合成,但长程生成常面临累积误差和身份漂移问题。为了提高效率,现有方法通常在生成过程中采用滑动窗口注意力。这会产生不可逆的生成轨迹:一旦活动窗口累积了外观误差,后续生成只能以此退化轨迹为条件,从而进一步漂移。

我们通过将长视频生成建模为检索增强生成(RAG)问题来解决这一局限。不同于仅依赖最近窗口,我们将之前生成的潜在变量视为动态可搜索的历史记录。我们提出LongLive-RAG,一种面向AR视频生成的通用检索框架。在每个新块中,LongLive-RAG使用查询嵌入来检索相关的历史潜在变量。这一轻量级检索步骤仅增加少量生成开销,使生成器能够以非局部上下文为条件,而不仅仅是最近窗口。为了增强检索的判别性,我们引入了窗口时间Delta损失(Window Temporal Delta Loss),该损失抑制冗余的局部相似性,促使嵌入捕捉有意义的时序变化。

在多种AR骨干网络和生成长度上的实验表明,所提方法提升了长视频质量,并取得了最优的平均VBench-Long排名。据我们所知,在开放式AR长视频生成方法中,LongLive-RAG是首个将自生成潜在历史建模为内容可寻址检索记忆的工作。

相似文章

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。

实时长视频生成(GitHub仓库)

TLDR AI

NVlabs 发布了 LongLive 2.0,这是一个采用 NVFP4 量化的实时长视频生成并行基础设施,同时支持训练和推理。它达到了 45.7 FPS,并被 ICLR 2026 接收。