LongLive-RAG：一种通用的检索增强长视频生成框架

Hugging Face Daily Papers 2026/06/01 00:00 论文

摘要

LongLive-RAG将长视频生成形式化为检索增强生成问题，利用先前生成潜变量的动态记忆来减少误差积累和身份漂移，在多种自回归骨干网络上提升了生成质量。

自回归（AR）视频扩散支持可变长度合成，但长时程生成常常遭受累积误差和身份漂移。为了提高效率，现有方法通常在生成过程中采用滑动窗口注意力。这会产生不可逆的生成轨迹：一旦活动窗口积累外观误差，后续生成只能基于这个降级轨迹并进一步漂移。我们通过将长视频生成形式化为检索增强生成（RAG）问题来解决这一局限。我们不仅依赖最近的窗口，而是将先前生成的潜变量视为动态、可搜索的历史。我们提出LongLive-RAG，一种适用于AR视频生成的通用的检索框架。在每个新块中，LongLive-RAG使用查询嵌入来检索相关的历史潜变量。这个轻量级的检索步骤相较于生成仅增加少量开销，使生成器能够基于非局部上下文而非仅最近窗口进行条件生成。为了使检索更具区分性，我们引入窗口时间差异损失，该损失抑制冗余的局部相似性，鼓励嵌入捕捉有意义的时序变化。这些组件共同帮助减少由滑动窗口注意力引起的误差积累。在多种AR骨干网络和生成长度上的实验表明，长视频质量得到提升，并获得了最佳平均VBench-Long排名。据我们所知，在开放式AR长视频生成方法中，LongLive-RAG是首个将自生成潜变量历史建模为内容可寻址检索记忆的工作。代码已开源：https://github.com/qixinhu11/LongLive-RAG。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:37

Paper page - LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

Source: https://huggingface.co/papers/2606.02553

自回归(AR)视频扩散支持变长合成，但长程生成常面临累积误差和身份漂移问题。为了提高效率，现有方法通常在生成过程中采用滑动窗口注意力。这会产生不可逆的生成轨迹：一旦活动窗口累积了外观误差，后续生成只能以此退化轨迹为条件，从而进一步漂移。

我们通过将长视频生成建模为检索增强生成(RAG)问题来解决这一局限。不同于仅依赖最近窗口，我们将之前生成的潜在变量视为动态可搜索的历史记录。我们提出LongLive-RAG，一种面向AR视频生成的通用检索框架。在每个新块中，LongLive-RAG使用查询嵌入来检索相关的历史潜在变量。这一轻量级检索步骤仅增加少量生成开销，使生成器能够以非局部上下文为条件，而不仅仅是最近窗口。为了增强检索的判别性，我们引入了窗口时间Delta损失(Window Temporal Delta Loss)，该损失抑制冗余的局部相似性，促使嵌入捕捉有意义的时序变化。

在多种AR骨干网络和生成长度上的实验表明，所提方法提升了长视频质量，并取得了最优的平均VBench-Long排名。据我们所知，在开放式AR长视频生成方法中，LongLive-RAG是首个将自生成潜在历史建模为内容可寻址检索记忆的工作。

@yukangchen_: 我们发布了一篇博客：“Why Video Gen Is an Infra Problem”。 https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-i…

X AI KOLs Following

NVIDIA研究博客认为，长视频生成正在成为一个基础设施问题，需要在模型、内存、KV缓存、VAE解码、调度和部署基础设施上进行全栈协同设计，并以LongLive 2.0作为案例研究。

LongLive-RAG：一种通用的检索增强长视频生成框架

Paper page - LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

相似文章

长视频生成（阅读时间 4 分钟）

实时长视频生成（GitHub仓库）

LightRAG：简单高效的检索增强生成框架

LatentRAG：用于高效智能体 RAG 的潜在推理与检索

@yukangchen_: 我们发布了一篇博客：“Why Video Gen Is an Infra Problem”。 https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-i…

提交意见反馈