LongLive-RAG:一种通用的检索增强长视频生成框架
摘要
LongLive-RAG将长视频生成形式化为检索增强生成问题,利用先前生成潜变量的动态记忆来减少误差积累和身份漂移,在多种自回归骨干网络上提升了生成质量。
查看缓存全文
缓存时间: 2026/06/02 15:37
Paper page - LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation
Source: https://huggingface.co/papers/2606.02553
自回归(AR)视频扩散支持变长合成,但长程生成常面临累积误差和身份漂移问题。为了提高效率,现有方法通常在生成过程中采用滑动窗口注意力。这会产生不可逆的生成轨迹:一旦活动窗口累积了外观误差,后续生成只能以此退化轨迹为条件,从而进一步漂移。
我们通过将长视频生成建模为检索增强生成(RAG)问题来解决这一局限。不同于仅依赖最近窗口,我们将之前生成的潜在变量视为动态可搜索的历史记录。我们提出LongLive-RAG,一种面向AR视频生成的通用检索框架。在每个新块中,LongLive-RAG使用查询嵌入来检索相关的历史潜在变量。这一轻量级检索步骤仅增加少量生成开销,使生成器能够以非局部上下文为条件,而不仅仅是最近窗口。为了增强检索的判别性,我们引入了窗口时间Delta损失(Window Temporal Delta Loss),该损失抑制冗余的局部相似性,促使嵌入捕捉有意义的时序变化。
在多种AR骨干网络和生成长度上的实验表明,所提方法提升了长视频质量,并取得了最优的平均VBench-Long排名。据我们所知,在开放式AR长视频生成方法中,LongLive-RAG是首个将自生成潜在历史建模为内容可寻址检索记忆的工作。
相似文章
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
实时长视频生成(GitHub仓库)
NVlabs 发布了 LongLive 2.0,这是一个采用 NVFP4 量化的实时长视频生成并行基础设施,同时支持训练和推理。它达到了 45.7 FPS,并被 ICLR 2026 接收。
LightRAG:简单高效的检索增强生成框架
本文介绍了 LightRAG,这是一个开源框架,通过整合图结构来提升检索增强生成(RAG)的上下文感知能力与信息检索效率。
LatentRAG:用于高效智能体 RAG 的潜在推理与检索
LatentRAG 是一个新颖的框架,将智能体 RAG 的推理与检索过程转移至连续的潜在空间,在保持与显式方法相当的性能的同时,将推理延迟降低了约 90%。
@yukangchen_: 我们发布了一篇博客:“Why Video Gen Is an Infra Problem”。 https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-i…
NVIDIA研究博客认为,长视频生成正在成为一个基础设施问题,需要在模型、内存、KV缓存、VAE解码、调度和部署基础设施上进行全栈协同设计,并以LongLive 2.0作为案例研究。