@yukangchen_: 我们发布了一篇博客:“Why Video Gen Is an Infra Problem”。 https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-i…
摘要
NVIDIA研究博客认为,长视频生成正在成为一个基础设施问题,需要在模型、内存、KV缓存、VAE解码、调度和部署基础设施上进行全栈协同设计,并以LongLive 2.0作为案例研究。
查看缓存全文
缓存时间: 2026/06/02 19:39
我们发布了一篇题为“为什么视频生成是一个基础设施问题”的博客。 https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-infra-problem…
我们讨论了为什么长视频生成需要在模型、内存、KV缓存、VAE解码、调度和部署基础设施上进行全栈协同设计,并以LongLive 2.0 (https://github.com/NVlabs/LongLive) 作为案例研究。
为什么视频生成是一个基础设施问题
来源:https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-infra-problem/ 现代视频生成的第一波浪潮是关于能力的:Sora 通过展示大规模视频模型能够超越短视频片段,生成长达一分钟、高保真、具有可变时长、分辨率和宽高比的视频,改变了人们对这一领域的看法[1]。下一波浪潮则是关于复杂性的:Seedance 2.0 等模型表明,视频生成正变得多模态、可控、可编辑、音视频同步且低延迟[2]。
现在,这种转变改变了问题的本质。
一个令人印象深刻的样本证明了某些事情是可能的。而实际使用则要求整个系统能够反复、高效且可靠地运作。
模型能生成一段漂亮的视频吗? → 系统能在真实的内存、延迟和部署约束下,生成一段长时长、一致且可控的视频吗?
这是本文的核心论点。一个好的视频模型仍然至关重要,但它已不再是全部。用户并非孤立地体验一个模型。用户体验的是一个需要记忆、解码、调度、压缩、并行化并最终交付像素的整体系统。
视频生成正在变成一个基础设施问题。 一个漂亮的演示证明了能力。而基础设施则将这种能力转化为长时长、快速、稳定、经济且可部署的东西。
信息图展示了从视频生成能力到复杂性和基础设施的转变。图 1. 视频生成正从能力演示转向需要基础设施才能变得长、快、稳定、经济且可部署的复杂系统。目录
- 漂亮的演示不等于可用的视频系统 (https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-infra-problem/#sec-1)
- 视频越长,内存问题越重要 (https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-infra-problem/#sec-2)
- 实时是指整个系统,而不仅仅是DiT的FPS (https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-infra-problem/#sec-3)
- 效率是一个部署问题 (https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-infra-problem/#sec-4)
- 训练和推理必须协同设计 (https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-infra-problem/#sec-5)
- LongLive 2.0 作为案例研究 (https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-infra-problem/#sec-6)
- 结语:视频生成是一个基础设施问题 (https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-infra-problem/#closing-video-gen-is-an-infra-problem)
1. 漂亮的演示不等于可用的视频系统
一个漂亮的样本是起点,而不是终点。它表明模型已经学会了运动、外观和一些物理或语义结构的概念。但一个可用的视频系统必须回答更困难的问题:能否在一分钟内保持角色的一致性?能否在生成下一镜头时不忘上一镜头?能否足够快地返回像素,让用户感觉响应灵敏?能否在现实的内存和成本预算内运行?
这就是演示和基础设施之间的区别。一个演示可以通过一个令人印象深刻的输出来评判。而基础设施则要通过跨多个提示、长时长、多镜头、有限硬件和真实部署约束下的表现来评判。
一旦我们从单个令人印象深刻的样本转向重复的、长周期的使用,评估目标就变了。我们不再问模型能否成功一次;我们问的是整个流水线能否在真实约束下可靠地成功。
能力问的是:“我们能生成这段视频吗?”基础设施问的是:“我们能把它生成长、快、稳定、经济吗?”
这种区别很重要,因为视频生成正从孤立的片段转向需要内存、调度、压缩和推理逻辑的系统。一旦我们关心实际使用,瓶颈就不再仅仅是去噪模型。
视频 1. LongLive 2.0 生成的 60 秒长视频示例。这样的演示展示了能力,而要将其转化为实用系统,则需要内存、端到端延迟优化和部署感知的设计。## 2. 视频越长,内存问题越重要
一个诱人的思维模型是:
如果模型能生成好的 10 秒视频,那么 60 秒视频就应该是六个 10 秒视频拼接而成。
这是错误的。60 秒视频不仅更长,它还改变了问题的本质。视频的后半部分依赖于前半部分。角色应该保持同一个人。房间应该保持布局不变。摄像机运动应该自然地延续。镜头切换应该改变需要改变的内容,但保留应该全局一致的内容。
换句话说,长视频生成需要内存。系统必须决定记住什么、刷新什么、压缩什么、忘记什么。理论时长不等于有效时长:模型技术上可能生成 60 秒视频,但在这 60 秒内的有效记忆、视觉一致性和部署效率是另外的问题。
长视频生成不是短时间视频生成在时间上的重复。它是一个包含记忆、调度、同步和错误累积的在线过程。
一个明显的失败模式是视频可能将错误的记忆向前传递。在下面的例子中,第一帧包含一个空房间,但最后一帧仍然显示出早期那帧残留的幻影。红色框标出了这种残留的视觉记忆。
第一帧长视频的第一帧:一个空房间,有一把椅子和窗户。
最后一帧·残留幻影长视频的最后一帧,红色框显示了第一帧残留的幻影。
图 1. 长视频生成中的记忆失败。第一帧不应再主导后续内容,但来自初始房间的残留幻影在最后一帧仍然可见。视频 2. 对应的生成视频。这个例子说明了为什么长视频生成需要干净的记忆机制,而不仅仅是生成更多帧的能力。## 3. 实时是指整个系统,而不仅仅是DiT的FPS
在很多步的扩散流水线中,DiT去噪器主导了延迟,因此很自然地专注于减少采样步数或加速Transformer吞吐量。但随着视频生成向更少步数、自回归解码、KV缓存和低精度推理发展,隐藏的系统成本开始浮现:VAE解码、KV缓存更新、同步、内存传输和运行时调度。
CausVid 展示了这一转变,它将双向视频扩散转变为自回归的少步生成器,通过 KV 缓存在单个 GPU 上实现了 9.4 FPS 的流式生成[4]。LTX-Video 从另一个角度显示了类似趋势:它通过高度压缩的潜在空间协同设计 Video-VAE 和去噪 Transformer,实现了比实时更快的生成[5]。
要点很简单:用户体验的不是模型单独的 FPS。用户体验的是端到端延迟。
视频生成系统 =
分词器 / VAE
+ 去噪引擎
+ 时间记忆
+ 精度运行时
+ 并行执行
+ 解码调度器
大多数讨论集中在去噪引擎上。但在长视频生成中,VAE解码、KV缓存移动、GPU同步、CPU-GPU传输和多镜头调度可能变得足够大,以至于改变系统的架构。
除非用户能快速接收到像素,否则视频模型并不算真正快。
动效展示 LongLive 2.0 框架概览,包括训练基础设施和推理基础设施。图 2. LongLive 2.0 作为端到端基础设施。训练、少步蒸馏、NVFP4执行、KV缓存管理、并行反量化和异步解码被共同优化,而不是作为独立组件处理。## 4. 效率是一个部署问题
效率不仅仅是让一个内核更快。在部署中,每一个隐藏成本都会显现:将潜在表示解码为像素、在设备间移动数据、同步工作器、存储历史、以及在固定硬件预算下服务多个请求。
一个常见的基准测试错误是报告去噪速度,而将 VAE 解码视为固定开销。对于短视频,这种近似可能可以接受。但对于长视频,它会变得误导。VAE解码影响端到端延迟、峰值内存、流式行为以及运行时流水线的形状。
动效展示逐块异步 VAE 解码流水线。图 3. 逐块异步 VAE 解码。模型可以在 VAE 解码早期块为视频的同时,继续生成后续的潜在块。同样的原则适用于低精度和 KV 缓存压缩。这些技术只有在它们的开销不产生新瓶颈时才有助于部署。压缩的 KV 缓存只有在反量化足够快时才有用。更快的 DiT 只有在 VAE 和数据传输不主导尾部延迟时才有用。
效率是系统属性,而不是单一模块的基准测试。
5. 训练和推理必须协同设计
另一个陷阱是在一个世界中训练,在另一个世界中推理。低精度通常被描述为压缩,但对于长视频生成,它也是一个对齐问题。在自回归视频中,量化误差不是孤立的:它们可能进入生成的历史,存储在 KV 缓存中,并影响未来的块。
三镜头的定性比较:训练感知 NVFP4 与后训练 NVFP4。图 4. 训练感知 NVFP4 与后训练 NVFP4。训练-推理对齐有助于在多个镜头中保持视觉细节。这就是为什么训练和推理应被视为一个设计问题。数值格式、KV 缓存、LoRA 处理和反量化核都会影响部署系统是否稳定高效[3]。
好的基础设施缩短了模型训练方式与实际使用方式之间的差距。
6. LongLive 2.0 作为案例研究
LongLive 2.0 是我们将长视频生成视为端到端基础设施问题而非孤立优化集合的尝试。目标不仅是生成更长的视频,而是让整个流水线更快、更轻、更稳定、更实用。
| 系统挑战 | LongLive 2.0 设计 |
|---|---|
| 长时长 | 自回归长视频生成和多镜头推理 |
| 跨镜头一致性 | 全局级和镜头级注意力汇聚点 (attention sinks) |
| 端到端延迟 | 并行反量化和异步 VAE 解码 |
| 内存和部署成本 | NVFP4 W4A4 推理和 NVFP4 KV 缓存 |
| 训练规模 | 平衡的序列并行和块感知 VAE 编码 |
| 少步生成 | 独立的 DMD LoRA 用于蒸馏和部署灵活性 |
同样的系统设计问题出现在分布式训练中。增加更多 GPU 不会自动使长视频训练高效。在教师强制下,朴素的序列并行布局可能会将干净的历史分布在多个 rank 上,而将噪声目标和损失集中在一个 rank 上,造成计算不平衡。
动效展示教师强制下传统序列并行的计算不平衡。图 5. 教师强制加上传统序列并行可能导致计算不平衡:干净的块分布在各个 rank 上,而噪声目标和损失集中在一个 rank 上。更广泛的教训是,每个组件解决不同的系统瓶颈,但只有协同工作时才有意义。没有快速反量化的内存是慢的。没有训练-推理对齐的低精度是不稳定的。没有平衡布局的更多 GPU 可能浪费计算。没有异步解码的快速去噪仍可能无法快速交付像素。
这就是为什么 LongLive 2.0 同时针对训练和推理:平衡的序列并行训练、NVFP4 训练和推理、W4A4 执行、NVFP4 KV 缓存、并行反量化以及异步 VAE 解码都是同一个系统的一部分[3]。
结语:视频生成是一个基础设施问题
下一代视频模型将不再仅仅由更好的去噪器定义。它将由能够更长时间记忆、更快解码、安全量化、自然并行化并在实际延迟和内存预算下交付像素的系统来定义。
在接下来的几周里,我将通过一系列后续文章来展开这一论点:
- 为什么端到端延迟比模型 FPS 更重要
- SP:长视频训练的扩展(理解与生成)
- 让 4 比特视频生成工作:NVFP4 训练和推理
- 使用独立 DMD LoRA 进行少步长视频生成
- 45.7 FPS 背后的工程与脏活
参考文献
- 视频生成模型作为世界模拟器。 OpenAI。OpenAI 博客,2024 年。OpenAI 博客
- Seedance 2.0:推进视频生成应对世界复杂性。 Team Seedance, De Chen, Liyang Chen, Xin Chen, Ying Chen, Zhuo Chen, 等。arXiv 预印本,2026 年。arXiv:2604.14148
- LongLive-2.0:面向长视频生成的 NVFP4 并行基础设施。 Yukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao, Qixin Hu, Shaoteng Liu, Yuyang Zhao, Huizi Mao, Ying-Cong Chen, Enze Xie, Xiaojuan Qi, Song Han。arXiv 预印本,2026 年。arXiv:2605.18739
- 从缓慢双向到快速自回归视频扩散模型。 Tianwei Yin, Qiang Zhang, Richard Zhang, William T. Freeman, Frédo Durand, Eli Shechtman, Xun Huang。IEEE/CVF 计算机视觉与模式识别会议 (CVPR),2025 年。arXiv:2412.07772
- LTX-Video:实时视频潜在扩散。 Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi。arXiv 预印本,2025 年。arXiv:2501.00103
相似文章
实时长视频生成(GitHub仓库)
NVlabs 发布了 LongLive 2.0,这是一个采用 NVFP4 量化的实时长视频生成并行基础设施,同时支持训练和推理。它达到了 45.7 FPS,并被 ICLR 2026 接收。
LongLive-2.0:用于长视频生成的NVFP4并行基础设施
LongLive-2.0 引入了一种基于NVFP4的并行基础设施,用于长视频生成,在训练上实现了高达2.15倍的加速,推理上实现了1.84倍的加速,5B模型达到了45.7 FPS。
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
为什么视频代理模型是下一个前沿——Ethan He, xAI Grok Imagine(98分钟阅读)
来自xAI的Ethan He讨论了为什么视频代理模型是下一个前沿,他认为视频模型从LLM中获取智能,并且视频生成的演变将模仿AI编程,从一次性输出转向多轮规划与执行。
LongLive-RAG:一种通用的检索增强长视频生成框架
LongLive-RAG将长视频生成形式化为检索增强生成问题,利用先前生成潜变量的动态记忆来减少误差积累和身份漂移,在多种自回归骨干网络上提升了生成质量。