@Chenfeng_X: 非常兴奋我们的论文 StreamdiffusionV2 荣获了 #MLSys26 的最佳研究论文奖!视频生成正在快速…
摘要
StreamDiffusionV2 在 MLSys26 上获得最佳研究论文奖,该论文提出了一种用于实时交互式视频生成的开源流式系统,将视频生成视为流式管道而非回合制流程。
查看缓存全文
缓存时间: 2026/05/19 02:41
激动地宣布,我们的论文《StreamDiffusionV2》在 #MLSys26 上获得了最佳研究论文奖!
视频生成正迅速从演示场景转向生产级工作负载。这不再是一个按轮次进行的流水线,而应该是一个能够与用户交互的流式流水线。
我们的项目页面:https://streamdiffusionv2.github.io ,论文地址:https://arxiv.org/pdf/2511.07399
如果你对流式视频生成感兴趣,欢迎参加我们的演讲。我们的演讲将在 #MLSys26 的研究赛道口头报告:最佳论文环节(周二上午8:45)进行。我将介绍我们如何攻克效率和质量的挑战。期待与您相见!
衷心感谢所有作者!没有整个团队的巨大努力,这项工作是不可能完成的。特别感谢 Tianrui Feng、Zhi Li、@Andy_ShuoYang、@HaochengXiUCB、@lmxyy1999、@lvminzhang、@xiuyu_l、Keting Yang、@ZiqiPeng、@songhan_mit、@magrawala、@KurtKeutzer 和 @cumulo_autumn
StreamDiffusionV2:用于实时交互式视频生成的开源流式系统
来源:https://streamdiffusionv2.github.io/ Zhi Li (https://scholar.google.com/citations?user=C6kPjgwAAAAJ&hl)², Shuo Yang (https://andy-yang-1.github.io/)², Haocheng Xi (https://haochengxi.github.io/)², Muyang Li (https://lmxyy.me/)³, Xiuyu Li (https://xiuyuli.com/)², Lvmin Zhang (https://lllyasviel.github.io/lvmin_zhang/)⁴, Keting Yang (https://www.linkedin.com/in/keting-yang)⁵, Kelly Peng (https://www.linkedin.com/in/kellyzpeng/)⁶, Song Han (https://hanlab.mit.edu/songhan)⁷, Maneesh Agrawala (http://graphics.stanford.edu/~maneesh/)⁴, Kurt Keutzer (https://people.eecs.berkeley.edu/~keutzer/)², Akio Kodaira (https://scholar.google.com/citations?hl=ja&user=15X3cioAAAAJ)⁸, Chenfeng Xu (https://www.chenfengx.com/)†,¹
¹UT Austin, ²UC Berkeley, ³Nunchaku AI, ⁴Stanford University, ⁵独立研究员, ⁶First Intelligence, ⁷MIT, ⁸Shizuku AI
†项目负责人,联系方式:[email protected]
论文 (https://arxiv.org/pdf/2511.07399) 代码 (https://github.com/chenfengxu714/StreamDiffusionV2)
StreamDiffusionV2 是一个开源的交互式流式系统,用于实时扩散生成——可跨多种 GPU 配置进行扩展,支持灵活的降噪步数,为创作者和平台提供高 FPS。
您的浏览器不支持视频标签。
视频1。 从左上到右下:参考视频、StreamDiffusion、Causvid、StreamDiffusionV2。
提示:一个未来主义的拳击手在虚拟现实战斗模拟中训练,穿着发光的全身紧身衣和面罩。他的拳头击碎了由像素和数据流构成的 holographic 敌人,而数字环境在闪烁的霓虹竞技场和模拟景观之间切换。
您的浏览器不支持视频标签。
视频2。 从左上到右下:参考视频、StreamDiffusion、Causvid、StreamDiffusionV2。
提示:一只高度精细的未来主义赛博鸟,融合了鸟类的优雅与先进的机器人技术。它的羽毛是带有蓝色和紫色霓虹灯虹彩反射的金属板,每个关节都覆盖着复杂的机械齿轮和电线。眼睛发出脉动的红色核心,像高科技传感器一样扫描环境。翅膀展开,带有层叠的钢制羽毛,部分透明,内部流动着全息电路。这只鸟栖息在发光的赛博朋克屋顶栏杆上,背景是广阔的 futuristic 城市,布满了全息广告牌、飞行无人机和霓虹灯闪烁的摩天大楼。氛围是电影般的、超真实的、受科幻启发的,结合了照片级真实感与高科技未来主义风格。
摘要
生成模型正在通过重新定义内容的创建、样式化和交付方式来重塑直播行业。以往的基于图像的流式扩散模型支持了高效和创造性的直播产品,但由于基于图像的设计基础,在时间一致性上遇到了限制。最近的视频扩散进展显著改善了时间一致性和离线生成的采样效率。然而,离线生成系统主要通过批处理大量工作负载来优化吞吐量。相比之下,在线直播在严格的服务级别目标(SLO)下运行:首帧时间必须最小化,每一帧必须在低抖动的情况下满足每帧截止时间。此外,支持实时流的可扩展多GPU服务至今仍未得到很好解决。为了解决这个问题,我们提出了StreamDiffusionV2,一个无需训练的用于交互式直播的流式流水线,基于视频扩散模型。StreamDiffusionV2 集成了 SLO 感知的批处理调度器、块调度器,以及基于接收令牌的滚动 KV 缓存、运动感知噪声控制器和其他系统级优化。此外,我们引入了一种可扩展的流水线编排,将扩散过程在降噪步骤和网络层上进行并行化,在不违反延迟保证的情况下实现了近乎线性的 FPS 缩放。该系统可无缝扩展至异构 GPU 环境,并支持灵活的降噪步数(例如 1-4 步),从而实现超低延迟和更高质量两种模式。在不使用 TensorRT 或量化的情况下,StreamDiffusionV2 能在 0.5 秒内渲染出第一帧,并且在四块 H100 GPU 上,使用 14B 参数模型达到 58.28 FPS,使用 1.3B 参数模型达到 64.52 FPS。即使增加降噪步数以提升质量,它仍能保持 31.62 FPS(14B)和 61.58 FPS(1.3B),使最先进的生成式直播变得实用且易于使用——从个人创作者到企业级平台。
在线流式视频到视频转换
StreamDiffusionV2 鲁棒地支持快速运动视频传输。
左:为流式适配的 CausVid。右:StreamDiffusionV2。我们的方法在更大程度上保持了风格和时间一致性。所有演示均在远程服务器上运行,视频中的轻微卡顿是由于网络传输延迟(50-300 毫秒)所致。
您的浏览器不支持视频标签。
您的浏览器不支持视频标签。
StreamDiffusionV2 鲁棒地支持多样且复杂的提示。
您的浏览器不支持视频标签。
您的浏览器不支持视频标签。
您的浏览器不支持视频标签。
您的浏览器不支持视频标签。
您的浏览器不支持视频标签。
您的浏览器不支持视频标签。
您的浏览器不支持视频标签。
您的浏览器不支持视频标签。
以动物为中心的视频传输,让你的宠物开始直播!
StreamDiffusionV2 已为你的宠物实时直播做好准备,视频直接从摄像头捕获并实时处理,适用于宠物视频创作者!
您的浏览器不支持视频标签。
以人为中心的视频传输,让我们开始你的直播吧!
StreamDiffusionV2 已为你的实时直播做好准备,视频直接从摄像头捕获并实时处理,适用于视频创作者!
您的浏览器不支持视频标签。
动机
StreamDiffusionV2 的整体流水线概览。
图 1:批处理与流式视频生成的比较。
实时视频应用涵盖了多样的用例,这些用例在帧率、分辨率、延迟和运动方面有着不同的预算。这种异质性使得性能瓶颈在流水线的不同阶段发生转移。下面我们重点介绍四个关键瓶颈。
未满足的实时 SLO
StreamDiffusionV2 的整体流水线概览。
图 2:H100 GPU 上的首帧时间。
现有的流式系统采用固定输入策略,每次前向传递处理数十到数百帧以最大化吞吐量。例如,CausVid 和 Self-Forcing 每步处理 81 帧。虽然这种大块设计提高了离线场景下的平均吞吐量,但它从根本上与实时流式的要求相冲突。我们在 H100 GPU 上测试了这些系统的首帧时间(TTFF),发现先前的方法远远超过了所需的 TTFF(约 1 秒),如图 2 所示。
长时程生成中的漂移累积
当前的“流式”视频系统主要从离线、双向的片段生成器改编而来。例如,CausVID 源自 CogVideoX,SelfForcing 基于 Wan-2.1-T2V。这些模型针对短片段(5-10 秒)进行训练,仅在该范围内保持连贯性(参见视频 2)。
由于忽略运动而导致的质量下降
输入流中不同的运动模式在延迟和视觉质量之间引入了不同的权衡。快速运动需要保守的降噪以防止撕裂、鬼影和模糊,而缓慢或静态场景则受益于更强的细化以恢复细节。现有的流式流水线依赖固定的噪声调度,忽略了这种可变性,导致在高运动区域出现时间伪影,而在低运动片段中降低视觉保真度(参见视频 1)。
较差的 GPU 扩展性
图 3:左:序列并行化与我们的流水线编排的 Roofline 分析。右:各种并行化方法的通信消耗。
在直播场景中,严格的每帧截止时间阻碍了传统并行化策略的可扩展性,这有两个关键原因:(i)序列并行化中的通信延迟显著降低了潜在加速比;(ii)短帧块将工作负载推入内存受限区域,如图 3 左侧所示。这些影响在实时流式中进一步放大,因为高效的因果 DiT 对短序列(例如每步 4 帧)进行操作,减少了每帧计算量,使得通信开销占比更重(参见图 3 右侧)。
方法
直播流水线
StreamDiffusionV2 的整体流水线概览。
图 4:StreamDiffusionV2 的整体流水线概览。
StreamDiffusionV2 是系统和算法层面共同努力的结晶,旨在基于视频扩散模型实现直播。它包括:一个用于流水线并行与流式批处理的动态调度器、一个 StreamVAE 和滚动 KV,以及一个运动感知控制器。
滚动 KV 缓存和接收令牌
我们将 Causal-DiT 与 Stream-VAE 集成,以实现直播视频生成。我们的滚动 KV 缓存设计在多个方面有显著不同:(1)我们不维护一个长 KV 缓存,而是采用更短的缓存长度,并引入接收令牌以在滚动更新期间保持生成风格。(2)当当前帧的时间戳超过设定阈值时,我们将其重置,以防止过大的 RoPE 位置或超出编码限制的位置索引导致视觉质量下降。这些机制共同使我们的流水线能够实现真正无限的视频到视频直播生成,同时保持稳定的质量和一致的风格。
运动感知噪声控制器
运动估计和动态噪声率示例
图 5:StreamDiffusionV2 的整体流水线概览。
在直播应用中,经常出现高速运动,而当前的视频扩散模型难以处理这种运动。为了解决这个问题,我们提出了运动感知噪声控制器,这是一种无需训练的方法,根据输入帧的运动频率自适应噪声率。具体来说,我们通过计算连续帧之间的均方误差(MSE)来评估运动频率,并使用预先确定的统计参数将其线性映射到噪声率。这种方法在实时视频到视频直播中平衡了质量和运动连续性。
Stream-VAE
Stream-VAE 是一种用于实时视频生成的视频 VAE 低延迟实现。与处理长视频序列且引入显著延迟的当前方法不同,Stream-VAE 每次处理一小段视频块。具体来说,在过程中将四个视频帧压缩成一个潜变量帧。此外,在 VAE 的每个 3D 卷积模块中使用缓存的特征以保持时间一致性。Stream-VAE 在确保时间一致性的同时支持高效的直播生成。
多流水线编排扩展
我们的流水线并行流式批处理架构的详细描述。
图 6:我们的流水线并行流式批处理架构的详细描述。
您的浏览器不支持视频标签。视频 3:流水线并行流式批处理示例。
为了提高多 GPU 平台上的系统吞吐量,我们提出了一种可扩展的流水线编排用于并行推理。具体来说,DiT 块被划分到多个设备上。如图 6 所示,每个设备将其输入序列作为微步处理,并将结果在环形结构中传输到下一阶段。这使得模型的连续阶段能够以流水线并行方式并发运行,从而为 DiT 吞吐量实现近乎线性的加速。
除了静态划分之外,我们发现 VAE 编码和解码在 GPU 之间造成了不平衡的任务分布。为了提高吞吐量,我们提出了一种调度器,该调度器利用推理时间测量,动态地在设备之间重新分配块。这些方法允许在标准 GPU 上实现具有竞争力的实时生成性能,从而降低了实际实施的门槛。
FPS 结果
图 7:在 H100 GPU(通过 NVLink)和 4090 GPU(通过 PCIe)上 1.3B 模型的吞吐量结果。
FPS 结果
图 8:在 H100 GPU(通过 NVLink 通信)上 14B 模型的吞吐量结果。
FPS 结果
图 9:不同方法在不同分辨率下的加速比。左:仅测试 DiT 的加速比。右:测试整个流水线(含 VAE)的加速比。
@article{feng2025streamdiffusionv2,
title={StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation},
author={Feng, Tianrui and Li, Zhi and Yang, Shuo and Xi, Haocheng and Li, Muyang and Li, Xiuyu and Zhang, Lvmin and Yang, Keting and Peng, Kelly and Han, Song and others},
journal={arXiv preprint arXiv:2511.07399},
year={2025}
}
相似文章
Stream-R1:流式视频生成的可靠性-困惑度感知奖励蒸馏
Stream-R1 提出了一种针对流式视频生成的可靠性-困惑度感知奖励蒸馏框架,通过自适应加权监督信号来提升视觉和动态质量,且不增加额外的计算开销。
@__JohnNguyen__: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……
Meta 的 FAIR 团队发布了 Flowception 的代码,这是 CVPR 2026 的一篇论文,介绍了一种非自回归视频生成框架。该框架通过交错帧插入与连续去噪,减少了误差累积和计算成本。
@XuXander24218:StreamMA:让多智能体系统更快更准确!大家好!我们的团队刚刚发布了StreamMA。它是一个…
StreamMA是一种多智能体推理系统,它逐步流式传输中间结果以改善延迟和准确性,在基准测试中实现了高达26.9倍的加速和+7.3%的性能提升。
Stream-T1:用于流式视频生成的测试时扩展
Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。
@yukangchen_: 我们发布了一篇博客:“Why Video Gen Is an Infra Problem”。 https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-i…
NVIDIA研究博客认为,长视频生成正在成为一个基础设施问题,需要在模型、内存、KV缓存、VAE解码、调度和部署基础设施上进行全栈协同设计,并以LongLive 2.0作为案例研究。