SANA-Streaming:基于混合扩散Transformer的实时流式视频编辑
摘要
SANA-Streaming 利用混合扩散Transformer架构、循环反向正则化以及高效的系统协同设计,在消费级GPU上实现实时高分辨率视频到视频编辑,在单张RTX 5090上达到1280×704分辨率下24 FPS。
查看缓存全文
缓存时间: 2026/06/01 03:17
论文页面 - SANA-Streaming: 基于混合扩散Transformer的实时流式视频编辑
来源:https://huggingface.co/papers/2605.30409
发布于 5月28日
·
由 https://huggingface.co/Yuyang-z 提交
Yuyang (https://huggingface.co/Yuyang-z) 于 6月1日
摘要
SANA-Streaming 通过混合扩散 Transformer 架构、循环反向正则化以及针对消费级 GPU 优化的高效系统协同设计,实现了实时高清视频到视频的编辑。
实时流式视频到视频编辑(V2V)对于直播、游戏等交互式应用至关重要,但由于其对时间一致性和推理吞吐量的严苛要求,仍是一项艰巨挑战。本文提出 SANA-Streaming,一个面向消费级 GPU 的高分辨率、实时流式视频编辑的系统-算法协同设计框架,其核心设计包括以下三点:(1)混合扩散 Transformer 架构:在部分块中引入 softmax 注意力,以提升局部建模能力,同时保持线性层的效率。(2)循环反向正则化:一种新颖的训练策略,通过流匹配从生成内容预测源帧,强制执行语义一致性,无需成对的长编辑视频即可提升时间一致性。(3)高效系统协同设计:结合融合后的 GDN 核与针对 NVIDIA Blackwell(RTX 5090)架构优化的混合精度量化(MPQ)。通过分析实际吞吐量,我们的 MPQ 在保持生成质量的同时最大化 Tensor Core 利用率。最终系统在单块 RTX 5090 GPU 上实现了 1280 x 704 分辨率的实时编辑,端到端帧率达 24 FPS,其中 DiT 核心运行速度为 58 FPS。实验结果表明,我们的协同设计方法在时间连贯性和系统吞吐量方面均显著优于现有最先进方法。
查看 arXiv 页面 (https://arxiv.org/abs/2605.30409) 查看 PDF (https://arxiv.org/pdf/2605.30409) 项目页面 (https://nvlabs.github.io/Sana/Streaming/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30409)
在您的 Agent 中获取本文:
hf papers read 2605.30409
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
暂无模型链接本论文
请在模型 README.md 中引用 arxiv.org/abs/2605.30409 以在本页链接。
引用本论文的数据集 0
暂无数据集链接本论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.30409 以在本页链接。
引用本论文的 Spaces 0
暂无 Space 链接本论文
请在 Space README.md 中引用 arxiv.org/abs/2605.30409 以在本页链接。
包含本论文的收藏 0
暂无收藏包含本论文
请将本论文添加到一个收藏 (https://huggingface.co/new-collection) 中以在本页链接。
相似文章
@_philschmid:使用新的 Gemini Live Translate、Next.js、LiveKit 和 Cloud Run 构建实时翻译应用。内容包括:1.…
一篇关于使用 Gemini Live Translate、Next.js、LiveKit 和 Cloud Run 构建实时翻译应用的教程,涵盖音频流传输、翻译和部署。
不再有灯泡,更多体育内容:Roku未来的五个预测
福克斯收购Roku预计将带来重大变化,包括使The Roku Channel成为Roku设备独占,并放弃像灯泡这样的物联网产品,转而专注体育内容。
We used AI to create a storytelling game that reacts in real time to everything you say and do
这是一个使用AI实时响应用户语音输入的互动故事游戏演示,玩家扮演吟游诗人与名为“死亡女士”的AI角色即兴对话,AI根据玩家每一句话动态推进剧情。
Adobe重新设计的AI工作室能记住你的创作样貌
Adobe推出了重新设计的Firefly AI工作室,包含持久化元素和项目功能,实现设计的一致复用,同时为AI助手新增了视频编辑和品牌工具包能力。
@lmsysorg: SGLang-Omni 现已于第0天提供来自 @Open_MOSS 的 MOSS-TTS-Local Transformer v1.5!这是一个开源的 48 kHz 立体声 TTS 模式…
MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型,具有零样本语音克隆、原生流式传输,并支持31种语言,基于 Qwen3-4B 骨干网构建,通过 SGLang-Omni 提供。