SANA-Streaming：基于混合扩散Transformer的实时流式视频编辑

Hugging Face Daily Papers 2026/05/28 00:00 论文

video-editing diffusion-transformer real-time streaming temporal-consistency consumer-gpus system-co-design

摘要

SANA-Streaming 利用混合扩散Transformer架构、循环反向正则化以及高效的系统协同设计，在消费级GPU上实现实时高分辨率视频到视频编辑，在单张RTX 5090上达到1280×704分辨率下24 FPS。

实时流式视频到视频编辑（V2V）对于直播和游戏等交互式应用至关重要，但由于对时间一致性和推理吞吐量的严格要求，它仍然是一个严峻的挑战。在本文中，我们提出了SANA-Streaming，一个系统与算法协同设计的框架，用于在消费级GPU上进行高分辨率、实时流式视频编辑，其核心设计如下：（1）混合扩散Transformer架构在部分块中引入softmax注意力，以增强局部建模能力，同时保持线性层的效率。（2）循环反向正则化是一种新颖的训练策略，通过流匹配从生成的内容预测源帧，从而强制语义一致性，无需成对的长编辑视频即可提高时间一致性。（3）高效的系统协同设计结合了融合GDN内核和为NVIDIA Blackwell (RTX 5090) 架构优化的混合精度量化（MPQ）。通过分析实际吞吐量，我们的MPQ在保持生成质量的同时最大化Tensor Core利用率。最终系统在单张RTX 5090 GPU上实现了1280×704分辨率的实时编辑，端到端24 FPS，其中DiT核心运行速度为58 FPS。实验结果表明，我们的协同设计方法在时间一致性和系统吞吐量方面均显著优于现有的最先进方法。

查看原文

查看缓存全文

缓存时间: 2026/06/01 03:17

论文页面 - SANA-Streaming: 基于混合扩散Transformer的实时流式视频编辑

来源：https://huggingface.co/papers/2605.30409
发布于 5月28日

由 https://huggingface.co/Yuyang-z 提交

Yuyang (https://huggingface.co/Yuyang-z) 于 6月1日

摘要

SANA-Streaming 通过混合扩散 Transformer 架构、循环反向正则化以及针对消费级 GPU 优化的高效系统协同设计，实现了实时高清视频到视频的编辑。

实时流式视频到视频编辑（V2V）对于直播、游戏等交互式应用至关重要，但由于其对时间一致性和推理吞吐量的严苛要求，仍是一项艰巨挑战。本文提出 SANA-Streaming，一个面向消费级 GPU 的高分辨率、实时流式视频编辑的系统-算法协同设计框架，其核心设计包括以下三点：（1）混合扩散 Transformer 架构：在部分块中引入 softmax 注意力，以提升局部建模能力，同时保持线性层的效率。（2）循环反向正则化：一种新颖的训练策略，通过流匹配从生成内容预测源帧，强制执行语义一致性，无需成对的长编辑视频即可提升时间一致性。（3）高效系统协同设计：结合融合后的 GDN 核与针对 NVIDIA Blackwell（RTX 5090）架构优化的混合精度量化（MPQ）。通过分析实际吞吐量，我们的 MPQ 在保持生成质量的同时最大化 Tensor Core 利用率。最终系统在单块 RTX 5090 GPU 上实现了 1280 x 704 分辨率的实时编辑，端到端帧率达 24 FPS，其中 DiT 核心运行速度为 58 FPS。实验结果表明，我们的协同设计方法在时间连贯性和系统吞吐量方面均显著优于现有最先进方法。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30409) 查看 PDF (https://arxiv.org/pdf/2605.30409) 项目页面 (https://nvlabs.github.io/Sana/Streaming/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30409)

在您的 Agent 中获取本文：

hf papers read 2605.30409

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

暂无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.30409 以在本页链接。

引用本论文的数据集 0

暂无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.30409 以在本页链接。

引用本论文的 Spaces 0

暂无 Space 链接本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.30409 以在本页链接。

包含本论文的收藏 0

暂无收藏包含本论文

请将本论文添加到一个收藏 (https://huggingface.co/new-collection) 中以在本页链接。

SANA-Streaming：基于混合扩散Transformer的实时流式视频编辑

论文页面 - SANA-Streaming: 基于混合扩散Transformer的实时流式视频编辑

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Spaces 0

包含本论文的收藏 0

相似文章

@_philschmid：使用新的 Gemini Live Translate、Next.js、LiveKit 和 Cloud Run 构建实时翻译应用。内容包括：1.…

不再有灯泡，更多体育内容：Roku未来的五个预测

We used AI to create a storytelling game that reacts in real time to everything you say and do

Adobe重新设计的AI工作室能记住你的创作样貌

@lmsysorg: SGLang-Omni 现已于第0天提供来自 @Open_MOSS 的 MOSS-TTS-Local Transformer v1.5！这是一个开源的 48 kHz 立体声 TTS 模式…

提交意见反馈