SwiftVR:实时一步生成式视频修复

Hugging Face Daily Papers 论文

摘要

SwiftVR 是一个实时的一步生成式视频修复框架,利用高效注意力机制和轻量级修复感知自编码器,在消费级 GPU 上实现了高帧率。

直播流中的实时视频修复(VR)需要在严格的每帧延迟约束下输出高分辨率结果。现有的一步扩散式 VR 模型由于两大瓶颈难以部署到消费级 GPU 上:高分辨率下的二次空间注意力,以及大型视频自编码器的延迟-内存开销。我们提出 SwiftVR,一种流式一步生成式 VR 框架,在因果分块协议下同时降低这两个瓶颈。在注意力方面,无掩码移位窗口自注意力通过确定性索引将每个空间窗口聚合成密集张量,使所有注意力调用都位于密集缩放点积注意力(SDPA)路径上,无需掩码、循环移位、填充或硬件相关的稀疏内核。由于 SwiftVR 仅使用标准的密集 SDPA 调用,训练好的模型无需重新训练或定制内核即可迁移到消费级 GPU。在自编码方面,轻量级修复感知自编码器在保持重建质量的同时实现了快速分块解码。在单个 H100 上,SwiftVR 在 2560x1440 分辨率下可持续运行 31 FPS,在 3840x2160 分辨率下为 14 FPS,而所有对比的扩散式 VR 基线在 4K 分辨率下均超出内存限制。在消费级 RTX 5090 上,SwiftVR 在 1920x1080 分辨率下达到 26 FPS。据我们所知,SwiftVR 是首个在消费级 GPU 上实现实时 1080p 流式传输的生成式 VR 模型,同时以更低的推理成本获得了强大的无参考感知质量。项目地址:https://h-oliday.github.io/SwiftVR。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:41

Paper page - SwiftVR: Real-Time One-Step Generative Video Restoration

Source: https://huggingface.co/papers/2606.09516

摘要

SwiftVR 通过高效的注意力机制和轻量级自编码,在消费级 GPU 上实现实时视频修复,在 4K 分辨率下达到高帧率。

直播流的实时视频修复(https://huggingface.co/papers?q=Real-time%20video%20restoration)需要在严格的每帧延迟约束下输出高分辨率结果。现有基于扩散的一步式视频修复模型(https://huggingface.co/papers?q=diffusion-based%20VR)由于两个主要瓶颈而难以部署在消费级 GPU(https://huggingface.co/papers?q=consumer-grade%20GPU)上:高分辨率下的二次空间注意力以及大型视频自编码器带来的延迟-内存开销。我们提出了 SwiftVR,一个流式一步生成式视频修复框架,在因果分块协议(https://huggingface.co/papers?q=causal%20chunk-wise%20protocol)下同时缓解这两个瓶颈。在注意力方面,无掩码移位窗口自注意力(https://huggingface.co/papers?q=shifted-window%20self-attention)通过确定性索引将每个空间窗口聚合为稠密张量,使所有注意力调用保持在稠密缩放点积注意力路径上,无需掩码、循环移位、填充或硬件特定的稀疏内核。由于 SwiftVR 仅使用标准稠密 SDPA(https://huggingface.co/papers?q=dense%20SDPA)调用,训练后的模型无需重新训练或自定义内核即可迁移到消费级 GPU。在自编码方面,轻量级修复感知自编码器(https://huggingface.co/papers?q=Restoration-aware%20Autoencoder)支持快速分块解码,同时保持重建质量。在单个 H100 上,SwiftVR 在 2560×1440 分辨率下可持续达到 31 FPS,在 3840×2160 分辨率下达到 14 FPS,而所有对比的基于扩散的视频修复基线在 4K 下均超出内存限制。在消费级 RTX 5090 上,SwiftVR 在 1920×1080 分辨率下达到 26 FPS。据我们所知,SwiftVR 是首个在消费级 GPU(https://huggingface.co/papers?q=consumer-grade%20GPU)上实现实时 1080p 直播流的生成式视频修复模型,同时以更低的推理成本达到了出色的无参考感知质量(https://huggingface.co/papers?q=no-reference%20perceptual%20quality)。项目地址:https://h-oliday.github.io/SwiftVR/。

查看 arXiv 页面(https://arxiv.org/abs/2606.09516)查看 PDF(https://arxiv.org/pdf/2606.09516)项目页面(https://h-oliday.github.io/SwiftVR/)GitHub8(https://github.com/H-oliday/SwiftVR)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09516)

在你的 agent 中获取此论文:

hf papers read 2606\.09516

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

H-oliday/SwiftVR 更新于约 7 小时前 • 12 • 2(https://huggingface.co/H-oliday/SwiftVR)

引用此论文的数据集0

无数据集引用此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.09516 以从本页链接。

引用此论文的 Spaces0

无 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2606.09516 以从本页链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到一个收藏集(https://huggingface.co/new-collection)中以从本页链接。

相似文章

自回归视频生成的投机解码

Hugging Face Daily Papers

SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。

Warp-as-History:基于单个训练视频的可泛化相机控制视频生成

Hugging Face Daily Papers

Warp-as-History 提出了一种新颖的接口,将相机引起的扭曲转换为伪历史表示,使冻结的视频生成模型无需训练或测试时优化即可遵循相机轨迹。在单个视频上进行轻量级 LoRA 微调可进一步提高相机遵从性并泛化到未见过的视频。