SwiftVR:实时一步生成式视频修复
摘要
SwiftVR 是一个实时的一步生成式视频修复框架,利用高效注意力机制和轻量级修复感知自编码器,在消费级 GPU 上实现了高帧率。
查看缓存全文
缓存时间: 2026/06/09 08:41
Paper page - SwiftVR: Real-Time One-Step Generative Video Restoration
Source: https://huggingface.co/papers/2606.09516
摘要
SwiftVR 通过高效的注意力机制和轻量级自编码,在消费级 GPU 上实现实时视频修复,在 4K 分辨率下达到高帧率。
直播流的实时视频修复(https://huggingface.co/papers?q=Real-time%20video%20restoration)需要在严格的每帧延迟约束下输出高分辨率结果。现有基于扩散的一步式视频修复模型(https://huggingface.co/papers?q=diffusion-based%20VR)由于两个主要瓶颈而难以部署在消费级 GPU(https://huggingface.co/papers?q=consumer-grade%20GPU)上:高分辨率下的二次空间注意力以及大型视频自编码器带来的延迟-内存开销。我们提出了 SwiftVR,一个流式一步生成式视频修复框架,在因果分块协议(https://huggingface.co/papers?q=causal%20chunk-wise%20protocol)下同时缓解这两个瓶颈。在注意力方面,无掩码移位窗口自注意力(https://huggingface.co/papers?q=shifted-window%20self-attention)通过确定性索引将每个空间窗口聚合为稠密张量,使所有注意力调用保持在稠密缩放点积注意力路径上,无需掩码、循环移位、填充或硬件特定的稀疏内核。由于 SwiftVR 仅使用标准稠密 SDPA(https://huggingface.co/papers?q=dense%20SDPA)调用,训练后的模型无需重新训练或自定义内核即可迁移到消费级 GPU。在自编码方面,轻量级修复感知自编码器(https://huggingface.co/papers?q=Restoration-aware%20Autoencoder)支持快速分块解码,同时保持重建质量。在单个 H100 上,SwiftVR 在 2560×1440 分辨率下可持续达到 31 FPS,在 3840×2160 分辨率下达到 14 FPS,而所有对比的基于扩散的视频修复基线在 4K 下均超出内存限制。在消费级 RTX 5090 上,SwiftVR 在 1920×1080 分辨率下达到 26 FPS。据我们所知,SwiftVR 是首个在消费级 GPU(https://huggingface.co/papers?q=consumer-grade%20GPU)上实现实时 1080p 直播流的生成式视频修复模型,同时以更低的推理成本达到了出色的无参考感知质量(https://huggingface.co/papers?q=no-reference%20perceptual%20quality)。项目地址:https://h-oliday.github.io/SwiftVR/。
查看 arXiv 页面(https://arxiv.org/abs/2606.09516)查看 PDF(https://arxiv.org/pdf/2606.09516)项目页面(https://h-oliday.github.io/SwiftVR/)GitHub8(https://github.com/H-oliday/SwiftVR)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09516)
在你的 agent 中获取此论文:
hf papers read 2606\.09516
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
H-oliday/SwiftVR 更新于约 7 小时前 • 12 • 2(https://huggingface.co/H-oliday/SwiftVR)
引用此论文的数据集0
无数据集引用此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.09516 以从本页链接。
引用此论文的 Spaces0
无 Space 引用此论文
在 Space README.md 中引用 arxiv.org/abs/2606.09516 以从本页链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到一个收藏集(https://huggingface.co/new-collection)中以从本页链接。
相似文章
SwiftI2V:一种通过条件分段生成实现高效高分辨率图像到视频生成的框架
SwiftI2V 是一个新颖的高效框架,用于高分辨率图像到视频的生成,它采用条件分段生成技术,在显著降低计算成本的同时实现了 2K 分辨率的合成。该框架使得在单个消费级或数据中心 GPU 上进行实用的生成成为可能,同时保持了输入的保真度。
One-Forcing: 迈向稳定的单步自回归视频生成
One-Forcing 通过用辅助 GAN 损失增强 DMD 目标,改进了单步视频生成,以更低的训练成本实现了最先进的性能。
自回归视频生成的投机解码
SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
Warp-as-History:基于单个训练视频的可泛化相机控制视频生成
Warp-as-History 提出了一种新颖的接口,将相机引起的扭曲转换为伪历史表示,使冻结的视频生成模型无需训练或测试时优化即可遵循相机轨迹。在单个视频上进行轻量级 LoRA 微调可进一步提高相机遵从性并泛化到未见过的视频。