Sparkle:通过解耦指导实现生动的指令引导视频背景替换

Hugging Face Daily Papers 论文

摘要

本文介绍了Sparkle,这是一个用于指令引导视频背景替换的新数据集和基准,解决了该领域缺乏高质量训练数据的问题。它提出了一种具有解耦指导的可扩展流水线,以生成逼真的前景-背景交互。

近年来,像Senorita-2M这样的开源工作推动视频编辑向自然语言指令发展。然而,当前公开可用的数据集主要关注局部编辑或风格迁移,这些在很大程度上保留了原始场景结构且更容易规模化。相比之下,背景替换——这一在电影制作和广告等创意应用中至关重要的任务——需要合成全新的、时间一致的场景,同时保持准确的前景-背景交互,这使得大规模数据生成更具挑战性。因此,由于缺乏高质量训练数据,这一复杂任务在很大程度上仍未得到充分探索。这种差距在表现不佳的最先进模型中显而易见,例如Kiwi-Edit,因为包含该任务的主要开源数据集OpenVE-3M经常生成静态、不自然的背景。在本文中,我们将这种质量下降归因于数据合成过程中缺乏精确的背景指导。据此,我们设计了一个可扩展的流水线,以解耦方式生成前景和背景指导,并经过严格的质量过滤。基于该流水线,我们引入了Sparkle数据集,包含约14万对视频,涵盖五种常见的背景变化主题,以及Sparkle-Bench,这是迄今为止为背景替换量身定制的最大评估基准。实验表明,我们的数据集以及在其上训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于所有现有基线。我们提出的数据集、基准和模型已在https://showlab.github.io/Sparkle/完全开源。
查看原文
查看缓存全文

缓存时间: 2026/05/08 10:54

论文页面 - Sparkle:通过解耦引导实现生动指令引导的视频背景替换

来源:https://huggingface.co/papers/2605.06535

摘要

本文引入了一个用于视频编辑中背景替换的新数据集和基准,通过可扩展的流水线和改进的引导机制,弥补了现有数据集的不足。

近年来,像Senorita-2M这样的开源工作推动了视频编辑(https://huggingface.co/papers?q=video%20editing)向自然语言指令(https://huggingface.co/papers?q=natural%20language%20instruction)发展。然而,当前公开可用的数据集主要集中于局部编辑或风格迁移,这些任务大多保留原始场景结构,更易于扩展。相比之下,背景替换(Background Replacement)(https://huggingface.co/papers?q=Background%20Replacement)是电影制作和广告等创意应用的核心任务,需要合成全新且时间一致的场景,同时保持准确的前景-背景交互(foreground-background interactions)(https://huggingface.co/papers?q=foreground-background%20interactions),这使得大规模数据生成极具挑战性。因此,由于高质量训练数据的匮乏,这一复杂任务在很大程度上仍未被充分探索。这一差距体现在现有最先进模型(例如Kiwi-Edit)表现不佳,因为包含该任务的主要开源数据集OpenVE-3M频繁生成静态、不自然的背景。本文中,我们将这种质量退化追溯到数据合成(data synthesis)(https://huggingface.co/papers?q=data%20synthesis)过程中缺乏精确的背景引导。为此,我们设计了一个可扩展的流水线,以解耦的方式生成前景和背景引导,并配合严格的质量过滤(quality filtering)(https://huggingface.co/papers?q=quality%20filtering)。基于此流水线,我们引入了Sparkle数据集,包含约14万视频对(video pairs)(https://huggingface.co/papers?q=video%20pairs),涵盖五种常见的背景变更主题;同时推出Sparkle-Bench,这是迄今为止为背景替换(background replacement)(https://huggingface.co/papers?q=background%20replacement)量身定制的最大评估基准(evaluation benchmark)(https://huggingface.co/papers?q=evaluation%20benchmark)。实验表明,我们的数据集及在其上训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于所有现有基线。我们提出的数据集、基准和模型已完全开源,访问地址:https://showlab.github.io/Sparkle/。

查看arXiv页面(https://arxiv.org/abs/2605.06535)查看PDF(https://arxiv.org/pdf/2605.06535)项目页面(https://showlab.github.io/Sparkle/)GitHub1(https://github.com/showlab/Sparkle)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.06535)

将这篇论文加入你的代理:

hf papers read 2605.06535

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型(1个)

stdKonjac/Kiwi-Sparkle-720P-81F 5B•更新于约2小时前(https://huggingface.co/stdKonjac/Kiwi-Sparkle-720P-81F)

引用本论文的数据集(2个)

stdKonjac/Sparkle 查看器•更新于约3小时前 • 137k • 15(https://huggingface.co/datasets/stdKonjac/Sparkle)

stdKonjac/Sparkle-Bench 查看器•更新于约3小时前 • 458 • 9(https://huggingface.co/datasets/stdKonjac/Sparkle-Bench)

引用本论文的Spaces(0个)

暂无Space关联本论文

请在Space的README.md中引用arxiv.org/abs/2605.06535以关联本页面。

包含本论文的收藏集(1个)

相似文章

利用自监督指南提升视觉指令调优

Hugging Face Daily Papers

本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。

DF3DV-1K:大规模无干扰新视角合成数据集与基准

Hugging Face Daily Papers

介绍了DF3DV-1K,一个包含1048个场景和89924张图像的大规模真实世界数据集,用于无干扰的新视角合成,同时提供了九种方法的基准测试,以及通过微调基于扩散的2D增强器来改进辐射场方法的应用。