Sparkle：通过解耦指导实现生动的指令引导视频背景替换

Hugging Face Daily Papers 2026/05/07 00:00 论文

video-editing background-replacement dataset benchmark instruction-guided open-source

摘要

本文介绍了Sparkle，这是一个用于指令引导视频背景替换的新数据集和基准，解决了该领域缺乏高质量训练数据的问题。它提出了一种具有解耦指导的可扩展流水线，以生成逼真的前景-背景交互。

近年来，像Senorita-2M这样的开源工作推动视频编辑向自然语言指令发展。然而，当前公开可用的数据集主要关注局部编辑或风格迁移，这些在很大程度上保留了原始场景结构且更容易规模化。相比之下，背景替换——这一在电影制作和广告等创意应用中至关重要的任务——需要合成全新的、时间一致的场景，同时保持准确的前景-背景交互，这使得大规模数据生成更具挑战性。因此，由于缺乏高质量训练数据，这一复杂任务在很大程度上仍未得到充分探索。这种差距在表现不佳的最先进模型中显而易见，例如Kiwi-Edit，因为包含该任务的主要开源数据集OpenVE-3M经常生成静态、不自然的背景。在本文中，我们将这种质量下降归因于数据合成过程中缺乏精确的背景指导。据此，我们设计了一个可扩展的流水线，以解耦方式生成前景和背景指导，并经过严格的质量过滤。基于该流水线，我们引入了Sparkle数据集，包含约14万对视频，涵盖五种常见的背景变化主题，以及Sparkle-Bench，这是迄今为止为背景替换量身定制的最大评估基准。实验表明，我们的数据集以及在其上训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于所有现有基线。我们提出的数据集、基准和模型已在https://showlab.github.io/Sparkle/完全开源。

查看原文

查看缓存全文

缓存时间: 2026/05/08 10:54

论文页面 - Sparkle：通过解耦引导实现生动指令引导的视频背景替换

来源：https://huggingface.co/papers/2605.06535

摘要

本文引入了一个用于视频编辑中背景替换的新数据集和基准，通过可扩展的流水线和改进的引导机制，弥补了现有数据集的不足。

近年来，像Senorita-2M这样的开源工作推动了视频编辑（https://huggingface.co/papers?q=video%20editing）向自然语言指令（https://huggingface.co/papers?q=natural%20language%20instruction）发展。然而，当前公开可用的数据集主要集中于局部编辑或风格迁移，这些任务大多保留原始场景结构，更易于扩展。相比之下，背景替换（Background Replacement）（https://huggingface.co/papers?q=Background%20Replacement）是电影制作和广告等创意应用的核心任务，需要合成全新且时间一致的场景，同时保持准确的前景-背景交互（foreground-background interactions）（https://huggingface.co/papers?q=foreground-background%20interactions），这使得大规模数据生成极具挑战性。因此，由于高质量训练数据的匮乏，这一复杂任务在很大程度上仍未被充分探索。这一差距体现在现有最先进模型（例如Kiwi-Edit）表现不佳，因为包含该任务的主要开源数据集OpenVE-3M频繁生成静态、不自然的背景。本文中，我们将这种质量退化追溯到数据合成（data synthesis）（https://huggingface.co/papers?q=data%20synthesis）过程中缺乏精确的背景引导。为此，我们设计了一个可扩展的流水线，以解耦的方式生成前景和背景引导，并配合严格的质量过滤（quality filtering）（https://huggingface.co/papers?q=quality%20filtering）。基于此流水线，我们引入了Sparkle数据集，包含约14万视频对（video pairs）（https://huggingface.co/papers?q=video%20pairs），涵盖五种常见的背景变更主题；同时推出Sparkle-Bench，这是迄今为止为背景替换（background replacement）（https://huggingface.co/papers?q=background%20replacement）量身定制的最大评估基准（evaluation benchmark）（https://huggingface.co/papers?q=evaluation%20benchmark）。实验表明，我们的数据集及在其上训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于所有现有基线。我们提出的数据集、基准和模型已完全开源，访问地址：https://showlab.github.io/Sparkle/。

查看arXiv页面（https://arxiv.org/abs/2605.06535）查看PDF（https://arxiv.org/pdf/2605.06535）项目页面（https://showlab.github.io/Sparkle/）GitHub1（https://github.com/showlab/Sparkle）加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.06535）

将这篇论文加入你的代理：

hf papers read 2605.06535

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型（1个）

stdKonjac/Kiwi-Sparkle-720P-81F 5B•更新于约2小时前（https://huggingface.co/stdKonjac/Kiwi-Sparkle-720P-81F）

引用本论文的数据集（2个）

stdKonjac/Sparkle 查看器•更新于约3小时前 • 137k • 15（https://huggingface.co/datasets/stdKonjac/Sparkle）

stdKonjac/Sparkle-Bench 查看器•更新于约3小时前 • 458 • 9（https://huggingface.co/datasets/stdKonjac/Sparkle-Bench）

引用本论文的Spaces（0个）

暂无Space关联本论文

请在Space的README.md中引用arxiv.org/abs/2605.06535以关联本页面。

Sparkle：通过解耦指导实现生动的指令引导视频背景替换

论文页面 - Sparkle：通过解耦引导实现生动指令引导的视频背景替换

摘要

引用本论文的模型（1个）

stdKonjac/Kiwi-Sparkle-720P-81F 5B•更新于约2小时前（https://huggingface.co/stdKonjac/Kiwi-Sparkle-720P-81F）

引用本论文的数据集（2个）

stdKonjac/Sparkle 查看器•更新于约3小时前 • 137k • 15（https://huggingface.co/datasets/stdKonjac/Sparkle）

stdKonjac/Sparkle-Bench 查看器•更新于约3小时前 • 458 • 9（https://huggingface.co/datasets/stdKonjac/Sparkle-Bench）

引用本论文的Spaces（0个）

包含本论文的收藏集（1个）

相似文章

利用自监督指南提升视觉指令调优

SPARK：基于知识图谱的不对称奖励自博弈

ReImagine：以图像为先的可控高质量人体视频生成新思路

通过通用关键帧提取桥接VideoQA与视频引导的代理任务

DF3DV-1K：大规模无干扰新视角合成数据集与基准

提交意见反馈