MuSS：面向多镜头主体到视频生成的大规模数据集与电影叙事基准

Hugging Face Daily Papers 2026/05/09 00:00 论文

摘要

MuSS 引入了一个用于多镜头主体到视频生成的大规模数据集和基准，旨在解决电影叙事中的逻辑一致性和“复制-粘贴”问题。

尽管视频基础模型在单镜头生成方面表现卓越，但现实世界中的电影叙事本质上依赖于复杂的多镜头序列编排。然而，由于缺乏能够应对以下三大核心挑战的数据集，进一步的研究进展受到了限制：真实的叙事逻辑、时空层面的文本-视频对齐冲突，以及在主体到视频（Subject-to-Video, S2V）生成中普遍存在的“复制-粘贴”困境。为了弥补这一差距，我们引入了 MuSS，这是一个专为多镜头视频和 S2V 生成设计的大规模、双轨制数据集。MuSS 源自超过 3,000 部电影，明确支持复杂的蒙太奇转换和以主体为核心的叙事。在构建该数据集的过程中，我们开创了一种渐进式描述生成流程，通过在确保全局叙事连贯性之前先保证局部镜头级的准确性，从而消除上下文冲突。至关重要的是，我们实现了一种跨镜头匹配机制，以从根本上根除 S2V 中的复制-粘贴捷径。除了数据集之外，我们还提出了电影叙事基准（Cinematic Narrative Benchmark），该基准采用以视觉逻辑驱动的范式，并引入了全新的反复制粘贴方差（Anti-Copy-Paste Variance, ACP-Var）指标，以严格评估连续叙事能力和 3D 结构一致性。广泛的实验表明，虽然当前的基线模型在连续叙事逻辑方面举步维艰，或退化为简单的 2D 贴图生成器，但经过 MuSS 增强的模型在叙事有效性和跨镜头身份保持方面均达到了最先进的水平。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:30

Paper page - MuSS: A Large-Scale Dataset and Cinematic Narrative Benchmark for Multi-Shot Subject-to-Video Generation

Source: https://huggingface.co/papers/2604.23789

Abstract

MuSS 是一个大规模双轨数据集，专为多镜头视频生成而设计，旨在通过渐进式描述流水线（progressive captioning pipeline）和跨镜头匹配机制，解决主体到视频（Subject-to-Video）生成中的叙事逻辑、时空对齐以及复制粘贴（copy-paste）问题。

尽管视频基础模型在单镜头生成方面表现出色，但现实世界中的电影叙事本质上依赖于复杂的多镜头序列。进一步的进展受到缺乏解决三个核心挑战的数据集的制约：真实的叙事逻辑 (https://huggingface.co/papers?q=narrative%20logic)、时空文本-视频对齐 (https://huggingface.co/papers?q=spatiotemporal%20text-video%20alignment) 冲突，以及主体到视频 (S2V) 生成 (https://huggingface.co/papers?q=Subject-to-Video%20(S2V)%20generation) 中普遍存在的“复制粘贴”困境。为了弥补这一空白，我们引入了 MuSS，这是一个专为多镜头视频和 S2V 生成定制的大规模双轨数据集 (https://huggingface.co/papers?q=dual-track%20dataset)。MuSS 源自超过 3,000 部电影，明确支持复杂的蒙太奇过渡和以主体为中心的叙事。为了构建该数据集，我们开创了一种渐进式描述流水线 (https://huggingface.co/papers?q=progressive%20captioning%20pipeline)，通过确保局部镜头级别的准确性来消除上下文冲突，然后再强制实现全局叙事连贯性。至关重要的是，我们实施了一种跨镜头匹配机制 (https://huggingface.co/papers?q=cross-shot%20matching%20mechanism)，从根本上根除 S2V 复制粘贴捷径。除了数据集外，我们还提出了电影叙事基准 (https://huggingface.co/papers?q=Cinematic%20Narrative%20Benchmark)，该基准具有视觉逻辑驱动范式，并引入了一种新颖的反复制粘贴方差 (Anti-Copy-Paste Variance, ACP-Var) 指标 (https://huggingface.co/papers?q=Anti-Copy-Paste%20Variance%20(ACP-Var)%20metric)，以严格评估连续叙事 (https://huggingface.co/papers?q=continuous%20storytelling) 和 3D 结构一致性 (https://huggingface.co/papers?q=3D%20structural%20consistency)。大量实验表明，尽管当前基线模型在连续叙事逻辑 (https://huggingface.co/papers?q=narrative%20logic) 方面表现不佳，甚至退化为简单的 2D 贴纸生成器，但经过 MuSS 增强的模型实现了最先进的叙事效果和跨镜头身份保持。

View arXiv page (https://arxiv.org/abs/2604.23789)View PDF (https://arxiv.org/pdf/2604.23789)GitHub5 (https://github.com/zhang-haojie/MuSS)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2604.23789)

Get this paper in your agent:

hf papers read 2604\.23789

Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

Models citing this paper0

No model linking this paper

Cite arxiv.org/abs/2604.23789 in a model README.md to link it from this page.

Datasets citing this paper0

No dataset linking this paper

Cite arxiv.org/abs/2604.23789 in a dataset README.md to link it from this page.

Spaces citing this paper0

No Space linking this paper

Cite arxiv.org/abs/2604.23789 in a Space README.md to link it from this page.

Collections including this paper0

No Collection including this paper

Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.

MuSS：面向多镜头主体到视频生成的大规模数据集与电影叙事基准

Paper page - MuSS: A Large-Scale Dataset and Cinematic Narrative Benchmark for Multi-Shot Subject-to-Video Generation

Abstract

Models citing this paper0

Datasets citing this paper0

Spaces citing this paper0

Collections including this paper0

相似文章

Memento：通过重建实现记忆，用于一致的长时间视频生成

CausalCine：用于多镜头视频叙事的实时自回归生成

MSAVBench：迈向多镜头音视频生成的全面可靠评估

Artifact-Bench：评估多模态大语言模型在检测与评估AI生成视频伪影方面的能力

VGenST-Bench：通过主动视频合成进行时空推理的基准测试

提交意见反馈