MuSS:面向多镜头主体到视频生成的大规模数据集与电影叙事基准
摘要
MuSS 引入了一个用于多镜头主体到视频生成的大规模数据集和基准,旨在解决电影叙事中的逻辑一致性和“复制-粘贴”问题。
查看缓存全文
缓存时间: 2026/05/12 07:30
Paper page - MuSS: A Large-Scale Dataset and Cinematic Narrative Benchmark for Multi-Shot Subject-to-Video Generation
Source: https://huggingface.co/papers/2604.23789
Abstract
MuSS 是一个大规模双轨数据集,专为多镜头视频生成而设计,旨在通过渐进式描述流水线(progressive captioning pipeline)和跨镜头匹配机制,解决主体到视频(Subject-to-Video)生成中的叙事逻辑、时空对齐以及复制粘贴(copy-paste)问题。
尽管视频基础模型在单镜头生成方面表现出色,但现实世界中的电影叙事本质上依赖于复杂的多镜头序列。进一步的进展受到缺乏解决三个核心挑战的数据集的制约:真实的叙事逻辑 (https://huggingface.co/papers?q=narrative%20logic)、时空文本-视频对齐 (https://huggingface.co/papers?q=spatiotemporal%20text-video%20alignment) 冲突,以及主体到视频 (S2V) 生成 (https://huggingface.co/papers?q=Subject-to-Video%20(S2V)%20generation) 中普遍存在的“复制粘贴”困境。为了弥补这一空白,我们引入了 MuSS,这是一个专为多镜头视频和 S2V 生成定制的大规模双轨数据集 (https://huggingface.co/papers?q=dual-track%20dataset)。MuSS 源自超过 3,000 部电影,明确支持复杂的蒙太奇过渡和以主体为中心的叙事。为了构建该数据集,我们开创了一种渐进式描述流水线 (https://huggingface.co/papers?q=progressive%20captioning%20pipeline),通过确保局部镜头级别的准确性来消除上下文冲突,然后再强制实现全局叙事连贯性。至关重要的是,我们实施了一种跨镜头匹配机制 (https://huggingface.co/papers?q=cross-shot%20matching%20mechanism),从根本上根除 S2V 复制粘贴捷径。除了数据集外,我们还提出了电影叙事基准 (https://huggingface.co/papers?q=Cinematic%20Narrative%20Benchmark),该基准具有视觉逻辑驱动范式,并引入了一种新颖的反复制粘贴方差 (Anti-Copy-Paste Variance, ACP-Var) 指标 (https://huggingface.co/papers?q=Anti-Copy-Paste%20Variance%20(ACP-Var)%20metric),以严格评估连续叙事 (https://huggingface.co/papers?q=continuous%20storytelling) 和 3D 结构一致性 (https://huggingface.co/papers?q=3D%20structural%20consistency)。大量实验表明,尽管当前基线模型在连续叙事逻辑 (https://huggingface.co/papers?q=narrative%20logic) 方面表现不佳,甚至退化为简单的 2D 贴纸生成器,但经过 MuSS 增强的模型实现了最先进的叙事效果和跨镜头身份保持。
View arXiv page (https://arxiv.org/abs/2604.23789)View PDF (https://arxiv.org/pdf/2604.23789)GitHub5 (https://github.com/zhang-haojie/MuSS)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2604.23789)
Get this paper in your agent:
hf papers read 2604\.23789
Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
Models citing this paper0
No model linking this paper
Cite arxiv.org/abs/2604.23789 in a model README.md to link it from this page.
Datasets citing this paper0
No dataset linking this paper
Cite arxiv.org/abs/2604.23789 in a dataset README.md to link it from this page.
Spaces citing this paper0
No Space linking this paper
Cite arxiv.org/abs/2604.23789 in a Space README.md to link it from this page.
Collections including this paper0
No Collection including this paper
Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.
相似文章
Memento:通过重建实现记忆,用于一致的长时间视频生成
Memento 是一个以主体重建为引导的框架,通过基于记忆的重建和双查询机制来保留重复出现的主体,从而改进长视频生成,在长期主体一致性和跨镜头连贯性方面达到了最先进的性能。
CausalCine:用于多镜头视频叙事的实时自回归生成
CausalCine 是一个新的学术框架,用于实时交互式多镜头视频生成,它利用因果建模和动态内存路由技术,提高了自回归模型在镜头间的一致性。
MSAVBench:迈向多镜头音视频生成的全面可靠评估
MSAVBench是首个面向多镜头音视频生成的综合基准与自适应评估框架,评估了19个模型在多样化任务上的表现,并与人类判断实现了高度对齐。
Artifact-Bench:评估多模态大语言模型在检测与评估AI生成视频伪影方面的能力
Artifact-Bench是一个综合性基准,用于评估多模态大语言模型在检测和分析AI生成视频伪影方面的表现,揭示了它们的显著局限性以及与人类感知的错位。
VGenST-Bench:通过主动视频合成进行时空推理的基准测试
VGenST-Bench是一个基准测试,利用生成模型主动合成受控的时空推理场景,配备多智能体流水线和人工质量控制,用于评估多模态大语言模型。