OmniScript:面向长篇幅电影视频的视听脚本生成
摘要
# 论文页面 - OmniScript:面向长篇幅电影视频的视听脚本生成 来源:[https://huggingface.co/papers/2604.11102](https://huggingface.co/papers/2604.11102) ## 摘要 本文提出了一项新颖的视频到脚本任务,并同步介绍了 OmniScript——一个 80 亿参数的全模态语言模型,该模型通过渐进式流水线技术训练,用于长篇幅叙事理解与时间定位。当前的[多模态大语言模型](https://huggingface.co/papers?
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - OmniScript:面向长篇幅电影视频的视听剧本生成
来源:https://huggingface.co/papers/2604.11102
摘要
本文提出了一个新颖的视频到剧本任务,并介绍了 OmniScript——一个拥有 80 亿参数的全模态语言模型,该模型通过渐进式流水线技术进行训练,以实现长篇幅叙事理解与时间定位。
当前的多模态大语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models)(MLLMs) 在短视频理解方面已展现出卓越能力,但将长篇幅电影视频转换为包含精确时间信息的详细剧本仍然是一项重大挑战。本文引入了新颖的视频到剧本(https://huggingface.co/papers?q=video-to-script)(V2S) 任务,旨在生成层级化的逐场景剧本,涵盖角色动作、对话、表情和音频提示。为支持该任务,我们构建了首个带有人工标注的基准测试,并提出了一种具备时间感知能力的层级化评估框架(https://huggingface.co/papers?q=hierarchical%20evaluation%20framework)。此外,我们提出了 OmniScript,一个 80 亿参数的全模态(视听)语言模型,专为长篇幅叙事理解而设计。OmniScript 通过渐进式流水线(https://huggingface.co/papers?q=progressive%20pipeline)进行训练,该流程利用思维链监督微调(https://huggingface.co/papers?q=chain-of-thought%20supervised%20fine-tuning)进行情节与角色推理,随后通过基于时间分段奖励的强化学习(https://huggingface.co/papers?q=reinforcement%20learning)进一步优化。大量实验表明,尽管 OmniScript 在参数规模上十分高效,但其性能显著优于更大的开源模型,并在时间定位(https://huggingface.co/papers?q=temporal%20localization)与多领域语义准确性(https://huggingface.co/papers?q=multi-field%20semantic%20accuracy)方面达到了与最先进闭源模型(包括 Gemini 3-Pro)相当的水平。
查看 arXiv 页面 (https://arxiv.org/abs/2604.11102)查看 PDF (https://arxiv.org/pdf/2604.11102)项目页面 (https://arcomniscript.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.11102)
在智能体中获取本文:
hf papers read 2604\.11102
还没有安装最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
暂无模型引用本文
在模型 README.md 中引用 arxiv.org/abs/2604.11102,即可从本页面建立链接。
引用本文的数据集0
暂无数据集引用本文
在数据集 README.md 中引用 arxiv.org/abs/2604.11102,即可从本页面建立链接。
引用本文的 Spaces0
暂无 Space 引用本文
在 Space 的 README.md 中引用 arxiv.org/abs/2604.11102,即可从本页面建立链接。
包含本文的合集0
暂无合集包含本文
将本文添加到一个合集(https://huggingface.co/new-collection)即可从本页面建立链接。
相似文章
OmniVideo-100K:一个通过结构化脚本和证据链进行音视频推理的数据集
OmniVideo-100K介绍了一个自动化的数据引擎,通过实体锚定脚本和线索引导的问答生成来提升音视频推理和时间一致性,在多个基准测试上实现了显著的性能提升。
CogOmniControl: 基于推理的可控视频生成,通过创意意图认知
CogOmniControl是一个基于推理的可控视频生成框架,它使用在动画制作数据上训练的专业视觉语言模型(CogVLM)从稀疏条件中推断创意意图,然后通过强化学习引导基于扩散的生成器,在新基准上取得最先进的结果。
LatentOmni:通过统一视听潜在推理重新思考全模态理解
LatentOmni提出了一种用于视听推理的统一潜在空间,避免了基于文本的思维链带来的信息损失。在视听推理基准测试中,它在开源模型中达到了最先进的性能。
Soap2Soap: 基于多智能体协作的长篇电影视频重制
Soap2Soap 提出了一个多智能体框架,用于长时域视频到视频生成,通过使用语义剧本和视觉参考锚点的双桥一致性机制,在扩展序列中保持叙事结构和角色身份。
由"Gemini Omni"生成的视频
展示了一段由Gemini Omni AI模型生成的视频,回复中包含生成来源详情。