OmniScript:面向长篇幅电影视频的视听脚本生成

Hugging Face Daily Papers 论文

摘要

# 论文页面 - OmniScript:面向长篇幅电影视频的视听脚本生成 来源:[https://huggingface.co/papers/2604.11102](https://huggingface.co/papers/2604.11102) ## 摘要 本文提出了一项新颖的视频到脚本任务,并同步介绍了 OmniScript——一个 80 亿参数的全模态语言模型,该模型通过渐进式流水线技术训练,用于长篇幅叙事理解与时间定位。当前的[多模态大语言模型](https://huggingface.co/papers?

当前的多模态大语言模型(MLLMs)在短视频理解方面已展现出卓越能力,但将长篇幅电影视频转换为包含精确时间定位的详细脚本仍然是一项重大挑战。本文提出了一项新颖的视频到脚本(V2S)任务,旨在生成层次化的逐场景脚本,涵盖角色动作、对话、表情与音频提示。为此,我们构建了首个带有人工标注的基准数据集,并提出了一种具备时间感知能力的层次化评估框架。此外,我们提出了 OmniScript——一个拥有 80 亿参数的全模态(视听)语言模型,专为长篇幅叙事理解而设计。OmniScript 采用渐进式流水线训练:首先利用思维链监督微调进行情节与角色推理,随后通过基于时间分段奖励的强化学习进一步优化。大量实验表明,尽管 OmniScript 参数规模较小,但其性能显著优于更大的开源模型,并在时间定位与多领域语义准确性方面达到了与最先进闭源模型(包括 Gemini 3-Pro)相当的水准。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - OmniScript:面向长篇幅电影视频的视听剧本生成

来源:https://huggingface.co/papers/2604.11102

摘要

本文提出了一个新颖的视频到剧本任务,并介绍了 OmniScript——一个拥有 80 亿参数的全模态语言模型,该模型通过渐进式流水线技术进行训练,以实现长篇幅叙事理解与时间定位。

当前的多模态大语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models)(MLLMs) 在短视频理解方面已展现出卓越能力,但将长篇幅电影视频转换为包含精确时间信息的详细剧本仍然是一项重大挑战。本文引入了新颖的视频到剧本(https://huggingface.co/papers?q=video-to-script)(V2S) 任务,旨在生成层级化的逐场景剧本,涵盖角色动作、对话、表情和音频提示。为支持该任务,我们构建了首个带有人工标注的基准测试,并提出了一种具备时间感知能力的层级化评估框架(https://huggingface.co/papers?q=hierarchical%20evaluation%20framework)。此外,我们提出了 OmniScript,一个 80 亿参数的全模态(视听)语言模型,专为长篇幅叙事理解而设计。OmniScript 通过渐进式流水线(https://huggingface.co/papers?q=progressive%20pipeline)进行训练,该流程利用思维链监督微调(https://huggingface.co/papers?q=chain-of-thought%20supervised%20fine-tuning)进行情节与角色推理,随后通过基于时间分段奖励的强化学习(https://huggingface.co/papers?q=reinforcement%20learning)进一步优化。大量实验表明,尽管 OmniScript 在参数规模上十分高效,但其性能显著优于更大的开源模型,并在时间定位(https://huggingface.co/papers?q=temporal%20localization)与多领域语义准确性(https://huggingface.co/papers?q=multi-field%20semantic%20accuracy)方面达到了与最先进闭源模型(包括 Gemini 3-Pro)相当的水平。

查看 arXiv 页面 (https://arxiv.org/abs/2604.11102)查看 PDF (https://arxiv.org/pdf/2604.11102)项目页面 (https://arcomniscript.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.11102)

在智能体中获取本文:

hf papers read 2604\.11102

还没有安装最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

暂无模型引用本文

在模型 README.md 中引用 arxiv.org/abs/2604.11102,即可从本页面建立链接。

引用本文的数据集0

暂无数据集引用本文

在数据集 README.md 中引用 arxiv.org/abs/2604.11102,即可从本页面建立链接。

引用本文的 Spaces0

暂无 Space 引用本文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.11102,即可从本页面建立链接。

包含本文的合集0

暂无合集包含本文

将本文添加到一个合集(https://huggingface.co/new-collection)即可从本页面建立链接。

相似文章

CogOmniControl: 基于推理的可控视频生成,通过创意意图认知

Hugging Face Daily Papers

CogOmniControl是一个基于推理的可控视频生成框架,它使用在动画制作数据上训练的专业视觉语言模型(CogVLM)从稀疏条件中推断创意意图,然后通过强化学习引导基于扩散的生成器,在新基准上取得最先进的结果。