Bernini:视频扩散的潜在语义规划

Hugging Face Daily Papers 论文

摘要

Bernini 提出了一种统一的视频生成与编辑框架,将多模态大语言模型用于语义规划、扩散模型用于像素渲染,通过语义接口分离和增强位置编码实现最先进性能。

多模态大语言模型(MLLMs)和扩散模型均已达到显著成熟度:MLLMs 擅长基于异构多模态输入进行推理,具备强大的语义基础;而扩散模型能够以照片级逼真度合成图像和视频。我们认为,这两类模型可以通过简单的分工实现统一:MLLMs 执行语义规划,扩散模型则根据高层语义指导和低层视觉特征渲染像素。基于这一思路,我们提出了 Bernini——一个统一的视频生成与编辑框架。基于 MLLM 的规划器直接在 ViT 嵌入空间中预测目标语义表示,而基于 DiT 的渲染器则根据该计划以及文本特征(对于编辑任务,还利用源 VAE 特征以保留细节)合成像素。由于语义作为接口,规划器和渲染器可以分开训练并仅进行少量协同训练,从而保留两个组件的预训练优势,同时保持训练高效。为了更好地处理多个视觉输入,我们引入了分段感知3D旋转位置编码(SA-3D RoPE),并进一步在规划器中融入思维链推理,以更好地将理解迁移到生成过程。Bernini 在广泛的视频生成与编辑基准测试中取得了最先进性能,MLLM 的预训练理解能力转化为在具有挑战性的编辑任务上的强大泛化能力。
查看原文
查看缓存全文

缓存时间: 2026/05/22 02:25

论文页面 - Bernini:面向视频扩散的潜在语义规划

来源:https://huggingface.co/papers/2605.22344 作者:

摘要

一个统一的视频生成与编辑框架,将多模态大语言模型用于语义规划、扩散模型用于像素渲染,通过语义接口分离与增强位置编码实现了最先进的性能。

多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20large%20language%models)(MLLMs) 和扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 各自已达到显著成熟度:MLLMs 擅长对异构多模态输入进行推理,具有强大的语义基础,而扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 能合成具有逼真保真度的图像和视频。我们认为这两类模型可以通过简单的分工统一起来:MLLMs 执行语义规划 (https://huggingface.co/papers?q=semantic%20planning),扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 则根据高级语义指导和低级视觉特征渲染像素。基于这一思想,我们提出 Bernini,一个统一的视频生成 (https://huggingface.co/papers?q=video%20generation) 与编辑框架。基于 MLLM 的规划器直接在 ViT 嵌入空间 (https://huggingface.co/papers?q=ViT%20embedding%20space) 中预测目标语义表示,而基于 DiT 的渲染器 (https://huggingface.co/papers?q=DiT-based%20renderer) 则以该规划为条件,并结合文本特征 (https://huggingface.co/papers?q=text%20features)(对于编辑任务,还结合源 VAE 特征 (https://huggingface.co/papers?q=VAE%20features) 以保留细节)来合成像素。由于语义作为接口,规划器和渲染器可以分别训练,仅需少量协同训练,从而保留两个组件的预训练优势并保持训练高效。为了更好地处理多个视觉输入,我们引入了分段感知 3D 旋转位置编码 (https://huggingface.co/papers?q=Segment-Aware%203D%20Rotary%20Positional%20Embedding)(SA-3D RoPE),并在规划器中进一步融入思维链推理 (https://huggingface.co/papers?q=chain-of-thought%20reasoning),以更好地将理解迁移到生成中。Bernini 在广泛的视频生成 (https://huggingface.co/papers?q=video%20generation) 和编辑基准上取得了最先进的性能,MLLM 的预训练理解能力转化为在挑战性编辑任务上的强大泛化能力。

查看 arXiv 页面 (https://arxiv.org/abs/2605.22344)查看 PDF (https://arxiv.org/pdf/2605.22344)项目页面 (https://bernini-ai.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22344)

在你的 Agent 中获取这篇论文:

hf papers read 2605\.22344

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.22344 以从此页面链接。

引用此论文的数据集0

无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.22344 以从此页面链接。

引用此论文的 Space0

无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.22344 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加至收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

在五个模型上使用相同提示测试角色一致性

Reddit r/AI_Agents

用户使用相同提示和参考图像,在五个AI视频生成模型(Kling 3.0、Runway Gen-4.5、Veo 3.1、Seedance 2.0、Pika)上测试角色一致性,发现Seedance 2.0最佳(8/10),Pika最差(3/10)。

DiBS: 扩散信息引导的支路选择

arXiv cs.AI

提出DiBS,一种扩散模型引导的方法,用于精确数独求解器中的支路选择,在不牺牲完备性的情况下降低搜索代价,并有理论证明和在Royle 17线索基准上的实证结果支持。