Bernini：视频扩散的潜在语义规划

Hugging Face Daily Papers 2026/05/21 00:00 论文

摘要

Bernini 提出了一种统一的视频生成与编辑框架，将多模态大语言模型用于语义规划、扩散模型用于像素渲染，通过语义接口分离和增强位置编码实现最先进性能。

多模态大语言模型（MLLMs）和扩散模型均已达到显著成熟度：MLLMs 擅长基于异构多模态输入进行推理，具备强大的语义基础；而扩散模型能够以照片级逼真度合成图像和视频。我们认为，这两类模型可以通过简单的分工实现统一：MLLMs 执行语义规划，扩散模型则根据高层语义指导和低层视觉特征渲染像素。基于这一思路，我们提出了 Bernini——一个统一的视频生成与编辑框架。基于 MLLM 的规划器直接在 ViT 嵌入空间中预测目标语义表示，而基于 DiT 的渲染器则根据该计划以及文本特征（对于编辑任务，还利用源 VAE 特征以保留细节）合成像素。由于语义作为接口，规划器和渲染器可以分开训练并仅进行少量协同训练，从而保留两个组件的预训练优势，同时保持训练高效。为了更好地处理多个视觉输入，我们引入了分段感知3D旋转位置编码（SA-3D RoPE），并进一步在规划器中融入思维链推理，以更好地将理解迁移到生成过程。Bernini 在广泛的视频生成与编辑基准测试中取得了最先进性能，MLLM 的预训练理解能力转化为在具有挑战性的编辑任务上的强大泛化能力。

查看原文

查看缓存全文

缓存时间: 2026/05/22 02:25

论文页面 - Bernini：面向视频扩散的潜在语义规划

来源：https://huggingface.co/papers/2605.22344 作者：

，

摘要

一个统一的视频生成与编辑框架，将多模态大语言模型用于语义规划、扩散模型用于像素渲染，通过语义接口分离与增强位置编码实现了最先进的性能。

多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20large%20language%models)(MLLMs) 和扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 各自已达到显著成熟度：MLLMs 擅长对异构多模态输入进行推理，具有强大的语义基础，而扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 能合成具有逼真保真度的图像和视频。我们认为这两类模型可以通过简单的分工统一起来：MLLMs 执行语义规划 (https://huggingface.co/papers?q=semantic%20planning)，扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 则根据高级语义指导和低级视觉特征渲染像素。基于这一思想，我们提出 Bernini，一个统一的视频生成 (https://huggingface.co/papers?q=video%20generation) 与编辑框架。基于 MLLM 的规划器直接在 ViT 嵌入空间 (https://huggingface.co/papers?q=ViT%20embedding%20space) 中预测目标语义表示，而基于 DiT 的渲染器 (https://huggingface.co/papers?q=DiT-based%20renderer) 则以该规划为条件，并结合文本特征 (https://huggingface.co/papers?q=text%20features)（对于编辑任务，还结合源 VAE 特征 (https://huggingface.co/papers?q=VAE%20features) 以保留细节）来合成像素。由于语义作为接口，规划器和渲染器可以分别训练，仅需少量协同训练，从而保留两个组件的预训练优势并保持训练高效。为了更好地处理多个视觉输入，我们引入了分段感知 3D 旋转位置编码 (https://huggingface.co/papers?q=Segment-Aware%203D%20Rotary%20Positional%20Embedding)（SA-3D RoPE），并在规划器中进一步融入思维链推理 (https://huggingface.co/papers?q=chain-of-thought%20reasoning)，以更好地将理解迁移到生成中。Bernini 在广泛的视频生成 (https://huggingface.co/papers?q=video%20generation) 和编辑基准上取得了最先进的性能，MLLM 的预训练理解能力转化为在挑战性编辑任务上的强大泛化能力。

查看 arXiv 页面 (https://arxiv.org/abs/2605.22344)查看 PDF (https://arxiv.org/pdf/2605.22344)项目页面 (https://bernini-ai.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22344)

在你的 Agent 中获取这篇论文：

hf papers read 2605\.22344

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.22344 以从此页面链接。

引用此论文的数据集0

无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.22344 以从此页面链接。

引用此论文的 Space0

无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.22344 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加至收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

@0xLogicrw: OpenAI 旗下视频生成模型 Sora 团队前研究科学家、自学成才的瑞典青年加布里埃尔·彼得森 (Gabriel Petersson) 宣布从 OpenAI 离职。彼得森表示，他离开 OpenAI 是为了独立创业，计划在通用人工智能 (…

X AI KOLs Timeline

OpenAI Sora团队前研究科学家Gabriel Petersson宣布离职，计划在通用人工智能到来前独立创业打造最后一款产品。

@Smartpigai: 每次有人问我“做内容 / 视频 / 素材管理用啥工具”，我都懒得再解释了，直接一次性整理好，你自己存 1、视频剪辑（用代码做视频） https://github.com/remotion-dev/remotion… 2、语音转字幕 / 会…

X AI KOLs Timeline

一个帖子整理了多个用于内容创作的开源工具，包括视频剪辑、语音转字幕、AI绘图、媒体处理等，强调免费开源且可拼成自己的系统。

Bernini：视频扩散的潜在语义规划

论文页面 - Bernini：面向视频扩散的潜在语义规划

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

在五个模型上使用相同提示测试角色一致性

通过在线策略蒸馏实现数据高效的自回归到扩散语言模型

DiBS: 扩散信息引导的支路选择

@0xLogicrw: OpenAI 旗下视频生成模型 Sora 团队前研究科学家、自学成才的瑞典青年加布里埃尔·彼得森 (Gabriel Petersson) 宣布从 OpenAI 离职。彼得森表示，他离开 OpenAI 是为了独立创业，计划在通用人工智能 (…

@Smartpigai: 每次有人问我“做内容 / 视频 / 素材管理用啥工具”，我都懒得再解释了，直接一次性整理好，你自己存 1、视频剪辑（用代码做视频） https://github.com/remotion-dev/remotion… 2、语音转字幕 / 会…

提交意见反馈