Bernini:视频扩散的潜在语义规划
摘要
Bernini 提出了一种统一的视频生成与编辑框架,将多模态大语言模型用于语义规划、扩散模型用于像素渲染,通过语义接口分离和增强位置编码实现最先进性能。
查看缓存全文
缓存时间: 2026/05/22 02:25
论文页面 - Bernini:面向视频扩散的潜在语义规划
来源:https://huggingface.co/papers/2605.22344 作者:
,
,
,
,
,
,
,
,
,
,
摘要
一个统一的视频生成与编辑框架,将多模态大语言模型用于语义规划、扩散模型用于像素渲染,通过语义接口分离与增强位置编码实现了最先进的性能。
多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20large%20language%models)(MLLMs) 和扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 各自已达到显著成熟度:MLLMs 擅长对异构多模态输入进行推理,具有强大的语义基础,而扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 能合成具有逼真保真度的图像和视频。我们认为这两类模型可以通过简单的分工统一起来:MLLMs 执行语义规划 (https://huggingface.co/papers?q=semantic%20planning),扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 则根据高级语义指导和低级视觉特征渲染像素。基于这一思想,我们提出 Bernini,一个统一的视频生成 (https://huggingface.co/papers?q=video%20generation) 与编辑框架。基于 MLLM 的规划器直接在 ViT 嵌入空间 (https://huggingface.co/papers?q=ViT%20embedding%20space) 中预测目标语义表示,而基于 DiT 的渲染器 (https://huggingface.co/papers?q=DiT-based%20renderer) 则以该规划为条件,并结合文本特征 (https://huggingface.co/papers?q=text%20features)(对于编辑任务,还结合源 VAE 特征 (https://huggingface.co/papers?q=VAE%20features) 以保留细节)来合成像素。由于语义作为接口,规划器和渲染器可以分别训练,仅需少量协同训练,从而保留两个组件的预训练优势并保持训练高效。为了更好地处理多个视觉输入,我们引入了分段感知 3D 旋转位置编码 (https://huggingface.co/papers?q=Segment-Aware%203D%20Rotary%20Positional%20Embedding)(SA-3D RoPE),并在规划器中进一步融入思维链推理 (https://huggingface.co/papers?q=chain-of-thought%20reasoning),以更好地将理解迁移到生成中。Bernini 在广泛的视频生成 (https://huggingface.co/papers?q=video%20generation) 和编辑基准上取得了最先进的性能,MLLM 的预训练理解能力转化为在挑战性编辑任务上的强大泛化能力。
查看 arXiv 页面 (https://arxiv.org/abs/2605.22344)查看 PDF (https://arxiv.org/pdf/2605.22344)项目页面 (https://bernini-ai.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22344)
在你的 Agent 中获取这篇论文:
hf papers read 2605\.22344
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.22344 以从此页面链接。
引用此论文的数据集0
无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.22344 以从此页面链接。
引用此论文的 Space0
无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.22344 以从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加至收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
在五个模型上使用相同提示测试角色一致性
用户使用相同提示和参考图像,在五个AI视频生成模型(Kling 3.0、Runway Gen-4.5、Veo 3.1、Seedance 2.0、Pika)上测试角色一致性,发现Seedance 2.0最佳(8/10),Pika最差(3/10)。
通过在线策略蒸馏实现数据高效的自回归到扩散语言模型
本文介绍了OPDLM,一种通过在线策略蒸馏将自回归语言模型转换为扩散语言模型的方法,所需训练令牌数量减少15倍到7000倍,同时保留原始模型的知识。
DiBS: 扩散信息引导的支路选择
提出DiBS,一种扩散模型引导的方法,用于精确数独求解器中的支路选择,在不牺牲完备性的情况下降低搜索代价,并有理论证明和在Royle 17线索基准上的实证结果支持。
@0xLogicrw: OpenAI 旗下视频生成模型 Sora 团队前研究科学家、自学成才的瑞典青年加布里埃尔·彼得森 (Gabriel Petersson) 宣布从 OpenAI 离职。彼得森表示,他离开 OpenAI 是为了独立创业,计划在通用人工智能 (…
OpenAI Sora团队前研究科学家Gabriel Petersson宣布离职,计划在通用人工智能到来前独立创业打造最后一款产品。
@Smartpigai: 每次有人问我“做内容 / 视频 / 素材管理用啥工具”,我都懒得再解释了,直接一次性整理好,你自己存 1、视频剪辑(用代码做视频) https://github.com/remotion-dev/remotion… 2、语音转字幕 / 会…
一个帖子整理了多个用于内容创作的开源工具,包括视频剪辑、语音转字幕、AI绘图、媒体处理等,强调免费开源且可拼成自己的系统。