UniVidX:基于扩散先验的多功能视频生成统一多模态框架

Papers with Code Trending 论文

摘要

本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。

最新进展表明,视频扩散模型(VDM)可被重新用于多种多样的多模态图形任务。然而,现有方法通常针对每个问题场景训练独立的模型,这固定了输入-输出映射并限制了对跨模态相关性的建模。我们提出了 UniVidX,这是一个利用 VDM 先验进行多功能视频生成的统一多模态框架。UniVidX 将像素对齐的任务公式化为共享多模态空间中的条件生成,在适应特定模态分布的同时保留骨干网络的固有先验,并在合成过程中促进跨模态一致性。它基于三个关键设计。随机条件掩码(SCM)在训练过程中将模态随机划分为干净条件和噪声目标,从而实现全方向条件生成,而非固定映射。解耦门控 LoRA(DGL)引入了每模态 LoRA,当某模态作为生成目标时激活,从而保留 VDM 的强大先验。跨模态自注意力(CMSA)在跨模态间共享键和值,同时保持特定模态的查询,促进信息交换和跨模态对齐。我们在两个领域中实例化了 UniVidX:UniVid-Intrinsic,用于 RGB 视频和包括反照率、辐照度和法线在内的固有图;以及 UniVid-Alpha,用于混合 RGB 视频及其组成 RGBA 层。实验表明,这两个模型在截然不同的任务中达到了与最先进方法相当的性能,并在野外场景中表现出强大的泛化能力,即使在训练数据少于 1,000 个视频的情况下也是如此。项目页面:https://houyuanchen111.github.io/UniVidX.github.io/
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:53

论文页面 - UniVidX:通过扩散先验实现通用视频生成的统一多模态框架

来源:https://huggingface.co/papers/2605.00658

SCM 的想法是一种干净的方法,可以将单一的扩散骨干网络转化为全向多模态生成,而 CMSA + DGL 的组合似乎是实现跨模态连贯性的良好配方。

一个问题是:由于 SCM 会随机化哪些模态是条件输入,哪些是生成目标,那么在测试时如果某个模态缺失或噪声很大,跨模态对齐的鲁棒性如何——模型是会优雅地回退到先验知识,还是会表现不佳?

arXivLens 的分解帮助我解析了方法细节,并抓住了 CMSA 如何在模态间共享键和值,同时保持每个模态的查询。

希望能看到关于掩码分布与固定映射的小规模消融实验,以区分 SCM 本身与门控适配器各自的贡献。

相似文章

LoomVideo:统一多模态输入的视频生成与编辑

Hugging Face Daily Papers

LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。

MilliVid:用于视频生成中长程一致性的分层潜在变量

Hugging Face Daily Papers

本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。