UniVidX：基于扩散先验的多功能视频生成统一多模态框架

Papers with Code Trending 2026/05/01 00:00 论文

摘要

本文介绍了 UniVidX 论文，该论文提出了一种利用扩散先验进行视频生成的统一多模态框架，并讨论了其跨模态一致性机制。

最新进展表明，视频扩散模型（VDM）可被重新用于多种多样的多模态图形任务。然而，现有方法通常针对每个问题场景训练独立的模型，这固定了输入-输出映射并限制了对跨模态相关性的建模。我们提出了 UniVidX，这是一个利用 VDM 先验进行多功能视频生成的统一多模态框架。UniVidX 将像素对齐的任务公式化为共享多模态空间中的条件生成，在适应特定模态分布的同时保留骨干网络的固有先验，并在合成过程中促进跨模态一致性。它基于三个关键设计。随机条件掩码（SCM）在训练过程中将模态随机划分为干净条件和噪声目标，从而实现全方向条件生成，而非固定映射。解耦门控 LoRA（DGL）引入了每模态 LoRA，当某模态作为生成目标时激活，从而保留 VDM 的强大先验。跨模态自注意力（CMSA）在跨模态间共享键和值，同时保持特定模态的查询，促进信息交换和跨模态对齐。我们在两个领域中实例化了 UniVidX：UniVid-Intrinsic，用于 RGB 视频和包括反照率、辐照度和法线在内的固有图；以及 UniVid-Alpha，用于混合 RGB 视频及其组成 RGBA 层。实验表明，这两个模型在截然不同的任务中达到了与最先进方法相当的性能，并在野外场景中表现出强大的泛化能力，即使在训练数据少于 1,000 个视频的情况下也是如此。项目页面：https://houyuanchen111.github.io/UniVidX.github.io/

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:53

论文页面 - UniVidX：通过扩散先验实现通用视频生成的统一多模态框架

来源：https://huggingface.co/papers/2605.00658

SCM 的想法是一种干净的方法，可以将单一的扩散骨干网络转化为全向多模态生成，而 CMSA + DGL 的组合似乎是实现跨模态连贯性的良好配方。

一个问题是：由于 SCM 会随机化哪些模态是条件输入，哪些是生成目标，那么在测试时如果某个模态缺失或噪声很大，跨模态对齐的鲁棒性如何——模型是会优雅地回退到先验知识，还是会表现不佳？

arXivLens 的分解帮助我解析了方法细节，并抓住了 CMSA 如何在模态间共享键和值，同时保持每个模态的查询。

希望能看到关于掩码分布与固定映射的小规模消融实验，以区分 SCM 本身与门控适配器各自的贡献。

UniVidX：基于扩散先验的多功能视频生成统一多模态框架

论文页面 - UniVidX：通过扩散先验实现通用视频生成的统一多模态框架

相似文章

UniDDT: 通过解耦扩散变换器统一多模态理解与生成

UniPath: 统一多模态推理中理解与生成的适应性协调

LoomVideo：统一多模态输入的视频生成与编辑

MilliVid：用于视频生成中长程一致性的分层潜在变量

统一多模态自回归建模：共享上下文-视觉分词器是实现统一的关键

提交意见反馈