UniVidX:基于扩散先验的多功能视频生成统一多模态框架
摘要
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
查看缓存全文
缓存时间: 2026/05/08 08:53
论文页面 - UniVidX:通过扩散先验实现通用视频生成的统一多模态框架
来源:https://huggingface.co/papers/2605.00658
SCM 的想法是一种干净的方法,可以将单一的扩散骨干网络转化为全向多模态生成,而 CMSA + DGL 的组合似乎是实现跨模态连贯性的良好配方。
一个问题是:由于 SCM 会随机化哪些模态是条件输入,哪些是生成目标,那么在测试时如果某个模态缺失或噪声很大,跨模态对齐的鲁棒性如何——模型是会优雅地回退到先验知识,还是会表现不佳?
arXivLens 的分解帮助我解析了方法细节,并抓住了 CMSA 如何在模态间共享键和值,同时保持每个模态的查询。
希望能看到关于掩码分布与固定映射的小规模消融实验,以区分 SCM 本身与门控适配器各自的贡献。
相似文章
UniDDT: 通过解耦扩散变换器统一多模态理解与生成
UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。
UniPath: 统一多模态推理中理解与生成的适应性协调
UniPath 提出了一种框架,用于统一多模态模型中理解与生成的适应性协调,利用协调路径多样性来提升相对于固定策略的性能。
LoomVideo:统一多模态输入的视频生成与编辑
LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。
MilliVid:用于视频生成中长程一致性的分层潜在变量
本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。
统一多模态自回归建模:共享上下文-视觉分词器是实现统一的关键
UniAR提出了一个统一的自回归框架,使用单个离散视觉分词器桥接视觉理解与生成,在图像生成和编辑方面取得了最佳成果。