标签
HYDRA-X 提出了一种统一的多模态模型,将图像和视频分词集成到单个视觉变换器中,在理解和生成任务上均取得了强劲性能。
本文介绍了UniKE,这是首个针对统一多模态模型(UMMs)的跨模态知识编辑基准测试,揭示了显著的模态差距:文本编辑实现了92%的效果,但仅有18.5%迁移到图像生成。它提出了Reasoning-augmented Parameter Editing,以改善跨模态迁移,提升幅度高达18.6个百分点。
LatentUMM 引入了双重潜在对齐,通过对齐转换和稳定潜在动态,来改善统一多模态模型中的跨模态一致性。
UniPath 提出了一种框架,用于统一多模态模型中理解与生成的适应性协调,利用协调路径多样性来提升相对于固定策略的性能。