unified-multimodal-models

#unified-multimodal-models

HYDRA-X: 原生统一多模态模型与整体视觉分词器

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

HYDRA-X 提出了一种统一的多模态模型，将图像和视频分词集成到单个视觉变换器中，在理解和生成任务上均取得了强劲性能。

0 人收藏 0 人点赞

#unified-multimodal-models

文本编辑能否泛化到视觉生成？统一多模态模型中的跨模态知识编辑基准测试

arXiv cs.CL ↗ · 2026-06-02 缓存

本文介绍了UniKE，这是首个针对统一多模态模型（UMMs）的跨模态知识编辑基准测试，揭示了显著的模态差距：文本编辑实现了92%的效果，但仅有18.5%迁移到图像生成。它提出了Reasoning-augmented Parameter Editing，以改善跨模态迁移，提升幅度高达18.6个百分点。

0 人收藏 0 人点赞

#unified-multimodal-models

LatentUMM：统一多模态模型的双重潜在对齐

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

LatentUMM 引入了双重潜在对齐，通过对齐转换和稳定潜在动态，来改善统一多模态模型中的跨模态一致性。

0 人收藏 0 人点赞

#unified-multimodal-models

UniPath: 统一多模态推理中理解与生成的适应性协调

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

UniPath 提出了一种框架，用于统一多模态模型中理解与生成的适应性协调，利用协调路径多样性来提升相对于固定策略的性能。

0 人收藏 0 人点赞

unified-multimodal-models

HYDRA-X: 原生统一多模态模型与整体视觉分词器

文本编辑能否泛化到视觉生成？统一多模态模型中的跨模态知识编辑基准测试

LatentUMM：统一多模态模型的双重潜在对齐

UniPath: 统一多模态推理中理解与生成的适应性协调

提交意见反馈