LatentUMM:统一多模态模型的双重潜在对齐

Hugging Face Daily Papers 论文

摘要

LatentUMM 引入了双重潜在对齐,通过对齐转换和稳定潜在动态,来改善统一多模态模型中的跨模态一致性。

统一多模态模型(UMMs)通过学习共享潜在空间,在理解和生成两方面都取得了强性能,但它们在两种能力之间常常表现出功能不一致。我们观察到,这个问题并非源于缺少共享表示,而是因为缺少对进入和离开潜在空间的转换之间的显式对齐。因此,生成和重新编码可能遵循不一致的轨迹,导致在模态转换下产生语义漂移。在这项工作中,我们提出了 LatentUMM,一个构建增强共享潜在空间以显式对齐这些转换并改善跨模态一致性的框架。LatentUMM 由两个阶段组成。首先,双重潜在对齐在模态和能力两个层面上强制一致性:跨模态对齐使用更强的嵌入模型来施加结构化的跨模态语义,而双重能力对齐在生成和重新编码下强制双向一致性。其次,潜在动态稳定化通过随机潜在展开和偏好优化来提高鲁棒性,倾向于更好地保留语义一致性的轨迹。实验表明,LatentUMM 在多种架构上一致地提高了多模态一致性。代码可在以下地址获取:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM。
查看原文
查看缓存全文

缓存时间: 2026/05/25 10:37

论文页面 - LatentUMM:面向统一多模态模型的双重潜在对齐

来源:https://huggingface.co/papers/2605.17766

摘要

LatentUMM 通过构建一个增强的共享潜在空间来解决多模态一致性问题,该空间显式对齐了模态之间的变换,并在生成和重编码过程中稳定了潜在动态。

统一多模态模型(https://huggingface.co/papers?q=Unified%20multimodal%20models)(UMMs)通过学习共享潜在空间(https://huggingface.co/papers?q=shared%20latent%20space)在理解和生成方面均取得了强大性能,然而它们在这两种能力之间往往表现出功能上的不一致性。我们观察到,这一问题并非源于共享表示的缺失,而是由于映射进出潜在空间的变换之间缺乏显式对齐。结果,生成和重编码可能沿着不一致的轨迹进行,导致模态转换下的语义漂移。在这项工作中,我们提出了 LatentUMM,一个构建增强型共享潜在空间(https://huggingface.co/papers?q=shared%20latent%20space)的框架,以显式对齐这些变换并提升跨模态一致性。LatentUMM 包含两个阶段。首先,双重潜在对齐在模态和能力两个层面强制执行一致性:跨模态对齐(https://huggingface.co/papers?q=cross-modal%20alignment)使用更强的嵌入模型施加结构化的跨模态语义,而双重能力对齐(https://huggingface.co/papers?q=dual%20capacity%20alignment)则强制执行生成和重编码下的双向一致性。其次,潜在动态稳定化(https://huggingface.co/papers?q=latent%20dynamics%20stabilization)通过随机潜在展开(https://huggingface.co/papers?q=stochastic%20latent%20rollouts)和偏好优化(https://huggingface.co/papers?q=preference%20optimization)提升鲁棒性,倾向选择能更好保持语义一致性(https://huggingface.co/papers?q=semantic%20consistency)的轨迹。实验表明,LatentUMM 在不同架构上均能持续提升多模态一致性。代码可访问:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM。

查看 arXiv 页面 (https://arxiv.org/abs/2605.17766)查看 PDF (https://arxiv.org/pdf/2605.17766)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.17766)

在您的 agent 中获取该论文:

hf papers read 2605\.17766

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.17766 以将其链接至此页面。

引用该论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.17766 以将其链接至此页面。

引用该论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.17766 以将其链接至此页面。

包含该论文的收藏集 0

没有包含该论文的收藏集

将此论文添加到一个收藏集 (https://huggingface.co/new-collection)中,以将其链接至此页面。

相似文章

各向异性模态对齐

Hugging Face Daily Papers

本文提出了 AnisoAlign 框架,该框架通过应用各向异性几何校正来解决多模态模型中的模态间隙问题,从而实现有效的非配对模态对齐。