LatentUMM:统一多模态模型的双重潜在对齐
摘要
LatentUMM 引入了双重潜在对齐,通过对齐转换和稳定潜在动态,来改善统一多模态模型中的跨模态一致性。
查看缓存全文
缓存时间: 2026/05/25 10:37
论文页面 - LatentUMM:面向统一多模态模型的双重潜在对齐
来源:https://huggingface.co/papers/2605.17766
摘要
LatentUMM 通过构建一个增强的共享潜在空间来解决多模态一致性问题,该空间显式对齐了模态之间的变换,并在生成和重编码过程中稳定了潜在动态。
统一多模态模型(https://huggingface.co/papers?q=Unified%20multimodal%20models)(UMMs)通过学习共享潜在空间(https://huggingface.co/papers?q=shared%20latent%20space)在理解和生成方面均取得了强大性能,然而它们在这两种能力之间往往表现出功能上的不一致性。我们观察到,这一问题并非源于共享表示的缺失,而是由于映射进出潜在空间的变换之间缺乏显式对齐。结果,生成和重编码可能沿着不一致的轨迹进行,导致模态转换下的语义漂移。在这项工作中,我们提出了 LatentUMM,一个构建增强型共享潜在空间(https://huggingface.co/papers?q=shared%20latent%20space)的框架,以显式对齐这些变换并提升跨模态一致性。LatentUMM 包含两个阶段。首先,双重潜在对齐在模态和能力两个层面强制执行一致性:跨模态对齐(https://huggingface.co/papers?q=cross-modal%20alignment)使用更强的嵌入模型施加结构化的跨模态语义,而双重能力对齐(https://huggingface.co/papers?q=dual%20capacity%20alignment)则强制执行生成和重编码下的双向一致性。其次,潜在动态稳定化(https://huggingface.co/papers?q=latent%20dynamics%20stabilization)通过随机潜在展开(https://huggingface.co/papers?q=stochastic%20latent%20rollouts)和偏好优化(https://huggingface.co/papers?q=preference%20optimization)提升鲁棒性,倾向选择能更好保持语义一致性(https://huggingface.co/papers?q=semantic%20consistency)的轨迹。实验表明,LatentUMM 在不同架构上均能持续提升多模态一致性。代码可访问:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM。
查看 arXiv 页面 (https://arxiv.org/abs/2605.17766)查看 PDF (https://arxiv.org/pdf/2605.17766)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.17766)
在您的 agent 中获取该论文:
hf papers read 2605\.17766
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.17766 以将其链接至此页面。
引用该论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.17766 以将其链接至此页面。
引用该论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.17766 以将其链接至此页面。
包含该论文的收藏集 0
没有包含该论文的收藏集
将此论文添加到一个收藏集 (https://huggingface.co/new-collection)中,以将其链接至此页面。
相似文章
LLMs中的隐藏潜在状态偏移:为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中
本文证明,LLMs可以在保持对齐输出的同时,在连贯上下文中进入可测量的不同内部潜在状态,揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移,现有安全框架无法检测,这对智能体AI部署具有重要影响。
MMCORE:多模态连接与表征对齐的潜在嵌入
MMCORE 提出一个统一的多模态图像生成与编辑框架,将 VLM 语义嵌入与扩散条件对齐,无需昂贵融合或从零训练即可实现顶尖保真度。
UniPath: 统一多模态推理中理解与生成的适应性协调
UniPath 提出了一种框架,用于统一多模态模型中理解与生成的适应性协调,利用协调路径多样性来提升相对于固定策略的性能。
LatentOmni:通过统一视听潜在推理重新思考全模态理解
LatentOmni提出了一种用于视听推理的统一潜在空间,避免了基于文本的思维链带来的信息损失。在视听推理基准测试中,它在开源模型中达到了最先进的性能。
各向异性模态对齐
本文提出了 AnisoAlign 框架,该框架通过应用各向异性几何校正来解决多模态模型中的模态间隙问题,从而实现有效的非配对模态对齐。