各向异性模态对齐
摘要
本文提出了 AnisoAlign 框架,该框架通过应用各向异性几何校正来解决多模态模型中的模态间隙问题,从而实现有效的非配对模态对齐。
查看缓存全文
缓存时间: 2026/05/11 07:20
论文页面 - Anisotropic Modality Align(各向异性模态对齐)
来源:https://huggingface.co/papers/2605.07825 发表于 5 月 8 日
·
由 https://huggingface.co/Yu2020 提交
Yu_xm (https://huggingface.co/Yu2020) 于 5 月 11 日
作者:
,
,
,
,
,
,
,
,
摘要
本研究提出了一种各向异性几何校正框架,旨在解决多模态模型中的模态间隙问题,通过结构化的表征变换实现有效的非配对模态对齐。
长期以来,多模态大型语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models)的训练一直受到高质量配对多模态数据稀缺的限制。最近的研究表明,预训练的多模态对比模型(https://huggingface.co/papers?q=multimodal%20contrastive%20models)的共享表征空间(https://huggingface.co/papers?q=shared%20representation%20space)可以作为一个桥梁,使模型能够利用单模态数据进行多模态训练。然而,这一范式的关键前提仍然没有得到充分的理解:不同模态的表征是否可以可靠地互换?核心障碍在于共享空间中持续存在的模态间隙(https://huggingface.co/papers?q=Modality%20Gap)。在本工作中,我们重新审视了模态间隙(https://huggingface.co/papers?q=modality%20gap)的几何本质。我们发现,不同模态的表征已经共享兼容的主导语义几何结构(https://huggingface.co/papers?q=semantic%20geometry)。真正阻碍模态互换性的并非简单的全局偏移,而是集中于少数主导方向上的各向异性残差结构(https://huggingface.co/papers?q=anisotropic%20residual%20structure)。基于这一发现,我们进一步提出了各向异性模态间隙(https://huggingface.co/papers?q=modality%20gap)对齐的原则:有效的模态对齐(https://huggingface.co/papers?q=modality%20alignment)应在与目标模态分布保持一致的同时,保留源模态的语义结构。在这一原则的指导下,我们提出了一种用于非配对模态对齐(https://huggingface.co/papers?q=modality%20alignment)的各向异性几何校正框架(https://huggingface.co/papers?q=geometric%20correction%20framework),即 AnisoAlign。该框架利用目标模态的内部几何先验(https://huggingface.co/papers?q=internal%20geometric%20prior),对源模态表征进行有界的校正,从而在目标模态中构建替代表征。实验证实了其在几何诊断和纯文本 MLLM 训练方面的好处。总体而言,这项工作将模态间隙(https://huggingface.co/papers?q=modality%20gap)从一个经验性观察重新诠释为一种可校正的、结构化的几何现象,并为使用单模态数据训练多模态模型提供了新的表征对齐视角。
查看 arXiv 页面(https://arxiv.org/abs/2605.07825)查看 PDF(https://arxiv.org/pdf/2605.07825)GitHub 62(https://github.com/Yu-xm/Modality_Gap_Theory)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.07825)
在您的 Agent 中获取这篇论文:
hf papers read 2605\.07825
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.07825 即可从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.07825 即可从此页面链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.07825 即可从此页面链接它。
包含此论文的合集 0
没有包含此论文的合集
将此论文添加到合集(https://huggingface.co/new-collection)即可从此页面链接它。
相似文章
超越二元编辑:基于对抗性子空间对齐的鲁棒多模态知识编辑
本文介绍了ASAM(面向多模态知识编辑的对抗性子空间对齐),该方法通过生成对抗但语义一致的变体,并强制对表示进行低秩对齐,提升了内在多模态知识编辑的泛化性,解决了现有方法泛化能力有限的问题。
LatentUMM:统一多模态模型的双重潜在对齐
LatentUMM 引入了双重潜在对齐,通过对齐转换和稳定潜在动态,来改善统一多模态模型中的跨模态一致性。
WavAlign:通过自适应混合后训练提升口语对话模型的智能与表现力
WavAlign 提出一种模态感知的自适应后训练方法,利用受限偏好更新与显式锚定,在端到端口语对话模型中同步提升语义质量与语音表现力。
中心性而非各向异性驱动多语言嵌入模型中的跨语言检索不对称性
本文研究了多语言嵌入模型中跨语言检索不对称性的成因。作者提出并验证了枢纽中介假说,发现中心性(而非各向异性)是主导原因,并建议使用CSLS替代余弦相似度。
MACS: 面向高效多模态MoE推理的模态感知容量缩放
MACS是一个无需训练的推理框架,通过引入熵加权负载和动态模态自适应容量机制,减轻多模态MoE MLLMs在专家并行中的落后效应。