各向异性模态对齐

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

本文提出了 AnisoAlign 框架，该框架通过应用各向异性几何校正来解决多模态模型中的模态间隙问题，从而实现有效的非配对模态对齐。

多模态大型语言模型（MLLM）的训练长期以来受到高质量配对多模态数据稀缺的限制。最近的研究表明，预训练多模态对比模型的共享表示空间可以作为桥梁，使模型能够利用单模态数据进行多模态训练。然而，这一范式的关键前提仍未得到充分理解：不同模态的表示是否可以可靠地互换？核心障碍在于共享空间中持续存在的模态间隙（Modality Gap）。在本工作中，我们重新审视了模态间隙的几何本质。我们发现，模态表示已经共享兼容的主导语义几何结构。真正阻碍模态互换性的并非简单的全局偏移，而是集中于少数主导方向上的各向异性残差结构。基于这一发现，我们进一步提出了各向异性模态间隙对齐原则：有效的模态对齐应与目标模态分布保持一致，同时保留源模态的语义结构。在此原则指导下，我们提出了一个名为 AnisoAlign 的各向异性几何校正框架，用于非配对模态对齐。该框架利用目标模态的内部几何先验，对源模态表示进行有界校正，从而在目标模态中构建替代表示。实验证实了其在几何诊断和纯文本 MLLM 训练中的优势。总体而言，这项工作将模态间隙从经验观察重新定义为一种可校正的结构化几何现象，并为使用单模态数据训练多模态模型提供了新的表示对齐视角。

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:20

论文页面 - Anisotropic Modality Align（各向异性模态对齐）

来源：https://huggingface.co/papers/2605.07825 发表于 5 月 8 日

由 https://huggingface.co/Yu2020 提交

Yu_xm (https://huggingface.co/Yu2020) 于 5 月 11 日

作者：

，

摘要

本研究提出了一种各向异性几何校正框架，旨在解决多模态模型中的模态间隙问题，通过结构化的表征变换实现有效的非配对模态对齐。

长期以来，多模态大型语言模型（https://huggingface.co/papers?q=multimodal%20large%20language%20models）的训练一直受到高质量配对多模态数据稀缺的限制。最近的研究表明，预训练的多模态对比模型（https://huggingface.co/papers?q=multimodal%20contrastive%20models）的共享表征空间（https://huggingface.co/papers?q=shared%20representation%20space）可以作为一个桥梁，使模型能够利用单模态数据进行多模态训练。然而，这一范式的关键前提仍然没有得到充分的理解：不同模态的表征是否可以可靠地互换？核心障碍在于共享空间中持续存在的模态间隙（https://huggingface.co/papers?q=Modality%20Gap）。在本工作中，我们重新审视了模态间隙（https://huggingface.co/papers?q=modality%20gap）的几何本质。我们发现，不同模态的表征已经共享兼容的主导语义几何结构（https://huggingface.co/papers?q=semantic%20geometry）。真正阻碍模态互换性的并非简单的全局偏移，而是集中于少数主导方向上的各向异性残差结构（https://huggingface.co/papers?q=anisotropic%20residual%20structure）。基于这一发现，我们进一步提出了各向异性模态间隙（https://huggingface.co/papers?q=modality%20gap）对齐的原则：有效的模态对齐（https://huggingface.co/papers?q=modality%20alignment）应在与目标模态分布保持一致的同时，保留源模态的语义结构。在这一原则的指导下，我们提出了一种用于非配对模态对齐（https://huggingface.co/papers?q=modality%20alignment）的各向异性几何校正框架（https://huggingface.co/papers?q=geometric%20correction%20framework），即 AnisoAlign。该框架利用目标模态的内部几何先验（https://huggingface.co/papers?q=internal%20geometric%20prior），对源模态表征进行有界的校正，从而在目标模态中构建替代表征。实验证实了其在几何诊断和纯文本 MLLM 训练方面的好处。总体而言，这项工作将模态间隙（https://huggingface.co/papers?q=modality%20gap）从一个经验性观察重新诠释为一种可校正的、结构化的几何现象，并为使用单模态数据训练多模态模型提供了新的表征对齐视角。

查看 arXiv 页面（https://arxiv.org/abs/2605.07825）查看 PDF（https://arxiv.org/pdf/2605.07825）GitHub 62（https://github.com/Yu-xm/Modality_Gap_Theory）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.07825）

在您的 Agent 中获取这篇论文：

hf papers read 2605\.07825

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.07825 即可从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.07825 即可从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.07825 即可从此页面链接它。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集（https://huggingface.co/new-collection）即可从此页面链接它。

各向异性模态对齐

论文页面 - Anisotropic Modality Align（各向异性模态对齐）

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

超越二元编辑：基于对抗性子空间对齐的鲁棒多模态知识编辑

LatentUMM：统一多模态模型的双重潜在对齐

WavAlign：通过自适应混合后训练提升口语对话模型的智能与表现力

中心性而非各向异性驱动多语言嵌入模型中的跨语言检索不对称性

MACS: 面向高效多模态MoE推理的模态感知容量缩放

提交意见反馈