Mind the Heads: 多模态大语言模型的拓扑表示对齐

Hugging Face Daily Papers 2026/06/22 00:00 论文

摘要

HeRA 在多模态大型语言模型 (MLLMs) 中对齐单个注意力头，以保留跨模态的局部邻域关系，从而提升视觉中心任务的性能并减少视觉幻觉。

表示对齐已成为一种有效方法，通过将多模态大型语言模型 (MLLMs) 的内部表示向外部视觉编码器的表示进行正则化来改进模型。然而，现有方法通常对齐语言骨干网络的固定层，忽略了 Transformer 模型的细粒度结构。在这项工作中，我们提出了头级表示对齐 (Head-Wise Representation Alignment, HeRA)，该方法在单个注意力头级别强制实施跨模态对齐。我们的方法基于柏拉图表示假说 (Platonic Representation Hypothesis)，专注于跨模态保留表示拓扑结构（即其局部邻域关系）。遵循互 K 近邻 (MKNN) 对齐度量，我们引入了一个对比目标，该目标作为匹配局部结构的可微代理。HeRA 在多模态训练期间将此目标应用于 LLM 中特定的注意力头，这些注意力头根据 MKNN 度量的对齐分数被选中。与直觉相反的是，我们发现对齐最不一致的头能带来最大的收益。在多个 MLLMs 和 18 个基准上的广泛评估表明，HeRA 在具有挑战性的视觉中心任务上持续提升性能，并通过自然抑制对语言先验的过度依赖，有效作为对抗视觉幻觉的正则化器。我们的代码已公开。

查看原文

查看缓存全文

缓存时间: 2026/06/30 19:37

论文页面 - Mind the Heads: 多模态大语言模型的拓扑表示对齐

来源：https://huggingface.co/papers/2606.23885

摘要

HeRA 对齐 MLLM 中的各个注意力头，以保留跨模态的局部邻域关系，从而提升以视觉为中心的任务性能并减少视觉幻觉。

表示对齐 (https://huggingface.co/papers?q=Representation%20alignment)已成为提升多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)（MLLM）的有效方法，通过将其内部表示正则化为外部视觉编码器的表示。然而，现有方法通常对齐语言主干 (https://huggingface.co/papers?q=language%20backbone)的固定层，忽略了Transformer模型 (https://huggingface.co/papers?q=Transformer%20models)的细粒度结构。在这项工作中，我们提出了Head-Wise表示对齐 (https://huggingface.co/papers?q=Representation%20Alignment)（HeRA），一种在单个注意力头 (https://huggingface.co/papers?q=attention%20heads)层面强制执行跨模态对齐 (https://huggingface.co/papers?q=cross-modal%20alignment)的方法。我们的方法基于柏拉图式表示假说 (https://huggingface.co/papers?q=Platonic%20Representation%20Hypothesis)，专注于保留跨模态表示的拓扑结构（即局部邻域关系）。遵循互K近邻 (https://huggingface.co/papers?q=Mutual%20K-Nearest%20Neighbor)（MKNN）对齐度量，我们引入了一个对比目标 (https://huggingface.co/papers?q=contrastive%20objective)，作为匹配局部结构的可微代理。HeRA 在多模态训练期间将此目标应用于 LLM 中特定的注意力头 (https://huggingface.co/papers?q=attention%20heads)，这些注意力头根据 MKNN 度量的对齐分数进行选择。反直觉的是，我们发现对齐最不对齐的头能带来最大的收益。跨多个 MLLM 和 18 个基准的广泛评估表明，HeRA 在具有挑战性的以视觉为中心的任务上持续提升性能，并通过自然抑制对语言先验的过度依赖，成为对抗视觉幻觉 (https://huggingface.co/papers?q=visual%20hallucinations)的有效正则化器。我们的代码已公开。

查看 arXiv 页面 (https://arxiv.org/abs/2606.23885)查看 PDF (https://arxiv.org/pdf/2606.23885)项目页面 (https://aimagelab.github.io/HeRA)GitHub4 (https://github.com/aimagelab/HeRA)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.23885)

在你的 agent 中获取此论文：

hf papers read 2606\.23885

还没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

尚无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.23885 即可从此页面链接。

引用此论文的数据集0

尚无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.23885 即可从此页面链接。

引用此论文的 Spaces0

尚无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.23885 即可从此页面链接。

Mind the Heads: 多模态大语言模型的拓扑表示对齐

论文页面 - Mind the Heads: 多模态大语言模型的拓扑表示对齐

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏1

相似文章

通过CoRe注意力头对多模态大语言模型中功能稀疏性的机制洞察

模态冲突幻觉中注意力头不平衡的因果证据

LLMs中的隐藏潜在状态偏移：为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中

Mind's Eye：面向多模态大模型的视觉抽象、变换与组合基准

使用ART微调多模态大语言模型：基于艺术强化训练

提交意见反馈