多模态大语言模型内部视觉表征的因果探针

arXiv cs.AI 2026/05/08 04:00 论文

摘要

本文提出了一种用于探测多模态大语言模型内部视觉表征的因果框架，揭示了实体与抽象概念在编码方式上的差异。研究强调增加模型深度对于编码抽象概念至关重要，并揭示了当前多模态大语言模型在感知与推理之间的脱节。

arXiv:2605.05593v1 公告类型：新论文摘要：尽管多模态大语言模型（MLLMs）在各种任务中取得了显著成功，但人们对其编码和 grounding 不同视觉概念的内部机制仍知之甚少。为了填补这一空白，我们提出了一种基于激活引导（activation steering）的因果框架，以主动探测和操纵内部视觉表征。通过对四类视觉概念的系统性干预，我们的结果揭示了概念编码的差异：实体表现出明显的局部记忆特征，而抽象概念则全局分布于网络之中。至关重要的是，这种差异揭示了缩放定律的一个机制驱动因素：增加模型深度对于编码分布式且复杂的抽象概念不可或缺，而实体的局部定位特性对规模变化保持高度不变性。此外，反向引导表明，阻断显式输出会引发潜在激活的激增，暴露出感知与生成之间的补偿机制。最后，我们将分析扩展至视觉推理领域，揭示了感知与推理之间的脱节：尽管多模态大语言模型能够成功识别几何关系，但它们仅将这些关系视为静态视觉特征，未能触发抽象问题解决所需的过程性执行。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:29

# 多模态大语言模型内部视觉表征的因果探针
来源: https://arxiv.org/html/2605.05593
Zehao Deng${}^{1,2\dagger}$, Tianjie Ju${}^{1\dagger}$, Zheng Wu${}^{1}$, Liangbo He${}^{2}$, Jun Lan${}^{2}$, Huijia Zhu${}^{2}$, Weiqiang Wang${}^{2}$, Zhuosheng Zhang${}^{1\ddagger}$
${}^{1}$上海交通大学计算机科学与技术学院 ${}^{2}$蚂蚁集团
[email protected], {jometeorie,wzh815918208,zhangzs}@sjtu.edu.cn

*${}^\dagger$ Zehao Deng 在访问上海交通大学及在蚂蚁集团实习期间完成工作。*
*${}^\dagger$ 同等贡献。*
*${}^{\ddagger}$ 通讯作者。*

###### 摘要

尽管多模态大语言模型（MLLMs）在各种任务中取得了显著成功，但人们对其编码和 grounding 不同视觉概念的内部机制仍知之甚少。为了弥补这一差距，我们提出了一种基于激活转向（activation steering）的因果框架，以主动探测和操纵内部视觉表征。通过对四类视觉概念进行系统干预，我们的结果揭示了概念编码的差异性：实体表现出明显的局部记忆特征，而抽象概念则全局分布在整个网络中。至关重要的是，这种差异性揭示了缩放定律（scaling laws）的机制驱动因素：增加模型深度对于编码分布式且复杂的抽象概念必不可少，而实体的定位则对规模变化表现出显著的不变性。此外，反向转向（reverse steering）发现，阻断显式输出会触发潜在激活的激增，暴露了感知与生成之间的补偿机制。最后，将分析扩展到视觉推理领域，我们揭示了感知与推理之间的脱节：尽管 MLLMs 能成功识别几何关系，但它们仅将其视为静态视觉特征，未能触发解决抽象问题所需的过程性执行。代码和数据可用，见此处 (https://github.com/hehehahi4/Causal-Probing-for-Internal-Visual-Representations)。

# 多模态大语言模型内部视觉表征的因果探针

Zehao Deng${}^{1,2\dagger}$${}^\dagger$*${}^\dagger$ Zehao Deng 在访问上海交通大学及在蚂蚁集团实习期间完成工作。*${}^\dagger$ 同等贡献。*${}^{\ddagger}$ 通讯作者。*, Tianjie Ju${}^{1\dagger}$, Zheng Wu${}^{1}$, Liangbo He${}^{2}$, Jun Lan${}^{2}$, Huijia Zhu${}^{2}$, Weiqiang Wang${}^{2}$, Zhuosheng Zhang${}^{1\ddagger}$
${}^{1}$上海交通大学计算机科学与技术学院 ${}^{2}$蚂蚁集团
[email protected], {jometeorie,wzh815918208,zhangzs}@sjtu.edu.cn

## 1 引言

多模态大语言模型（MLLMs）在物体识别、图像理解、多模态推理等各种任务中展现出了卓越的性能 Wu et al. (2023) (https://arxiv.org/html/2605.05593#bib.bib50); Yin et al. (2024) (https://arxiv.org/html/2605.05593#bib.bib51); Zhang et al. (2025) (https://arxiv.org/html/2605.05593#bib.bib49)。这些成功提出了一个根本性问题：**MLLMs 是如何编码不同的视觉概念的？** 通过常见的行为评估或相关性分析很难确定其潜在机制，因为正确的输出往往掩盖了对浅层启发式方法的依赖，而非真正的内部表征 Agrawal et al. (2018) (https://arxiv.org/html/2605.05593#bib.bib56); McCoy et al. (2019) (https://arxiv.org/html/2605.05593#bib.bib55); Zhang et al. (2022) (https://arxiv.org/html/2605.05593#bib.bib54)。

**图 1：我们因果框架的示意图。** 我们通过对比配对图像（有概念与无概念）之间的激活差异，提取概念向量 $\Delta$，来研究视觉信息的编码情况。通过在推理过程中将该向量 $\Delta$ 注入模型，我们验证这种干预是否因果性地诱发了相应的内部意识，从而揭示 MLLMs 中视觉表征的机制。

为了严谨地理解模型内部的编码机制，我们通过从被动观察转向因果干预来解决上述挑战。我们采用激活转向（activation steering）Turner et al. (2023) (https://arxiv.org/html/2605.05593#bib.bib4); Zou et al. (2023) (https://arxiv.org/html/2605.05593#bib.bib3)，在推理过程中直接操纵模型的内部状态。通过提取概念表征并将它们注入模型的残差流中，我们可以测量这些操纵对模型行为的因果影响。

**表 1：视觉概念分类。** 我们将视觉概念分为四类：实体（Entity）、视觉风格（Visual Style）、情感（Emotion）和抽象概念（Abstract Concept）。下表定义了每个类别以及我们数据集中使用的示例。

| 类别 | 解释 | 示例 |
| :--- | :--- | :--- |
| **实体** | 图像中存在的特定且离散的物理对象。这是视觉感知最基本的单元，通常具有清晰的空间边界。 | cat, apple |
| **视觉风格** | 涵盖纹理、色调或艺术流派的整体且分布式的视觉属性。这些特征渗透整个图像表征。 | cartoon, Picasso |
| **情感** | 源自视觉线索的情感语义。此类要求模型将低级感知与高级情感分析联系起来。 | happiness, disgust |
| **抽象概念** | 缺乏直接对应物的高层含义。识别这些需要模型执行复杂推理，将视觉信号映射到更广泛的语义空间。 | justice, danger |

我们首先分析不同 MLLMs 中不同视觉概念的表征范围、稀疏性和分布。然后，我们使用概念擦除（concept erasure）测试这些向量对于生成是否因果必需。最后，我们利用几何辅助线探究视觉逻辑推理背后的抽象概念，探索当前 MLLMs 的表征边界。

#### 关键洞察

通过系统的干预和评估，我们揭示了一些关键发现，总结如下：

- **实体**在特定层级表现出明显的局部化，支持了事实知识被封装为显式键值对的假设。相比之下，**抽象概念**表现为全局分布的表征，这意味着它们的操纵需要整体干预策略而非局部编辑 (§3.1 (https://arxiv.org/html/2605.05593#S3.SS1))。
- **更大的模型**扩大了抽象概念表征的分布，利用其增加的深度逐步编码复杂语义，而小模型缺乏这种能力。这可以解释模型规模扩大时高级能力涌现的原因 (§3.1 (https://arxiv.org/html/2605.05593#S3.SS1))。
- **不同概念**表现出不同的层级分布，例如，情感高度集中在中间层，而抽象概念偏向末端层。此外，这些分布表现出模型家族内的相似性和家族间的差异性，表明结构和训练策略决定了编码模式 (§3.2 (https://arxiv.org/html/2605.05593#S3.SS2))。
- **反向转向**（减去概念）可以抑制显式文本生成，但会触发潜在激活的补偿，以与视觉证据保持一致 (§4 (https://arxiv.org/html/2605.05593#S4))。
- 虽然当前的 MLLMs 可以识别辅助线的几何关系，但它们缺乏将这些视觉特征识别为解决问题信号的内部机制。这突出了视觉感知与逻辑推理之间的脱节 (§5 (https://arxiv.org/html/2605.05593#S5))。

总之，我们的贡献如下：

- 我们整理了一个专门的数据集，隔离特定的视觉概念差异，为因果分析提供了可靠的基础。
- 我们通过建立全面的评估框架，对 MLLMs 的内部表征进行了系统分析。该框架评估因果效应以探索不同视觉概念的编码机制。
- 我们识别了 MLLMs 中不同视觉概念在表征范围、稀疏性和分布方面的不同编码机制，并揭示了缩放定律在表征和理解复杂概念中的作用。
- 我们揭示了当前模型在处理抽象概念（尤其是视觉逻辑推理）方面的局限性，这可能为提升 MLLMs 能力提供方向。

**图 2：我们激活转向方法的概览。** 在步骤 1 中，我们分别输入正负图像，计算隐藏状态之间的均值偏移，从而提取概念向量 $v_c^l$。在步骤 2 中，该向量独立注入模型的残差流以调节生成过程。

## 2 方法论

### 2.1 概念分类

我们希望探索 MLLMs 如何内部编码视觉概念。我们将视觉概念定义为一个语义因子，它可以与表征层的视觉输入分离，并通过干预诱导模型输出的一致变化。具体而言，我们将视觉概念分为以下四类：实体、视觉风格、情感和抽象概念。详细解释和示例见**表 1** (https://arxiv.org/html/2605.05593#S1.T1)。

### 2.2 激活转向

激活转向基于线性表征假设 Park et al. (2023) (https://arxiv.org/html/2605.05593#bib.bib1); Nanda et al. (2023) (https://arxiv.org/html/2605.05593#bib.bib2); Zou et al. (2023) (https://arxiv.org/html/2605.05593#bib.bib3)。如**图 2** (https://arxiv.org/html/2605.05593#S1.F2)所示，激活转向主要涉及两个阶段：(i) 从激活值中提取特定概念的向量，(ii) 在推理时，用概念向量转向模型的残差流，以引导模型输出预期内容。

#### 提取概念

对于特定概念 $c$（例如 cat），我们构建 $N$ 对图像 $(x_{c,i}^+, x_{c,i}^-)$，$i \in \{1,...,N\}$，其中 $x_{c,i}^+$ 表示正样本图像，$x_{c,i}^-$ 表示负样本图像。我们计算相应激活值的均值差异以获得目标概念。形式上，我们在第 $l \in \{1,...,L\}$ 层提取概念向量 $v_c^l \in \mathbb{R}^{d_{model}}$ 如下：

$$
v_c^l = \frac{1}{N} \sum_{i=1}^{N} \left( h^l(x_{c,i}^+) - h^l(x_{c,i}^-) \right), \quad (1)
$$

其中 $h^l(x_{c,i}^+)$ 表示在第 $l$ 层，以图像输入 $x_{c,i}^+$ 时，模型最后一个 token 的隐藏状态或残差流激活值。附录 A (https://arxiv.org/html/2605.05593#A1) 提供了为何使用简单的算术运算（均值差异）来提取最优概念的数学证明。

#### 转向

提取目标概念向量后，我们在推理期间的前向传播中对模型进行干预，以验证 $v_c^l$ 的因果功效并探测模型的认知架构。对于给定的查询输入 $x_q$，我们通过注入由系数 $\alpha$ 缩放的转向向量来修改内部激活 $h^l(x_q)$：

$$
h^l(x_q) = h^l(x_q) + \alpha \cdot v_c^l. \quad (2)
$$

通过改变 $\alpha$ 和注入层 $l$，并观察模型生成的变化，我们可以量化不同视觉概念在 MLLM 中的功能角色。

**表 2：不同类别和模型间转向效果的比较。** 对于每个指标，**Peak** 表示在最佳层级达到的峰值，**Gini** 表示基尼系数，用于量化效果的层级稀疏性。*表示对数平均值。

| 类别 | 模型 | 成功率 $\uparrow$ | 语义相似度 $\uparrow$ | Logit 提升 $\uparrow$ | | | |
| :--- | :--- | :---: | :---: | :---: | :---: | :---: |
| | | | | **Peak** | **Gini** | **Peak** | **Gini** |
| **实体** | Qwen2.5-VL-7B | 0.637 | 0.051 | $5.0 \times 10^{10}$ | 0.946 | | |
| | Qwen3-VL-8B | 0.610 | 0.089 | $5.7 \times 10^{7}$ | 0.910 | | |
| | Qwen3-VL-32B | 0.647 | 0.083 | $2.3 \times 10^{11}$ | 0.979 | | |
| | LLaVA-OneVision-1.5-8B | 0.395 | 0.092 | $2.5 \times 10^{7}$ | 0.845 | | |
| | Gemma3-4B | 0.596 | 0.012 | $5.2 \times 10^{21}$ | 0.971 | | |
| | Gemma3-27B | 0.639 | 0.099 | $8.1 \times 10^{17}$ | 0.943 | | |
| | **平均** | **0.587** | **0.071** | **$\mathbf{10^{12}}^*$** | **0.932** | | |
| **视觉风格** | Qwen2.5-VL-7B | 0.215 | 0.253 | $3.9 \times 10^{5}$ | 0.964 | | |
| | Qwen3-VL-8B | 0.291 | 0.164 | $8.5 \times 10^{10}$ | 0.970 | | |
| | Qwen3-VL-32B | 0.562 | 0.157 | $2.5 \times 10^{10}$ | 0.967 | | |
| | LLaVA-OneVision-1.5-8B | 0.118 | 0.488 | $2.1 \times 10^{9}$ | 0.970 | | |
| | Gemma3-4B | 0.154 | 0.523 | $5.5 \times 10^{0}$ | 0.940 | | |
| | Gemma3-27B | 0.200 | 0.443 | $2.5 \times 10^{10}$ | 0.981 | | |
| | **平均** | **0.257** | **0.338** | **$\mathbf{10^{7}}^*$** | **0.965** | | |
| **情感** | Qwen2.5-VL-7B | 0.790 | 0.232 | $5.6 \times 10^{2}$ | 0.819 | | |
| | Qwen3-VL-8B | 0.556 | 0.525 | $1.4 \times 10^{6}$ | 0.861 | | |
| | Qwen3-VL-32B | 0.673 | 0.272 | $8.6 \times 10^{2}$ | 0.857 | | |
| | LLaVA-OneVision-1.5-8B | 0.730 | 0.394 | $6.2 \times 10^{8}$ | 0.924 | | |
| | Gemma3-4B | 0.900 | 0.306 | $9.6 \times 10^{5}$ | 0.971 | | |
| | Gemma3-27B | 0.873 | 0.314 | $5.1 \times 10^{8}$ | 0.962 | | |
| | **平均** | **0.754** | **0.341** | **$\mathbf{10^{5}}^*$** | **0.899** | | |
| **抽象概念** | Qwen2.5-VL-7B | 0.244 | 0.415 | $2.4 \times 10^{1}$ | 0.839 | | |
| | Qwen3-VL-8B | 0.174 | 0.299 | $2.6 \times 10^{1}$ | 0.933 | | |
| | Qwen3-VL-32B | 0.160 | 0.411 | $1.3 \times 10^{2}$ | 0.983 | | |
| | LLaVA-OneVision-1.5-8B | 0.276 | 0.732 | $3.6 \times 10^{7}$ | 0.957 | | |
| | Gemma3-4B | 0.304 | 0.307 | $9.2 \times 10^{-5}$ | 0.970 | | |
| | Gemma3-27B | 0.360 | 0.410 | $2.2 \times 10^{6}$ | 0.972 | | |
| | **平均** | **0.253** | **0.429** | **$\mathbf{10^{2}}^*$** | **0.942** | | |

### 2.3 实验设置

#### 数据

实验中需要的数据主要是能反映目标概念差异的图像对。对于实体，我们使用指令引导的图像编辑数据集 Imgedit Ye et al. (2025) (https://arxiv.org/html/2605.05593#bib.bib9) 和 MagicBrush Zhang et al. (2023) (https://arxiv.org/html/2605.05593#bib.bib8)，并通过自动化脚本构建 10,000 个图像对。对于风格，我们使用配对数据 Omniconsistency Song et al. (2025) (https://arxiv.org/html/2605.05593#bib.bib7)，其中包含 22 种视觉风格。对于情感，我们使用 Emoset Yang et al. (2023) (https://arxiv.org/html/2605.05593#bib.bib10)，它不仅涵盖面部表情的情感，还涉及物体、风景、场景等各种图像。对于抽象概念，我们从 Pexels 选取图片，构建了一个包含 20 个抽象概念的数据集。更多细节见附录 B (https://arxiv.org/html/2605.05593#A2)。

#### 指标

我们采用三个互补指标来评估干预效果：(i) **成功率（Success Rate）**，衡量转向向量成功诱发目标概念显式生成的频率；(ii) **语义相似度（Semantic Similarity）**，评估生成文本与注入概念之间的语义对齐程度；(iii)

多模态大语言模型内部视觉表征的因果探针

相似文章

超越文本主导：理解全模态大语言模型的模态偏好

论大语言模型的固有可解释性：设计原则和架构调查

Vernier: 探究因果推理中词汇缺口背后的表征错位

它们在思考什么？大语言模型中概念的界定、探测与追踪

社交媒体中因果关系提取的大型语言模型：灾害情报的验证框架

提交意见反馈