FeatMap：理解特征空间中的图像操作及其对特征空间几何结构的启示

arXiv cs.LG 2026/05/13 04:00 论文

摘要

本文通过分析各种图像操作在特征空间中的映射方式，研究了深度神经网络中间特征表示的几何结构。研究表明，特征空间在一阶近似下呈现线性结构，文中使用生成式图像编辑模型来探测这些表示。

arXiv:2605.11203v1 发布类型：新文章摘要：中间特征表示构成了深度神经网络表达能力和适应性的核心骨干。然而，其几何结构仍未被充分理解。在本提交中，我们通过在输入空间中应用广泛的变换——从几何和光度变换到局部掩码，以及使用生成式图像编辑模型进行的语义操作——来间接探究这一问题，并评估在特征空间中学习从原始特征图到操作后特征图映射的可行性。为此，我们设计了不同类型的映射，包括从线性到非线性、从局部到全局的映射，并评估了这些映射的重建质量以及映射表示的语义内容。我们证明了对于所有考虑的变换，学习此类映射都是可行的。虽然作用于完整特征图的全局（Transformer）模型通常能取得最佳结果，但我们表明，使用作用于单个特征向量的共享线性模型也能达到相同的效果，即使在处理高度复杂的语义操作时，重建质量的下降也非常小。我们分析了不同特征层中的对应映射，并根据权重与偏差的主导性以及线性变换的有效秩对其进行了特征化。这些结果为以下假设提供了线索：特征空间在一阶近似下由线性结构组织。从更广泛的角度来看，这项研究表明，生成式图像编辑模型可能通过输入操作打开深入了解特征空间的大门。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 06:35

# FeatMap：理解特征空间中的图像操纵及其对特征空间几何的影响

来源：https://arxiv.org/html/2605.11203

Elias B. Krey
Division AI4Health
Carl von Ossietzky Universität Oldenburg
Oldenburg, Germany
[email protected]

Nils Neukirch
Division AI4Health
Carl von Ossietzky Universität Oldenburg
Oldenburg, Germany
[email protected]

Nils Strodthoff
Division AI4Health
Carl von Ossietzky Universität Oldenburg
Oldenburg, Germany
[email protected]

###### 摘要

中间特征表示构成了深度神经网络表达能力和适应性的核心。然而，其几何结构仍知之甚少。在本提交中，我们通过应用一系列广泛选择的输入空间操纵手段，从几何和光度变换到局部遮罩以及使用生成式图像编辑模型进行的语义操纵，对此问题提供了间接见解，并评估了在特征空间中学习映射的可行性，该映射将原始特征图映射到被操纵后的特征图。为此，我们设计了不同类型的映射，从线性到非线性，从局部到全局映射，并评估了映射的重建质量以及映射后表示的语义内容。我们证明了对于所有考虑的变换，学习此类映射都是可行的。虽然在全局特征图上操作的全局（Transformer）模型通常能取得最佳结果，但我们表明，使用通常作用于单个特征向量的共享线性模型也能实现相同的效果，即使对于高度非平凡的语义操纵，其重建质量的下降也非常小。我们分析了不同特征层对应的映射，并根据权重与偏差的主导性以及线性变换的有效秩对它们进行了表征。这些结果为“特征空间在一级近似下以线性结构组织”的假设提供了一些线索。从更广泛的角度来看，本研究表明，生成式图像编辑模型可能通过输入操纵为我们更深入地理解特征空间敞开大门。

## 1 引言

理解深度神经网络，包括其属性和推理模式，在很大程度上依赖于对内部表示的理解。因此，中间特征表示的表征一直是基于概念和机制的可解释 AI（XAI）的核心兴趣所在，参见 [1](https://arxiv.org/html/2605.11203#bib.bib1), [2](https://arxiv.org/html/2605.11203#bib.bib2) 作为示例性综述。然而，理解内部特征表示的重要性远远超出了可解释性的范畴。作为一个具体的例子，特征空间允许我们研究深度神经网络的鲁棒性和对称性属性，以及它们如何随层演化。不幸的是，对特征空间的直接理解往往受到特征空间无法直接解释这一事实的阻碍。使其特征可解释的一个特别强大的方法是从特征空间逆向回到输入空间，即从特征表示中重建或可视化输入 [3](https://arxiv.org/html/2605.11203#bib.bib3), [4](https://arxiv.org/html/2605.11203#bib.bib4)。尽管取得了这些进展，深度视觉模型中间特征表示的几何结构仍然 largely 未解。

表示学习中的一个著名假设是线性表示假设 [5](https://arxiv.org/html/2605.11203#bib.bib5)，该假设认为高级概念被编码为激活空间中的线性方向。大多数概念发现方法是线性的 [6](https://arxiv.org/html/2605.11203#bib.bib6), [7](https://arxiv.org/html/2605.11203#bib.bib7), [8](https://arxiv.org/html/2605.11203#bib.bib8), [9](https://arxiv.org/html/2605.11203#bib.bib9), [10](https://arxiv.org/html/2605.11203#bib.bib10)，并且通常将概念表征为特征空间中的单一维度。更通用的描述则表征为多维线性子空间 [11](https://arxiv.org/html/2605.11203#bib.bib11)、原型特征的凸组合 [12](https://arxiv.org/html/2605.11203#bib.bib12)，甚至是低维流形 [13](https://arxiv.org/html/2605.11203#bib.bib13), [14](https://arxiv.org/html/2605.11203#bib.bib14)。虽然后者是最通用的概念定义，但它并未回答特征空间真实底层几何结构的问题。

> 图 1：FeatMap 的概览示意图：对于给定的输入图像，我们应用特定的图像操纵（几何/光度、局部遮罩或语义），并从给定的预训练视觉骨干模型（ConvNeXt, SwinV2）中提取相应的特征图。我们设计了不同的模型来学习从原始特征图到被操纵图像特征图的映射。学到的映射通过两种方式进行评估：(1) 重建质量，使用特征空间中的余弦相似度以及被操纵图像与其重建图像之间的 SSIM 和 LPIPS 进行评估。从特征空间到图像空间的重建使用 FeatInv [4](https://arxiv.org/html/2605.11203#bib.bib4) 执行；(2) 语义一致性，通过输出类别概率进行衡量。

对特征空间几何的基本理解仍然缺失，但设计直接的实验探针具有挑战性。 prior work largely relies only on sanity checks (e.g., measuring similarity between adjacent layers [13](https://arxiv.org/html/2605.11203#bib.bib13)). 我们从实验角度间接地接近这一目标，并将研究问题表述如下：对于输入空间中的给定操纵，我们能否理解其对特征空间的影响？具体来说，给定应用于输入图像的变换，我们能否学习一个从原始特征图到被操纵图像特征图的映射？如果可以，需要什么样的映射，它们的特征是什么？

为了从多个角度探测特征空间，我们考察了三大类输入操纵。第一类包括几何和光度变换，如旋转、镜像、高斯噪声和颜色偏移。第二类包括局部遮罩，其中图像中固定的矩形区域被纯色遮挡。第三类也是最新的一类，是通过生成式图像编辑进行的语义操纵。在这一类别中，我们使用提示驱动的基于扩散的编辑模型来改变场景的高级视觉属性，例如改变车身或轮辋颜色、移除结构部件或添加灯光。我们认为，高质量的生成模型能够实现高度非平凡的语义操纵，这超出了经典变换的范围，并为探测以前无法访问区域的特征空间结构提供了新方法。

#### 贡献

我们提供以下技术贡献：

1. 我们设计了一套多样化的操纵手段（细节和示例见附录 A [1](https://arxiv.org/html/2605.11203#A1)），并将其应用于来自不同图像域的两个数据集 [15](https://arxiv.org/html/2605.11203#bib.bib15), [16](https://arxiv.org/html/2605.11203#bib.bib16)，以研究它们对 ConvNeXt 和 Swin Vision Transformer 特征图的影响，这两者代表了视觉编码器两种主流架构。
2. 我们证明了使用具有不同特征的各种映射模型，从原始特征图到被操纵特征图学习映射的可行性（见 Fig. 2 [2](https://arxiv.org/html/2605.11203#S4.F2), 8 [8](https://arxiv.org/html/2605.11203#A8.F8)），不仅在重建质量指标方面（见 Fig. 3 [3](https://arxiv.org/html/2605.11203#S4.F3), 10 [10](https://arxiv.org/html/2605.11203#A8.F10)），也在表示的语义质量方面（见 Fig. 4 [4](https://arxiv.org/html/2605.11203#S4.F4)）。最值得注意的是，我们表明，作用于单个特征向量的共享线性模型足以实现这一目标（对于某些几何变换，在适当重排序的特征集上操作时），特别是在较高层中，与更复杂的模型相比，性能下降很小，即使对于高度非平凡的语义操纵也是如此。
3. 我们提供了对发现的映射特征（见 Sec. 4.4 [4](https://arxiv.org/html/2605.11203#S4.SS4)）的见解，并提出了对特征空间几何的影响（见 Sec. 5.1 [5](https://arxiv.org/html/2605.11203#S5.SS1)）。

## 2 相关工作

#### 其他特征映射方法

最近的工作表明，从视觉编码器特征重建图像对于多种基于 ViT 的模型是可行的，包括 CLIP、SigLIP、MetaCLIP、InternViT 和 SAM，并且随着输入分辨率的提高，重建质量也在提高 [17](https://arxiv.org/html/2605.11203#bib.bib17)。关于视觉-语言模型稀疏自编码器（SAEs）的最新研究表明，SAEs 可以恢复分层语义特征。Bhalla 等人 [14](https://arxiv.org/html/2605.11203#bib.bib14) 提出，许多潜在概念组织为低维流形，而不是孤立的线性方向。Allakhverdov 等人 [17](https://arxiv.org/html/2605.11203#bib.bib17) 提出，受控的特征空间操纵可以引起可预测的像素级效应，例如颜色变化和通道抑制。我们的工作通过包含更大范围的变换（尤其是语义操纵）来推广这些结果。证明映射是可能的，这一演示做出了更强的陈述，并为特征空间的特性提供了额外的见解。虽然最近的文献通过潜在分析识别这些几何结构，但我们的工作通过展示如何直接引导它们以在图像空间中表现出特定的语义变化，提供了其功能意义的因果证明。

#### 对特征空间几何的共同假设

线性表示假设 [5](https://arxiv.org/html/2605.11203#bib.bib5) 表明，高级语义概念被编码为神经网络激活空间中的线性方向或子空间。这一观点得到了早期来自词嵌入模型的实证证据的支持，在这些模型中，线性向量算术捕获了语义关系，例如概念之间的类比 [18](https://arxiv.org/html/2605.11203#bib.bib18)。在视觉领域，基于概念的 XAI 方法直接操作化了这一假设：TCAV（基于概念激活向量的测试）[6](https://arxiv.org/html/2605.11203#bib.bib6) 通过在激活空间中拟合线性分类器来分离概念示例图像和随机反例，从而推导 CAV（概念激活向量）。得到的决策边界法线作为概念方向。CRAFT [7](https://arxiv.org/html/2605.11203#bib.bib7) 通过递归地将特征图分解为可解释的概念子空间来扩展这种方法。这些假设激活空间中概念线性可分性的方法的一致成功，为视觉模型中的线性表示假设提供了间接但实质性的证据。Trager 等人 [19](https://arxiv.org/html/2605.11203#bib.bib19) 为 VLM 嵌入中的组合线性结构提供了几何和概率框架，表明表示可以近似为紧凑的一组因子特异性“理想词”向量的线性组合。进一步的实证支持来自 Wang 等人 [20](https://arxiv.org/html/2605.11203#bib.bib20)，他们观察到深度网络在特征线性化方面非常出色，使得语义变换对应于特征空间中的方向，并利用这一特性进行数据增强。MCD [11](https://arxiv.org/html/2605.11203#bib.bib11) 将概念定义扩展为多维线性子空间，通过稀疏子空间聚类发现。同样，稀疏自编码器学习由特征的线性组合组成的过完备字典 [8](https://arxiv.org/html/2605.11203#bib.bib8), [9](https://arxiv.org/html/2605.11203#bib.bib9), [10](https://arxiv.org/html/2605.11203#bib.bib10)，因此也利用了线性概念定义。然而，最近的工作强调了不同的解释，强调表示应被视为组织为原型特征的凸组合 [12](https://arxiv.org/html/2605.11203#bib.bib12) 或形成低维流形 [14](https://arxiv.org/html/2605.11203#bib.bib14)。后者与 [13](https://arxiv.org/html/2605.11203#bib.bib13) 中的基于流形的概念定义一致，通过 UMAP 降维和 HDBSCAN 基于密度的聚类进行操作化，这是在更细粒度的对齐度量的背景下提出的。然而，这些方法都没有提供对特征空间几何的见解。

## 3 方法

#### 操纵

我们考虑三大类输入操纵。第一类包括几何和光度变换，如旋转、镜像、噪声和颜色偏移。第二类包括局部遮罩，其中空间上固定的矩形区域被纯色遮挡。第三类涵盖语义操纵，通过提示驱动的生成式图像编辑修改场景的高级视觉属性。语义操纵使用 Qwen-Image-Edit-2511 [21](https://arxiv.org/html/2605.11203#bib.bib21) 执行。关于语义操纵的详细信息可在附录 A.3 [3](https://arxiv.org/html/2605.11203#A1.SS3) 中找到。

### 3.1 考虑的映射

#### 概览

我们考察了不同复杂度的映射，从线性到非线性，从局部到全局。**线性映射**参数化一个作用于单个特征向量的共享线性映射，并作为局部基线。**MLP** 添加了一个隐藏层以调查非线性的影响，同时保持局部模型。**CNN** 通过将对整个特征图应用 CNN 而不是仅仅对单个特征向量应用来扩展前者，但由于 CNN 的有限感受野，它仍然相对局部。最后，**Transformer 映射**通过应用四个堆叠的 Transformer 层到整个扁平化的特征图，参数化了非线性和非局部映射，使其能够捕捉长程空间依赖关系。表 1 [1](https://arxiv.org/html/2605.11203#S3.T1) 总结了所有架构及其关键超参数。训练目标最小化了特征空间均方误差（MSE）和余弦相似度损失的加权组合，其中后者首先计算每个空间位置的余弦相似度，取每个样本的中位数值以提高对异常值的鲁棒性，然后在批次上对这些中位数值进行平均。通过在完整数据子集上基于重建指标的实证评估，我们发现相对权重 $\lambda_{\text{MSE}}=0.3$ 和 $\lambda_{\text{COS}}=0.7$ 在重建保真度和特征对齐之间提供了最佳权衡。

#### 修改全局组成的变换

对于影响图像全局组成的几何变换（镜像和旋转），我们重新排序特征向量，以反映应用变换后特征空间的全局组成。这使得局部变换情况下的预测问题变得可解，因为它将目标特征向量与相应的...

FeatMap：理解特征空间中的图像操作及其对特征空间几何结构的启示

相似文章

HP-Edit：面向图像编辑的人类偏好后训练框架

在统一的多模态理解与生成中唤醒空间智能

Transformer 中的几何事实记忆

稀疏自编码器表示中的特征竞争：大语言模型中不确定性驱动的特征竞争机制研究

特征组合的结构不稳定性

提交意见反馈