迈向细粒度且可验证的Concept Bottleneck Models

arXiv cs.LG 2026/05/15 04:00 论文

摘要

本文提出了一种细粒度的Concept Bottleneck Model框架，将每个概念锚定在局部视觉证据上，从而能够直接验证概念的正确性，并提高医学成像任务的透明度。

arXiv:2605.14210v1 公告类型：新摘要：Concept Bottleneck Models (CBMs) 通过在最终输出之前引入人类可理解的概念，为黑箱预测器提供了可解释的替代方案。然而，现有的CBMs难以验证预测的概念是否对应正确的视觉证据，从而限制了其可靠性。我们提出了一种细粒度的CBM框架，将每个概念锚定在局部视觉证据上，从而能够直接检查概念在何处以及如何被编码。这种设计允许用户解释预测结果，并验证模型学习到的是预期概念而非虚假相关性。在医学成像基准上的实验表明，我们学习到的概念空间是信息完备的，并实现了与标准CBMs相当的预测性能，同时显著提高了透明度。与事后归因方法不同，我们的框架验证了概念表示的存在性和正确性，将可解释性与可验证性结合起来。我们的方法增强了CBMs的可信度，并在概念层面建立了一个原则性的人机交互机制，为更可靠且临床可操作的概念基础学习系统铺平了道路。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:27

# 迈向细粒度可验证的概念瓶颈模型

摘要

概念瓶颈模型（CBM）通过在最终输出之前引入人类可理解的概念，为黑箱预测器提供了可解释的替代方案。然而，现有的CBM难以验证预测的概念是否对应于正确的视觉证据，这限制了其可靠性。我们提出了一种细粒度的CBM框架，将每个概念锚定在局部视觉证据上，从而可以直接检查概念的编码位置和方式。这种设计允许用户解释预测并验证模型学习的是预期概念而非虚假相关性。在医学影像基准上的实验表明，我们学习到的概念空间是信息完备的，并且在预测性能上与标准CBM相当，同时显著提高了透明度。与事后归因方法不同，我们的框架验证了概念表示的存在性和正确性，弥合了可解释性与可验证性之间的鸿沟。我们的方法增强了CBM的可信度，并在概念层面建立了一种原则性的人机交互机制，为构建更可靠、临床可操作的概念学习系统铺平了道路。我们的代码发布在 https://anonymous.4open.science/r/Concept_Grounding-4FF8/。

## 1引言

概念瓶颈模型（CBM）[15]的出现标志着从事后归因向内在可解释学习的范式转变。与传统的黑箱模型不同，CBM在生成最终预测之前，明确引入了一个由可解释概念组成的中间推理层。通过强制预测通过这个语义瓶颈，CBM旨在确保模型的推理与人类可理解的领域相关概念保持一致[10, 1]。

概念可解释性的一个开创性工作是TCAV[13]，它量化了学习表示对预定义概念的敏感性。基于这一思想，Koh等人[15]通过引入显式的概念层，将CBM架构形式化。早期的CBM研究主要关注保持预测性能，即确保提取的概念保留了原始特征的完整判别能力。为此，一些工作探索了架构修改，例如自回归模型[7]和基于Transformer的设计[6, 25]。另一些工作则通过将显式概念表示与隐式特征信息相结合[5, 21, 28]，来提高概念空间的信息完备性。与此同时，另一条研究线旨在减少对完全监督概念标注的依赖，利用弱监督或文本引导信号来更广泛地扩展CBM[17, 16, 23]。

尽管取得了这些进展，仍然存在一个关键的局限性：预测概念的内部视觉基础通常是透明的。虽然CBM暴露了概念激活，但它们本身并不能验证这些概念是否对应于输入图像中正确的视觉证据。为了解决这个问题，最近的工作通过可视化技术（如Grad-CAM、交叉对齐或人工标注监督[9, 26, 2]）探索了概念基础。ProtoCBM[9]在层间和增强样本间对齐热图以提高定位一致性，而DOT-CBM[26]利用视觉-文本对齐来识别概念相关区域。Derma[2]使用人工提供的定位标注来监督基础图。

然而，这些方法仍然面临显著的限制。Grad-CAM[20, 3]通常生成粗糙且空间弥散的定位，这在医学图像中尤其成问题，因为判别性线索是微妙且受解剖结构约束的。交叉对齐方法尝试进行补丁级对应，但它们依赖于具有细粒度视觉-文本对齐的预训练多模态编码器，而该编码器的训练本身就是一个复杂且资源密集的研究问题。依赖基础标注的方法进一步产生了大量的标注成本，并限制了向新概念或数据集的扩展性。因此，仍然需要一种细粒度、可靠且无需标注的基础机制，以将CBM增强为完全可验证的可解释模型。

在这项工作中，我们提出了一种生成式概念瓶颈模型（GenCBM），它为每个概念配备了可验证的细粒度定位。我们的核心见解是，生成式特征与纯判别式特征不同，它提供了一个更完整、更适合概念学习的潜在空间。在生成式特征上训练CBM还允许通过操纵潜在空间中与概念相关的方向以及反事实重建，将概念稳健地追溯到特定的潜在因子。然后通过重建图像与反事实图像之间的对比可视化来实现概念基础，从而实现直接验证和更高的可靠性。

我们的贡献总结如下：(1) 我们提出了一种基于生成式特征的新型CBM框架，为传统的判别式骨干网络提供了一种原则性的替代方案。(2) 我们证明了生成式CBM能够无缝集成反事实基础机制，实现细粒度的概念级追踪和验证。这通过确保概念既可解释又可验证，显著提高了基于概念的解释的可信度。(3) 在医学影像基准上的大量实验表明，我们的方法在概念预测准确性上达到了最先进水平，同时提供了更精确可靠的基础结果，突显了其在高风险临床应用中的实用价值。

## 2 方法

![图1：GenCBM框架。左侧：我们通过训练StyleGAN生成器以及一个潜在反演编码器来学习生成式特征。右上方：粗到细的生成式特征用于CBM阶段的概念学习。右下方：我们通过沿概念激活向量扰动生成式特征来生成反事实。相对于未扰动重建的差异图被聚合以定位概念激活。](https://arxiv.org/html/2605.14210/x1.png)

### 2.1 概述

如图1所示，我们方法的一个关键组件是使用StyleGAN潜在变量作为概念学习的基础特征表示。通过在这个生成式潜在空间中操作，可以通过反事实生成和差异图直接在输入图像中定位概念激活。这种概念基础更加稳健，不易受噪声干扰和虚假相关性的影响。接下来，我们将详细阐述我们框架中的关键组件和设计理念。

### 2.2 生成式特征

以前的CBM通常使用判别式特征骨干网络（如ResNet[8]）来提取概念。我们方法的一个关键设计区别在于，在生成式特征之上构建CBM。这一选择带来了两个关键好处。

*信息完备性*：生成式特征保留了概念学习所需的完整信息谱，确保来自长尾事件的罕见或微妙概念得以保留，而判别式表示往往低估或忽略它们。

*鲁棒性和稳定性*：基于梯度的显著性方法[20, 3]强调实例级的像素变化，这种视角通常会产生不稳定且嘈杂的高亮。相比之下，通过生成式特征可视化概念激活本质上是检查整个数据分布上的潜在编码，从而产生一致、语义对齐的可视化结果，并减少对虚假相关性的敏感性。为此，我们提出了GenCBM框架，以整合生成式特征和概念瓶颈模型。

具体来说，我们训练了一个StyleGAN[12]生成器 \(G\)。选择StyleGAN的动机是其解耦的潜在编码，这得益于训练过程中的自适应实例归一化，尤其有利于概念学习。我们还使用pSp框架[19]训练了一个编码器 \(E\)，将输入图像映射到 \(\mathcal{W}^+\) 空间中的潜在编码。这些StyleGAN潜在编码作为构建概念瓶颈的生成式特征。通过利用这个生成式潜在空间，我们的方法确保了更丰富的信息覆盖、更好的概念解耦以及更稳定的可视化。

形式上，预训练的StyleGAN生成器可以看作两个网络的组合：\(G = G_w \circ G_z, G_z: z \mapsto \mathcal{W}^+\)，其中 \(z\) 从高斯分布中采样。编码器 \(E\) 将给定的输入图像 \(I\) 编码为 \(\mathbf{w}^+ = E(I) \in \mathcal{W}^+\)，然后可以通过 \(I_{\text{Rec}} = G_w(\mathbf{w}^+)\) 映射回图像空间。我们通过以下重建目标来训练这个编码器 \(E\)¹：

\[
\mathcal{L}_{\text{rec}} = \lambda_{\text{pixel}} \| I_{\text{rec}} - I \|_1 + \lambda_{\text{perceptual}} \| \phi(I_{\text{Rec}}) - \phi(I) \|_2^2 + \lambda_w \| \mathbf{w}^+ - \bar{\mathbf{w}}^+ \|_2^2. \tag{1}
\]

这里，感知项使用固定的特征提取器 \(\phi(\cdot)\)（例如VGG[22]），正则化项最小化 \(\mathbf{w}^+\) 与其均值 \(\bar{\mathbf{w}}^+\) 的偏差。

¹ 在此过程中，生成器 \(G_W\) 也进行了联合微调。

### 2.3 分层 \(\mathcal{W}^+\) 概念瓶颈训练

StyleGAN潜在变量 \(\mathbf{w}^+ \in \mathbb{R}^{N \times L}\) 包含 \(L\) 层，每层维度为 \(N\)。根据设计，这些层对图像属性表现出分层、由粗到细的控制，范围从全局几何到中层结构再到局部纹理[12, 19, 27]。为了在我们的概念瓶颈模型中考虑 \(\mathcal{W}^+\) 空间的这种分层结构，我们首先通过线性投影进行层内瓶颈，以提取*逐层概念特征*。这些概念特征保留了 \(\mathcal{W}^+\) 空间的解耦结构，并编码了由粗到细的属性。总体概念预测是通过对这些由粗到细的概念特征进行聚合线性投影得到的。这种设计确保了概念学习尊重潜在空间的多尺度结构，同时捕获全局和细粒度的视觉证据。

### 2.4 通过反事实进行渐进式概念基础

为了在原始图像中定位概念区域，我们通过增强或抑制相应的概念特征来生成反事实图像，然后计算原始图像和反事实图像之间的差异图。然而，扰动幅度至关重要：过大的操作可能会放大目标概念，同时也会改变相关特征，而过小的操作可能产生不足以可靠定位的视觉变化。为了显式地基础学习到的概念，我们提出了一个渐进式操作策略。具体来说，我们使用预定义的扰动幅度谱，沿概念激活方向扰动潜在表示 \(\mathbf{w}^+\)，从而生成一系列概念变化逐渐增加的反事实图像。这种渐进式策略使得概念定位能够从细到粗进行。通过比较不同扰动水平下的差异图，并识别在早期阶段一致出现、且在更大扰动下保持空间重叠的区域，我们获得最早且最相关的细粒度区域作为每个概念的基础证据。

对于一个扰动为 \(e\) 的反事实图像 \(I_e\) 和重建图像 \(I_0\)，我们通过对RGB通道求平均来量化它们逐像素的差异图 \(D_e\)：
\[
D_e(x,y) = \frac{1}{3} \sum_{c \in \{R,G,B\}} \left| I_e^c(x,y) - I_0^c(x,y) \right|.
\]
为了减轻局部噪声并归一化不同扰动水平之间的尺度差异，我们应用高斯滤波器（\(\sigma=3\)）获得平滑图 \(\tilde{D}_e\)，然后进行自适应二值化策略。二值掩膜 \(M_e\) 通过动态阈值推导得出：
\[
\tau_e = \max(\text{Percentile}_{95}(\tilde{D}_e), \delta_{\min}),
\]
其中第95百分位数提取最显著的区域，下界 \(\delta_{\min}=5\)（在0–255 UINT8尺度上）过滤掉低扰动水平下的背景噪声。通常，不同 \(|e|\) 的掩膜在局部概念激活的特异性和噪声之间表现出权衡（\(|e| \downarrow \implies \text{特异性} \uparrow \& \text{噪声} \downarrow\)）。我们通过逐像素多数投票机制聚合这些差异掩膜：
\[
M_{\text{vote}}(x,y) = \mathbf{1}\left[ \sum_{e \in \mathcal{E}} M_e(x,y) \geq \theta \right],
\]
其中 \(\theta\) 经验性地设为5。这种投票确保了最终概念定位预测的一致性和覆盖度。

## 3 实验细节

**数据集。** 为了评估我们GenCBM框架的有效性，我们在两种成像模态上进行了实验：皮肤镜检查和胸部X光片。对于皮肤镜检查，我们使用ISIC2018存档[4, 24]中的3611张图像，构建了一个区分黑色素瘤与非黑色素瘤的二分类任务，并辅以七个与黑色素瘤相关的概念和基础标注。

迈向细粒度且可验证的Concept Bottleneck Models

相似文章

背景也重要：用可迁移攻击攻破医学视觉语言模型

面向以对象为中心的视觉推理的弱监督概念学习

从像素到概念：分割模型真的理解它们分割的内容吗？

OceanCBM：一种用于海洋预报机制可解释性的概念瓶颈模型

多模态大语言模型内部视觉表征的因果探针

提交意见反馈