CLIF：用于透明瓶颈模型的概念级影响函数

arXiv cs.CL 2026/05/20 04:00 论文

interpretability influence-functions concept-bottleneck-models nlp transparency deep-learning

摘要

本文提出CLIF，一种利用影响函数在概念瓶颈模型中对NLP模型进行样本级和概念级解释的方法，实现了透明的调试和概念级分析。

arXiv:2605.19848v1 公告类型：新摘要：近年来，深度学习模型的黑箱性质限制了它们在医疗诊断和金融等高风险领域的应用，而这些领域对可解释性至关重要。为此，我们提出了一种新方法，利用影响函数在样本级和概念级增强NLP模型的可解释性。在CEBaB和Yelp数据集上的实验表明，影响函数能有效识别对模型预测影响最大的训练样本，包括有益和有害的样本。通过调整这些样本的标签和权重，我们证明无需重新训练即可将模型性能恢复到基线水平，证实了影响函数在高效数据调试中的价值。此外，我们的概念级分析识别出Concept Bottleneck Models (CBM)中对预测有显著影响的关键概念。修改这些概念会明显改变模型行为，为决策过程提供清晰的见解。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:27

# CLIF：透明瓶颈模型的概念级影响函数
来源：https://arxiv.org/html/2605.19848
11institutetext:Tandon School of Engineering，New York University，USA
11email:[email protected]:Guangdong Institute of Intelligence Science and Technology，Hengqin，China
22email:[email protected]:Macau Millennium College，Macau SAR，China
33email:\{youmuafonso，zhongzhihe，henghua.shen，zhtan，taofang\}@mmc.edu.mo44institutetext:NLP2CT Lab，Department of Computer and Information Science，University of Macau，Macau SAR，China
44email:[email protected]
Mingkun XuMu YouZhongzhi HeHenghua ShenZehan TanDerek F. WongTao Fang通讯作者：[email protected]（https://arxiv.org/html/2605.19848v1/mailto:[email protected]）

###### 摘要

近年来，深度学习模型的黑箱特性限制了其在医疗诊断和金融等高风险领域的应用，而这些领域对可解释性至关重要。为此，我们提出了一种新颖的方法，利用影响函数在NLP模型的样本和概念两个层面增强可解释性。在CEBaB和Yelp数据集上的实验表明，影响函数能有效识别对模型预测影响最大的训练样本——无论是有益还是有害的。通过调整这些样本的标签和权重，我们证明了无需重新训练即可将模型性能恢复到基线水平，从而确认了影响函数在高效数据调试中的价值。此外，我们的概念级分析识别了概念瓶颈模型（CBM）中对预测有显著影响的关键概念。修改这些概念会显著改变模型行为，从而为决策过程提供清晰洞察。

## 1引言

过去十年，深度学习彻底改变了图像识别、语音处理和自然语言处理等领域。然而，在医疗诊断等高风险应用中——模型对患者症状的错误解读可能导致误诊——这些模型的“黑箱”特性引发了对其透明性和问责性的严重担忧[24（https://arxiv.org/html/2605.19848#bib.bib36）]。这种不透明性阻碍了在自动驾驶和金融预测等需要可解释决策的领域中的信任和采用。

为解决可解释性问题，概念瓶颈模型（CBM）作为一种开创性方法应运而生，它通过引入人类可解释的概念层来桥接性能与可解释性[15（https://arxiv.org/html/2605.19848#bib.bib37）]。然而，经典CBM面临性能下降和对大量概念级标注的严重依赖等挑战，这催生了众多计算机视觉解决方案，如交互式CBM[4（https://arxiv.org/html/2605.19848#bib.bib16）]、无标签CBM[19（https://arxiv.org/html/2605.19848#bib.bib17）]和后验CBM[36（https://arxiv.org/html/2605.19848#bib.bib18）]，以及其他理论和应用进展[13（https://arxiv.org/html/2605.19848#bib.bib19）]。尽管在计算机视觉中已有广泛研究[12（https://arxiv.org/html/2605.19848#bib.bib38），5（https://arxiv.org/html/2605.19848#bib.bib39）]，CBM在NLP领域仍探索不足，仅有近期初步研究[27（https://arxiv.org/html/2605.19848#bib.bib28）]标志着其起步阶段——文本领域中的关键挑战（性能和标注效率）仍未解决，这开辟了一个重要的研究方向。

然而，CBM的实际部署受到两个关键可解释性差距的阻碍。首先，在样本层面，量化单个训练样本的具体（通常违反直觉的）影响来审计模型行为仍然困难——这是调试数据集和确保公平性的关键能力。虽然影响函数（IF）[14（https://arxiv.org/html/2605.19848#bib.bib41）]等工具提供了一种原则性方法来估计标准模型中的此类效应，但它们在结构化CBM框架（尤其在NLP中）的应用仍未充分探索。其次，在概念层面，本应可解释的特征缺乏严格的量化。我们无法确定特定概念（例如“积极服务”）的变化对最终输出的影响程度，这在高风险场景下削弱了模型的问责性[34（https://arxiv.org/html/2605.19848#bib.bib42）]。这反映了可解释AI中的一个更广泛挑战：从突出重要特征（如LIME[23（https://arxiv.org/html/2605.19848#bib.bib53）]或SHAP[16（https://arxiv.org/html/2605.19848#bib.bib54）]所做）转向精确测量这些特征对模型决策的因果影响。

为了同时弥补这些差距，我们提出了一种新颖的混合框架，将影响函数（IF）——一种源自稳健统计学的强大工具，已在效率和稳定性方面得到改进[25（https://arxiv.org/html/2605.19848#bib.bib47），3（https://arxiv.org/html/2605.19848#bib.bib48）]——集成到用于NLP的CBM架构中。与近似模型行为的事后解释方法不同，IF通过利用模型梯度提供了一种原则性方法来估计任意训练样本对模型预测和参数的实际影响[2（https://arxiv.org/html/2605.19848#bib.bib43）]。我们假设，将IF不仅应用于样本，还应用于概念瓶颈层，可以实现前所未有的可解释性：（1）样本级影响：精确定位哪些训练示例对给定预测最负责，直接解决数据审计挑战；（2）概念级影响：测量模型输出对每个人类可理解概念扰动的敏感性，从而提供当前基于概念的方法所缺乏的严格量化。这种双重应用通过将可解释性直接嵌入模型机制而非作为独立的事后分析，直面标准CBM的核心局限性。

我们使用五个主流预训练语言模型——GPT-2、BERT、RoBERTa、Qwen2.5-3B-Instruct和Llama3.2-3B——作为CBM-NLP框架的骨干网络来验证我们提出的框架。在CEBaB和Yelp数据集上的大量实验通过三个核心分析展示了该框架的有效性。**初步分析**显示，样本级影响能准确识别显著提升或降低模型性能的训练示例，从而实现有针对性的数据集优化。**样本级**反事实分析证实，IF估计的因果影响与修改有影响样本标签后观察到的模型行为变化高度一致，同时影响排名的变化也揭示了动态的数据集交互。**概念级分析**通过向关键概念瓶颈注入异常，量化了单个概念对预测的精确贡献，揭示了先前不透明的决策模式。这些结果共同表明，我们的框架增强了CBM可解释性的粒度和因果性，推动了面向真实世界应用的安全可信AI的发展。

## 2相关工作

### 2.1 概念瓶颈模型

概念瓶颈模型（CBM）已成为图像分类和视觉推理等任务中开创性的深度学习技术。然而，这种方法面临两个显著挑战：性能低于没有概念瓶颈层的模型，以及对大量数据集标注的严重依赖。为解决这些问题，研究者提出了针对性解决方案。例如，[4（https://arxiv.org/html/2605.19848#bib.bib16）]通过引入交互策略选择需标注的概念，将CBM扩展到交互式预测设置，从而改善了最终预测。[19（https://arxiv.org/html/2605.19848#bib.bib17）]提出了无标签CBM以减少标注依赖性，而[36（https://arxiv.org/html/2605.19848#bib.bib18）]开发了后验概念瓶颈模型，可与各种神经网络集成而不牺牲性能。尽管在图像处理中已有广泛研究[10（https://arxiv.org/html/2605.19848#bib.bib26），13（https://arxiv.org/html/2605.19848#bib.bib19）]，基于概念的NLP模型直到近期工作[28（https://arxiv.org/html/2605.19848#bib.bib27），27（https://arxiv.org/html/2605.19848#bib.bib28）]才引入专为NLP任务设计的CBM数据集，之前一直很稀缺。

### 2.2 影响函数

影响函数（IF）对于量化单个训练样本对深度学习模型预测的影响至关重要[14（https://arxiv.org/html/2605.19848#bib.bib41）]。通过测量数据点扰动对模型参数的影响，IF揭示了复杂神经网络的决策过程。然而，由于其计算成本，IF在大规模模型中的应用受到限制，这促使了高效近似方法的发展。Koh和Liang提出的广义影响函数（GIF）优化了逆黑塞向量乘积，使IF能够用于图像分类和序列学习[14（https://arxiv.org/html/2605.19848#bib.bib41），25（https://arxiv.org/html/2605.19848#bib.bib47）]。尽管有这些进展，IF在非凸模型中仍面临挑战（如数值不稳定性），近期工作通过探索更稳健的方法论来应对这些问题[3（https://arxiv.org/html/2605.19848#bib.bib48）]。在大语言模型（LLM）中，IF已被用于跨层分析训练数据影响，揭示不同抽象层次上样本的影响[20（https://arxiv.org/html/2605.19848#bib.bib49）]。然而，在非凸设置中，影响估计的精度仍是瓶颈。正在进行的研究通过基于梯度的方法[21（https://arxiv.org/html/2605.19848#bib.bib52）]和相对影响函数[1（https://arxiv.org/html/2605.19848#bib.bib51）]来平衡计算效率与准确性，这对于增强IF在实际应用中的可靠性至关重要。

### 2.3 NLP解释方法

理解NLP模型决策在敏感领域至关重要，局部可解释模型无关解释（LIME）和Shapley加法解释（SHAP）被广泛使用[23（https://arxiv.org/html/2605.19848#bib.bib53），16（https://arxiv.org/html/2605.19848#bib.bib54）]。LIME通过可解释的代理模型局部近似目标模型以突出关键特征，而SHAP利用合作博弈论分配全局特征重要性分数——两者在情感分析和文本分类中均很有用[18（https://arxiv.org/html/2605.19848#bib.bib55）]。Transformer模型（如BERT、GPT）中的注意力机制提供了另一条可解释性途径，通过可视化文本关注区域来实现，尽管其可解释性仍存争议[6（https://arxiv.org/html/2605.19848#bib.bib57），11（https://arxiv.org/html/2605.19848#bib.bib58）]。反事实解释（通过修改输入观察预测变化）和积分梯度（特征归因的梯度路径积分）也已作为强大工具出现[31（https://arxiv.org/html/2605.19848#bib.bib45），26（https://arxiv.org/html/2605.19848#bib.bib59）]。尽管取得了进展，NLP可解释性仍面临挑战，如缺乏标准化评估指标和针对语言依赖性的上下文感知解释[9（https://arxiv.org/html/2605.19848#bib.bib63），33（https://arxiv.org/html/2605.19848#bib.bib64）]。未来工作可能聚焦于全面的、上下文感知的方法，以确保高风险NLP应用中的透明性。

参见标题图1：我们集成了影响函数的CBM-NLP模型整体框架。

## 3方法

本节概述了我们集成了影响函数的CBM-NLP框架以实现增强的NLP可解释性，包括正式定义。图1（https://arxiv.org/html/2605.19848#S2.F1）展示了我们集成了影响函数的CBM-NLP框架，用于增强NLP可解释性。

### 3.1 概念瓶颈模型

CBM引入了一个概念层以实现可解释性，通过以下方式将输入\(\mathbf{x}\in\mathbb{R}^n\)（例如，文本嵌入）映射到概念\(\mathbf{c}\in\mathbb{R}^k\)（\(k\)个概念）：

\[\mathbf{c}=\phi(\mathbf{x})=\sigma(\mathbf{W}_1\mathbf{x}+\mathbf{b}_1),\] (1)

其中\(\mathbf{W}_1\in\mathbb{R}^{k\times n}\)、\(\mathbf{b}_1\in\mathbb{R}^k\)，\(\sigma\)是激活函数。概念预测输出\(\hat{y}\)的方式为：

\[\hat{y}=\psi(\mathbf{c})=\mathbf{W}_2\mathbf{c}+\mathbf{b}_2,\] (2)

其中\(\mathbf{W}_2\in\mathbb{R}^{m\times k}\)、\(\mathbf{b}_2\in\mathbb{R}^m\)（\(m\)个类别）。

### 3.2 影响函数

影响函数量化训练样本对预测的影响。对于损失\(\mathcal{L}(\theta,(\mathbf{x},y))\)，训练样本\((\mathbf{x}_t,y_t)\)对测试损失的影响为：

\[\mathcal{I}(\mathbf{x}_t,y_t,\mathbf{x}_{\text{test}},y_{\text{test}}) \] (3)
\[= -\nabla_\theta\mathcal{L}(\theta,(\mathbf{x}_{\text{test}},y_{\text{test}}))^\top \mathbf{H}_\theta^{-1} \nabla_\theta\mathcal{L}(\theta,(\mathbf{x}_t,y_t)),\]

其中\(\mathbf{H}_\theta = \nabla_\theta^2 \sum_{i=1}^N \mathcal{L}(\theta,(\mathbf{x}_i,y_i))\)。我们通过共轭梯度近似逆海森向量积以提高效率。

在CBM-NLP中，文本被嵌入、特征被提取并映射到概念，每个神经元代表一个语言概念，从而实现最终预测。

### 3.3 CBM-NLP中的样本级影响

我们将影响函数适配到CBM-NLP中以进行样本级分析。对于输入\(\mathbf{z}\in\mathbb{R}^d\)和损失\(\mathcal{L}(\beta,(\mathbf{z},t))\)，影响为：

\[\mathcal{I}(\mathbf{z}_{\text{train}},t_{\text{train}},\mathbf{z}_{\text{test}},t_{\text{test}}) \] (4)
\[= -\nabla_\beta\mathcal{L}(\beta,(\mathbf{z}_{\text{test}},t_{\text{test}}))^\top \mathbf{Q}_\beta^{-1} \nabla_\beta\mathcal{L}(\beta,(\mathbf{z}_{\text{train}},t_{\text{train}})),\]

其中\(\mathbf{Q}_\beta = \nabla_\beta^2 \sum_{i=1}^N \mathcal{L}(\beta,(\mathbf{z}_i,t_i))\)。我们计算测试样本上的影响，对训练样本进行排序，并通过标签修改分析最有影响的样本以提升性能。

### 3.4 CBM-NLP中的概念级影响

对于概念级分析，我们追踪概念的影响。对于概念向量\(\mathbf{v}\in\mathbb{R}^k\)，\(v_j\)对\(\hat{t}\)的影响为：

\[\mathcal{I}_{\text{concept}}(v_j,(\mathbf{z},t)) = \frac{\partial\hat{t}}{\partial v_j} \nabla_\beta\mathcal{L}(\beta,(\mathbf{z},t))^\top \mathbf{Q}_\beta^{-1} \nabla_\beta\mathcal{L}(\beta,(\mathbf{z},t)).\]

CLIF：用于透明瓶颈模型的概念级影响函数

相似文章

嵌入模型如何绑定概念？

迈向细粒度且可验证的Concept Bottleneck Models

Hoeffding Concept Bottleneck Models 及其在高空图像中的应用

使用概念图在T2I扩散模型中的高效偏见缓解

OceanCBM：一种用于海洋预报机制可解释性的概念瓶颈模型

提交意见反馈