使用边干预的有向无环图特征归因

arXiv cs.AI 论文

摘要

提出DAG-SHAP,一种基于边干预的有向无环图特征归因新方法,解决了现有Shapley值方法在捕捉特征交互和因果关系方面的局限性。

arXiv:2606.15273v1 公告类型:新 摘要:基于Shapley值的特征归因方法在涉及复杂特征交互和因果关系的场景中面临挑战,即使提供了因果结构。现有方法通常采用以节点为中心的视角,仅将重要性归因于单个特征。因此,它们往往无法同时捕捉特征的外生性和外源影响,导致不合理的解释。为了克服这些局限性,我们提出了一种名为DAG-SHAP的新颖特征归因方法,该方法基于边干预。DAG-SHAP将每个特征边视为独立的归因对象,确保特征的外生性和外源贡献都被恰当捕获。此外,我们引入了一种近似方法以高效计算DAG-SHAP。在真实和合成数据集上的大量实验验证了DAG-SHAP的有效性。我们的代码可在https://github.com/ZJU-DIVER/DAG-SHAP获取。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:44

# 基于边干预的有向无环图特征归因方法 来源:https://arxiv.org/html/2606.15273 ###### 摘要 基于Shapley值的特征归因方法在涉及复杂特征交互和因果关系(即使已给定因果结构)的场景中面临挑战。现有方法通常采用以节点为中心的视角,仅将重要性归因于单个特征。因此,它们常常无法同时捕捉特征的外部性和外生性影响,导致不合理的解释。为克服这些局限性,我们提出了一种新颖的特征归因方法——DAG-SHAP,该方法基于边干预。DAG-SHAP将每个特征边视为独立的归因对象,确保特征的外部性和外生性贡献均能被恰当捕获。此外,我们引入了一种高效计算DAG-SHAP的近似方法。在真实和合成数据集上的大量实验验证了DAG-SHAP的有效性。我们的代码可在https://github.com/ZJU-DIVER/DAG-SHAP获取。

## I. 引言 机器学习模型在现实应用中的日益复杂,推动了对决策过程可解释性的浓厚兴趣[3, 20, 6, 24, 8]。特征归因旨在用实值分数量化每个输入特征的边际贡献,被认为是解释预测结果与其潜在解释变量关系的主要方法。在广泛的归因策略[39]中,基于Shapley值的方法因其在合作博弈论中的严谨基础而受到广泛研究,确保了贡献分配的公平性,同时保持了效率、对称性、冗余性和可加性等理想性质[5, 42]。这些方法在医疗和金融等领域的应用,展示了它们在揭示预测结果背后最具影响力特征方面的效用[25, 21, 2, 11]。

尽管被广泛研究,基于Shapley值的归因方法在捕捉能准确反映复杂数据依赖关系的特征交互方面仍然有限。作为早期尝试之一,流形外Shapley值[31]依赖于特征独立性假设,因此无法捕捉实际场景中存在的复杂依赖关系。流形上Shapley值[31, 38]通过使用条件期望(基于包含特征与排除特征的相关性)来填补被排除特征在评估子集效用时的值,从而缓解了这一限制。然而,仅依赖相关性可能与底层数据生成过程不一致,并导致因果反转[16, 18],尤其当特征间存在因果依赖时。为了解决这个问题,诸如非对称Shapley值[10]和因果Shapley值[14]等研究通过分别纳入顺序关系和因果关系进一步扩展了框架。此外,最近的研究进展使用有向无环图(DAG)描述因果依赖关系,其中顶点表示特征,边表示直接因果效应。这使得对图中的边和路径进行推理变得重要[44, 13]。Shapley Flow[41]将贡献归因于源顶点和目标顶点之间的整个路径,而不是单个因果传递边。递归Shapley值[35]遵循自上而下的原则,首先将贡献归因于“源”顶点,然后沿DAG向下传播。

图1:一个包含特征集{X₁, X₂}和模型输出Y = f(X₁, X₂)的DAG示意图。每条有向边表示直接因果效应,x₁, x₂分别表示X₁, X₂的外生变量。

尽管上述工作在增强归因过程中的特征交互方面做出了显著努力,但外部性和外生性在现有方法中仍未得到充分解决。基于特征顶点并采用非对称采样的归因方法,如非对称Shapley值[10]和非对称因果Shapley值[14],无法使归因结果满足外部性。当使用特征归因方法的非对称顺序(父顶点必须出现在子顶点之前)时,父顶点的边际贡献无法从与子顶点的合作中获得外部性收益。这显然违反了每个玩家应尽可能从他人的合作中获得边际贡献的基本思想[29]。如图1所示,直接影响e₂: X₁ → Y无法从与X₂(即e₃: X₂ → Y)的合作中获得边际贡献,尽管这两条指向Y的入边之间没有因果顺序。此外,专注于在图的每个割集处分配贡献的归因方法,如Shapley Flow[41]和递归Shapley值[35],未能识别特征的外生性贡献。外生性贡献指特征中不受解释输入中其他特征影响的部分贡献。Shapley Flow和递归Shapley值假设只有没有入边的特征顶点才具有外生性贡献。因此,外生变量x₂的贡献无法被恰当捕捉。显然,中间顶点没有外生性贡献的假设与现实世界的特征归因场景不符。

在本文中,我们探索通过深入研究特征交互来增强归因方法合理性的潜力。具体地,我们在特征构成DAG(因果建模中广泛采用且可以说是基本的假设)的假设下纳入细粒度因果关系。我们的贡献可总结如下:

1. 我们提出了DAG-SHAP,一种基于边干预的归因方法,对因果DAG中选定的父-子传递进行细粒度、路径特定的干预,而不干扰图中的其他边。
2. 我们证明DAG-SHAP是唯一同时满足特征归因所需的四个关键公理性质(因果性、效率、外部性和外生性)的方法。
3. 我们引入了两种高效的DAG-SHAP计算方法:(i) 通过边干预下的特征分布推断进行精确计算,以及 (ii) 基于有效拓扑边顺序的蒙特卡洛近似,使该方法在实践中保持高效和可扩展性。
4. 在真实和合成数据集上的综合实验表明,与基线方法相比,DAG-SHAP实现了优越的归因性能。

组织结构。第二部分回顾相关工作。第三部分描述预备知识。第四部分通过一个玩具示例说明我们的动机。第五部分给出DAG-SHAP的定义。第六部分提供近似DAG-SHAP的算法。第七部分介绍实验。最后,第八部分进行总结并讨论未来方向。

## II. 相关工作

在本节中,我们讨论经典特征归因和因果特征归因方法的相关工作。

### II-A. 经典特征归因技术

LIME(局部可解释模型无关解释)[28]是一种流行的模型解释方法,它为复杂模型做出的每个预测生成一个局部且可解释的模型。LIME的优势在于其通用性和简单性,可以应用于任何模型并提供特征重要性的直观解释。Grad-CAM[32]通过可视化突出显示对特定类别的预测贡献最大的图像区域。具体地,它使用最后一个卷积层的特征图和关于特定类别预测的梯度信息来生成类激活图。DeepLIFT[34]通过激活函数的差异解释深度学习模型的决策过程。SmoothGrad[36]是一种旨在提高深度学习模型可解释性的方法,特别适用于图像分类任务。它旨在通过减少梯度敏感度图中的视觉噪声来提高模型预测解释的质量。集成梯度(IG)[39]涉及沿从基线到实际输入数据的路径,对模型输出相对于输入梯度进行积分。与基于Shapley值的归因一样,集成梯度已被证明满足包括线性、实现不变性、敏感性和虚拟性在内的公理性质,并且独立于模型实现。逐层相关性传播(LRP)[26]是一种流行的神经网络解释方法。它通过将相关性分数从输出层反向传播到输入层来解释神经网络的预测。MCI基于特征所能带来的最大边际贡献来衡量特征贡献,无法捕捉正确的因果贡献。它给出了一些新性质,如超效率和次可加性[4]。

除了这些模型解释技术之外,数据库社区还使用Shapley值来量化面向学习任务中数据单元的贡献分数[17, 43]。这一研究方向在概念上与我们的公平贡献分配目标相关,但在归因粒度和语义上有所不同。现有的面向数据库的Shapley估值方法通常将记录、数据点或数据集视为参与者,并衡量它们对下游效用的边际影响。相比之下,DAG-SHAP将观察特征之间的有向因果传递作为归因对象。它不是在问一个元组或数据集对模型贡献了多少,而是在问在因果DAG下,一个被干预的特征边对一个实例级预测贡献了多少。

### II-B. 因果特征归因技术

作为因果贡献的一种度量,do-Shapley值[19]通过公理基础提供了理论依据。与因果Shapley值[10]类似,它使用干预,但推广了先前的方法,以衡量每个特征对由黑盒/未知/不可访问模型引起的目标效应的因果贡献。PWSHAP(路径式Shapley效应)[40]是一种用于解释预测模型中特定二元变量(如政策模型中的处理效应或种族)影响的方法。它通过将预测模型与用户定义的有向无环图相结合,来评估复杂结果模型中的目标效应。受因果推断和随机实验的启发,研究人员开发了一种算法来估计AME(平均边际效应)[22],这是将数据点添加到从均匀分布中采样的训练数据子集时的预期平均边际效应的度量。CF-SHAP[1]是一种结合反事实信息进行特征归因的方法。它加强并澄清了可操作的事后解释与特征归因之间的联系,在推动因果特征归因的发展方面发挥了作用。Janzing等人[16]主要侧重于区分基于观测条件分布与干预条件分布计算Shapley值。他们是首批强调因果关系在特征归因中作用的研究者之一。此外,Janzing等人[15]提出了Shapley-ICC,它使用结构保持的干预和基于Shapley的对称化,以获得目标变量不确定性(如方差或香农熵)的*全局*分解。该目标及其建模要求与我们的不同。DAG-SHAP在观察特征上的因果DAG上操作,并估计边干预后观察变量的分布。因此,它不需要识别SCM级别的外生噪声变量。相比之下,Shapley-ICC通过SCM中的外生噪声N_i来归因不确定性。由于此类N_i通常无法仅从DAG和观测P(X)中识别,Shapley-ICC依赖于更强的结构假设。因此,在没有额外SCM假设的情况下,Shapley-ICC不适用于我们的实例级基于DAG的特征归因设置。

总体而言,经典特征归因方法提供了有用的解释,但通常缺乏因果语义基础,而现有的因果Shapley风格方法主要依赖于节点干预,无法捕捉特征DAG中沿单个因果链接的细粒度交互。这些局限性促成了我们提出的DAG-SHAP,它执行*基于边的干预*以获得尊重DAG结构且明确考虑外部性和外生性的实例级归因。

相似文章

归因合同:生成式语言模型中的特征归因

arXiv cs.LG

本文介绍了归因合同(Attribution Contract),这是生成式语言模型中特征归因声明的一种规范,解决了特征定义不清以及归因方法评估方式模糊的问题。论文以自回归模型和扩散模型为例,展示了归因何时具有信息量,何时可能产生误导。

基于交互式定向广告的属性推断

arXiv cs.AI

本文建模了交互式定向广告如何通过可观察的用户交互泄露用户属性信息,并在合成数据上评估了贝叶斯、监督学习及其他攻击方法,同时讨论了作为防御手段的披露控制措施。

GraphBit:一种基于图的非线性代理编排框架

arXiv cs.AI

GraphBit是一种基于图的代理框架,采用Rust引擎实现确定性DAG编排,消除了幻觉和无限循环。在GAIA基准测试中,它达到了67.6%的准确率,且零框架诱导错误、低延迟。