罕见事件因果路径的形式化与可证伪性

arXiv cs.AI 论文

摘要

本文提出了罕见事件因果路径的形式化定义,并讨论了其可检验的含义,将简单口头解释与详细因果模型联系起来。

arXiv:2605.31254v1 公告类型:新 摘要:基于近期对结构方程模型中罕见事件(“异常值”)根因分析的形式化,我们提出了一种因果路径的形式化定义,并讨论了其可检验的含义。我们确定了这些含义仅依赖于由罕见事件路径定义的因果抽象、而非底层系统完整因果图的条件。据此,我们引入了一种将因果结构抽象为罕见事件路径的方法,该方法在简单的口头因果解释与详细的因果建模之间架起了桥梁。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:26

# 罕见事件因果路径的形式化与可证伪性 来源:https://arxiv.org/html/2605.31254 ###### 摘要 在近期针对结构方程模型中罕见事件(“异常值”)的根因分析形式化工作的基础上,我们提出了因果路径的形式化定义,并讨论了其可检验的推论。我们识别了这些推论仅依赖于由罕见事件路径所定义的因果抽象、而非底层系统完整因果图的条件。据此,我们引入了一种将因果结构抽象为罕见事件路径的方法,从而连接了简单的口头因果解释与详细的因果建模。机器学习,ICML ## 1 引言 当一个观测事件在给定概率模型下出乎意料时,因果解释(Halpern and Pearl, 2005 (https://arxiv.org/html/2605.31254#bib.bib35))尤其引人关注。罕见事件的典型例子包括自然灾害(Hannart et al., 2016 (https://arxiv.org/html/2605.31254#bib.bib24))、股市崩盘(Sanyal et al., 2025 (https://arxiv.org/html/2605.31254#bib.bib25))、技术系统故障(Pham et al., 2024 (https://arxiv.org/html/2605.31254#bib.bib31))以及极端基因表达模式(Li et al., 2025 (https://arxiv.org/html/2605.31254#bib.bib23))。目前针对罕见事件的根因分析方法通常集中于识别一小部分因果起源,即根因(Orchard et al., 2025 (https://arxiv.org/html/2605.31254#bib.bib22); Nagalapatti et al., 2025 (https://arxiv.org/html/2605.31254#bib.bib27); Lin et al., 2024 (https://arxiv.org/html/2605.31254#bib.bib26); Li et al., 2022 (https://arxiv.org/html/2605.31254#bib.bib28); Budhathoki2022; Gnecco et al., 2021 (https://arxiv.org/html/2605.31254#bib.bib30); Liu et al., 2021 (https://arxiv.org/html/2605.31254#bib.bib29); Lin et al., 2018 (https://arxiv.org/html/2605.31254#bib.bib32))。虽然根因分析具有信息价值,但它无法捕捉这些原因传播并产生观测结果的机制,其中可能包含交互机制和调制的上下文因素。因此,因果解释通常不能简化为识别有限数量的根因。出于可解释性和科学洞见的目的,我们有必要提供因果解释,不仅识别根因,还识别连接这些原因与观测事件的因果模型的相关子图。此外,完整的因果模型通常未知(Ikram et al., 2025 (https://arxiv.org/html/2605.31254#bib.bib34)),因此因果发现也可视为识别能有力解释特定观测事件的最小因果结构的问题(Beckers, 2022 (https://arxiv.org/html/2605.31254#bib.bib21))。这一视角凸显了对事件特定因果解释形式化概念的需求,该概念在模型部分已知及底层详细因果图不确定的情况下仍能良好定义。 #### 我们的贡献。 我们引入了连接根因与目标的**因果路径**的形式化。基于这一框架,我们定义了几个衡量解释质量的量,其动机来源于**似真性**和**可证伪性**的思想。虽然我们的大多数事件涉及数值变量,但我们强调我们的概念可以推广到任意取值范围的变量,例如,当通过语义嵌入定义概率分布时,变量可以描述词元或句子。 #### 相关工作。 现有关于罕见事件下因果建模的工作主要集中在**极值域**上,采用渐近或尾部极限,且通常受参数假设约束(Engelke et al., 2025 (https://arxiv.org/html/2605.31254#bib.bib19); Klüppelberg and Krali, 2026 (https://arxiv.org/html/2605.31254#bib.bib20))。虽然这一系列工作为连续变量尾部的因果机制提供了洞见,但它没有解决**罕见但非极端**事件下因果结构的行为,因为罕见并不等同于极端:事件可能在统计上罕见,但发生在非尾部的数值上(Ebtekar et al., 2025 (https://arxiv.org/html/2605.31254#bib.bib10)),例如意外接近零的值或高度不平衡的二元变量。因此,基于渐近极值的方法在此背景下并不直接适用。相比之下,我们研究罕见事件的因果贡献时不依赖渐近极限。我们的框架不假设连续变量,且适用于定义在任意空间上的变量,例如离散域。此外,关于**中介分析**的相关工作主要致力于将因果效应分解为路径特定分量,以量化效应如何沿不同因果路径传播(robins2022interventionist; kawakami2025decomposition; singal2024axiomatic)。虽然这些文献能够将因果效应的部分归因于特定路径,但并未解决一个互补问题:因果模型的哪些部分能为特定观测事件提供良好的因果解释。因此,我们的目标不是中介分析,而是罕见事件因果结构在事件层面的可解释性。另一相关工作是**因果抽象**,它提供了一个形式化框架,用于关联代表同一系统但处于不同粒度级别的因果模型(Rubenstein et al., 2017 (https://arxiv.org/html/2605.31254#bib.bib13); beckers2019abstracting; beckers2020approximate)。然而,现有的因果抽象方法在完整因果模型层面运作,而我们的论文为解释目标罕见事件的因果图部分形式化了事件层面的因果路径抽象概念。 本文结构如下:为量化一组根因事件对一组观测事件的解释程度,第2节 (https://arxiv.org/html/2605.31254#S2) 讨论了二元变量之间的因果关系。第3节 (https://arxiv.org/html/2605.31254#S3) 定义了从根因到目标事件的**因果路径**,并量化了该路径对目标的解释程度。第4节 (https://arxiv.org/html/2605.31254#S4) 描述了如何通过更详细因果模型的抽象得到以二元变量表示的事件因果路径。第5节 (https://arxiv.org/html/2605.31254#S5) 展示了如何应用我们的概念来评估因果解释。 ## 2 解释事件簇 假设我们给定 \(k\) 个事件,形式化为二元变量 \(\mathbf{B}:=\{B_{1},\dots,B_{k}\}\),其中 \(B_{i}=1\) 表示事件 \(i\) 发生。进一步假设变量 \(\mathbf{B}\) 由因果 DAG \(\{\cal C\}\) 连接,且联合概率分布为 \(P_{\mathbf{B}}\)。对于任意索引集 \(S\subseteq K:=\{1,\dots,k\}\),令 \(\mathbf{B}_{S}\) 表示变量 \((B_{i})_{i\in S}\) 的向量,并令 \(\mathbf{B}_{S}=\mathbf{1}\) 表示联合事件 \((B_{i}=1)_{i\in S}\)。然后,假设马尔可夫条件(Pearl:00),观测到事件 \(P_{\mathbf{B}}(\mathbf{B}=\mathbf{1})\) 的概率可分解为:
\[
P_{\mathbf{B}}(\mathbf{B}=\mathbf{1}) = \prod_{i=1}^{k} P_{\mathbf{B}}(B_{i}=1 \mid \mathbf{B}_{\mathrm{Pa}(i)}=\mathbf{1}),
\]
其中 \(\mathrm{Pa}(i)\) 表示在 \(\{\cal C\}\) 中 \(B_{i}\) 的父节点索引。

现在考虑一个场景:外部事件“破坏”了数据生成过程,使得一个或多个因果机制 \(P_{\mathbf{B}}(B_{i}\mid\mathbf{B}_{\mathrm{Pa}(i)})\) 被不同机制 \(\tilde{P}_{\mathbf{B}}(B_{i}\mid\mathbf{B}_{\mathrm{Pa}(i)})\) 替代。令 \(R\subseteq K\) 表示受影响节点的索引集。我们将变量 \(\mathbf{B}_{R}\) 定义为事件 \(\mathbf{B}=\mathbf{1}\) 的根因变量,并将元组 \((\{\cal C\},\mathbf{B},\mathbf{B}_{R},P_{\mathbf{B}})\) 称为**事件簇**,其根因为 \(R\)。“硬干预”(Pearl:00)\(\text{do}(\mathbf{B}_{R}=\mathbf{1})\) 是更一般的“软干预”(Eberhardt and Scheines, 2007 (https://arxiv.org/html/2605.31254#bib.bib4))的特例,它给出:
\[
P_{\mathbf{B}}(\mathbf{B}=\mathbf{1}\mid\text{do}(\mathbf{B}_{R}=\mathbf{1})) = \prod_{i\notin R} P_{\mathbf{B}}(B_{i}=1\mid\mathbf{B}_{\mathrm{Pa}(i)}=\mathbf{1}).
\]
对于软干预的情况,(2) 式右侧仅是簇事件 \(\mathbf{B}=\mathbf{1}\) 似然的上界,因为缺少项 \(\prod_{i\in R} \tilde{P}_{\mathbf{B}}(B_{i}=1\mid\mathbf{B}_{\mathrm{Pa}(i)}=\mathbf{1})\)。每当 (2) 式右侧接近 1 时,干预 \(\text{do}(\mathbf{B}_{R}=\mathbf{1})\) 就是簇事件的**似然解释**。为形式化这一思想,我们首先引入来自 Oesterle2025 (使用略有不同的符号) 的概念:

###### 定义 2.1(解释分数)。 假设 \(Y\) 是离散变量,\(\mathbf{X}\) 是影响 \(Y\) 的变量向量。对于值 \(\mathbf{x}\) 和 \(y\),事件 \(\mathbf{X}=\mathbf{x}\) 解释了事件 \(Y=y\),其解释分数为:
\[
{\cal E}(\mathbf{x}\to y) := 1 - \frac{\log P_{\mathbf{B}}(Y=y \mid \text{do}(\mathbf{X}=\mathbf{x}))}{\log P_{\mathbf{B}}(Y=y)}.
\]
我们将量 \(1-{\cal E}(\mathbf{x}\to y)\) 称为**解释赤字**。

遵循这一术语,我们定义:

###### 定义 2.2(簇解释分数)。 对于任何潜在根因集 \(R\subseteq K\),事件 \(\mathbf{B}_{R}=\mathbf{1}\) 解释了簇事件 \(\mathbf{B}=\mathbf{1}\),其解释分数为:
\[
{\cal E}_{R\to K} := 1 - \frac{\log P_{\mathbf{B}}(\mathbf{B}=\mathbf{1}\mid\text{do}(\mathbf{B}_{R}=\mathbf{1}))}{\log P_{\mathbf{B}}(\mathbf{B}=\mathbf{1})} = \frac{\sum_{i\in R} \log P_{\mathbf{B}}(B_{i}=1\mid\mathbf{B}_{\mathrm{Pa}(i)}=\mathbf{1})}{\log P_{\mathbf{B}}(\mathbf{B}=\mathbf{1})}.
\]
因此,解释分数高的集合 \(R\) 是根因的良好候选。此外,虽然 Oesterle2025 强调解释分数——出于合理原因——通常对特征的 disjoint union 不具有可加性,但容易验证 \({\cal E}_{R\to K}\) 确实具有这一性质:

###### 引理 2.3(贡献的可加性)。 设 \(R\) 和 \(R'\) 是 \(K\) 中不相交的子集。那么:
\[
{\cal E}_{R\stackrel{\cdot}{\cup}R'\to K} = {\cal E}_{R\to K} + {\cal E}_{R'\to K}.
\]
记 \({\cal E}_{i\to K}\) 表示 \({\cal E}_{\{i\}\to K}\),还可验证:
\[
\sum_{i\in K} {\cal E}_{i\to K} = 1.
\]
我们称 \({\cal E}_{i\to K}\) 为机制 \(P_{\mathbf{B}}(B_i\mid\mathbf{B}_{\mathrm{Pa}(i)})\) 对簇事件的**贡献**。根据引理 2.3 陈述的可加性,对于每个 \(R\subseteq K\setminus\{i\}\),我们还得到 \({\cal E}_{i\to K} = {\cal E}_{R\cup\{i\}\to K} - {\cal E}_{R\to K}\)。因此,每个机制 \(i\) 对簇解释的贡献不依赖于同时考虑哪些其他根因。因此,无需像 Shapley 值“公平归因”(shapley:book1952)那样对变量上下文进行平均,这与因果和统计归因设置中边际贡献可能依赖于所选上下文的情况形成对比(Lundberg and Lee, 2017 (https://arxiv.org/html/2605.31254#bib.bib11); Frye et al., 2020 (https://arxiv.org/html/2605.31254#bib.bib12); Wang et al., 2021 (https://arxiv.org/html/2605.31254#bib.bib8); Janzing et al., 2020 (https://arxiv.org/html/2605.31254#bib.bib9))。此外,注意对于任何离散分布 \(Q\),\(-\log Q(x)\) 可写为 KL 散度 \(D_{\text{KL}}(\delta_x \| Q)\),其中 \(\delta_x\) 是 \(x\) 上的点质量,这允许将 \({\cal E}_{R\to K}\) 用 KL 散度重新表达¹。利用这一观察,附录 A.1 表明,\({\cal E}_{R\to K}\) 可视为 budhathoki2021did 意义上分布变化归因的一个退化实例。尽管本文始终使用“事件”一词,这可能暗示特定时间点的发生,但我们的框架更普遍地适用于解释为何某个特定统计单元的行为与参考群体不同,例如,患有单基因障碍的个体患者相对于健康个体可被视为异常值(Li et al., 2025 (https://arxiv.org/html/2605.31254#bib.bib23))。

¹注意,(Oesterle2025) 已将解释分数引入为 KL 散度,以及基于其他分布间距离的推广。

## 3 因果路径

现在我们专注于解释簇中的特定目标事件 \(B_t=1\),因此关注那些对理解根因如何**通过因果路径**触发目标事件至关重要的节点子集:

###### 定义 3.1(事件路径解释)。 一个因果路径是一个元组 \((\{\cal C\},\mathcal{P},\mathbf{B},B_t,\mathbf{B}_R,P_{\mathbf{B}})\),其中:
(i) \(\{\cal C\}\) 是一个 DAG,描述二元变量 \(\mathbf{B}:=\{B_1,\dots,B_k\}\) 之间的因果关系,且概率分布 \(P_{\mathbf{B}}\) 相对于 \(\{\cal C\}\) 满足马尔可夫性;
(ii) \(\mathbf{B}_R \subseteq \mathbf{B}\) 是根因集,其中 \(\mathbf{B}_R\) 可以为空或仅包含 \(B_t\);
(iii) \(\mathcal{P}\) 是 \(\{\cal C\}\) 的子图,即**路径**,除了可能进入 \(R\) 的某些边外,与 \(\{\cal C\}\) 一致;
(iv) \(B_t \in \mathbf{B}\) 是 \(\mathcal{P}\) 的唯一汇节点,形式化了待解释的事件。

要理解 \(\mathcal{P}\) 与 \(\{\cal C\}\) 的区别,注意仅凭 \(\mathcal{P}\) 的知识就足以计算对所有 \(\mathbf{b}_R\) 的 \(P_{\mathbf{B}}(\mathbf{B}\mid\text{do}(\mathbf{B}_R=\mathbf{b}_R))\),因为 do 干预移除了所有进入 \(R\) 的边。因此,\(\mathcal{P}\) 足以解释为何识别的根因使目标事件具有高似然性。然而,计算某些根因未被干预(与设置为零不同)时的结果需要了解进入 \(R\) 的边。在此方面,\(\{\cal C\}\) 允许评估每个根因的相关性,并通过允许评估所选根因是否合理来增强解释的透明度。本质上,\(\{\cal C\}\)

相似文章

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

Hugging Face Daily Papers

CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。

迈向连续时间因果基础模型

arXiv cs.LG

提出了一个连续性准则,用于将离散时间因果先验数据拟合网络扩展到连续时间,利用随机微分方程(SDE)。引入了分类体系和细网格积分方法,在不规则观测时间表上优于朴素积分方法。

YoCausal: 视频生成距离世界模型有多远?因果视角

Hugging Face Daily Papers

本文介绍了YoCausal,一个基于认知科学中的违反预期(Violation of Expectation)范式的基准,用于评估视频扩散模型是否真正理解因果关系,还是仅仅过拟合于时间模式。对13个最先进模型的评估显示,与人类级别的因果认知相比,存在显著差距。