基于分数的潜在变量因果模型因果发现

arXiv cs.LG 2026/05/21 04:00 论文

摘要

本文介绍了在存在潜在变量情况下进行因果发现的基于分数的方法，提供了一致性和分数等价性的理论保证，并统一了几种基于约束的方法。

arXiv:2605.20396v1 公告类型：新摘要：识别潜在变量及其涉及的因果结构对于各个科学领域至关重要。虽然许多现有工作属于基于约束的方法（例如条件独立性或秩不足检验）的范畴，但它们可能面临实证挑战，如检验顺序依赖性、错误传播以及选择合适的显著性水平。这些问题可以通过适当设计的基于分数的方法（例如在没有潜在变量的特定设置下的贪婪等价搜索（GES）（Chickering，2002））来缓解。然而，制定带有潜在变量的基于分数的方法极具挑战性。在这项工作中，我们开发了基于分数的方法，能够识别包含因果相关潜在变量的因果结构，并具有可辨识性保证。具体来说，我们表明，适当制定的评分函数可以实现潜在变量因果模型结构学习的分数等价性和一致性。我们进一步在文献中考虑的多种结构假设下，对观测变量边际的自由度进行了刻画，并据此开发了精确和连续的基于分数的方法。这为几种具有不同结构假设的现有基于约束的方法提供了统一视角。实验结果验证了所提出方法的有效性。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:24

# 基于分数的潜变量因果模型因果发现 来源：https://arxiv.org/html/2605.20396 ###### 摘要 识别潜变量及其因果结构在多个科学领域至关重要。尽管许多现有工作属于基于约束的方法（例如利用条件独立或秩不足检验），但它们可能面临实证挑战，如检验顺序依赖性、误差传播以及选择适当的显著性水平。这些问题可以通过适当设计的基于分数的方法来缓解，例如在没有潜变量的特定设置下的贪婪等价搜索（GES）（Chickering，2002 (https://arxiv.org/html/2605.20396#bib.bib19)）。然而，在包含潜变量的情况下制定基于分数的方法极具挑战性。在这项工作中，我们开发了基于分数的方法，能够识别包含因果相关潜变量的因果结构，并具有可辨识性保证。具体来说，我们证明了适当制定的评分函数能够实现分数等价性，并满足潜变量因果模型结构学习的一致性。我们进一步刻画了在文献中考虑的多种结构假设下，关于观测变量的边际模型的自由度，并据此开发了精确和连续的基于分数的方法。这为几种具有不同结构假设的现有基于约束的方法提供了统一视角。实验结果验证了所提方法的有效性。机器学习，ICML ## 1 引言 理解复杂系统的核心在于因果发现，即从观测数据中识别因果关系（Spirtes 等，2001 (https://arxiv.org/html/2605.20396#bib.bib72)；Pearl，2009 (https://arxiv.org/html/2605.20396#bib.bib54)）。因果发现算法的一个常见假设是不存在潜在混杂因素，即因果充分性，假定观测到的相关性要么源于真实因果关系，要么可以由其他观测变量充分解释。然而，现实场景往往违背这一假设。例如，在心理学研究中，测量的问卷是潜在心理因素的间接代理变量。在图像和文本等非结构化数据中，观测到的像素和词语受到潜在语义变量的混淆。如果直接应用因果发现方法而不考虑这些潜变量，可能会导致错误发现，因为潜变量可能在观测变量之间引入无法归因于真实因果关系的虚假相关性。因此，人们做出了显著努力来识别存在潜变量情况下的真实因果关系。最早的努力包括快速因果推理（FCI）（Spirtes 等，2001 (https://arxiv.org/html/2605.20396#bib.bib72)；Zhang，2008 (https://arxiv.org/html/2605.20396#bib.bib86)）及其变体（Colombo 等，2012 (https://arxiv.org/html/2605.20396#bib.bib23)；Spirtes 等，2013 (https://arxiv.org/html/2605.20396#bib.bib73)；Claassen 等，2013 (https://arxiv.org/html/2605.20396#bib.bib22)；Akbari 等，2021 (https://arxiv.org/html/2605.20396#bib.bib2)），它们利用条件独立信息。FCI 有两个主要局限性：首先，结果以部分祖先图（PAG）（Richardson，1996 (https://arxiv.org/html/2605.20396#bib.bib58)）呈现，往往过于泛化——例如，只要两个观测变量可能被混淆，就指示存在混杂。其次，它仅关注观测变量之间的因果关系，不提供潜变量之间关系的信息。简而言之，FCI 不需要关于潜在结构的特定假设，但代价是输出信息较少。 相比之下，人们通常有兴趣识别潜变量之间的因果关系（例如，上述例子中的潜在心理和语义变量）。因此，另一系列工作被开发出来，以发现潜变量之间的因果结构。为保证可辨识性条件，这些方法通常引入额外的参数假设，以缓解 FCI 面临的大模型不确定性。这包括基于秩或四元组条件的方法（假设线性）（Silva 等，2003 (https://arxiv.org/html/2605.20396#bib.bib67)，2006 (https://arxiv.org/html/2605.20396#bib.bib68)；Silva & Scheines，2005 (https://arxiv.org/html/2605.20396#bib.bib66)；Choi 等，2011 (https://arxiv.org/html/2605.20396#bib.bib20)；Kummerfeld & Ramsey，2016 (https://arxiv.org/html/2605.20396#bib.bib44)；Huang 等，2022 (https://arxiv.org/html/2605.20396#bib.bib38)；Dong 等，2023 (https://arxiv.org/html/2605.20396#bib.bib28)）、基于高阶矩的方法（Shimizu 等，2009 (https://arxiv.org/html/2605.20396#bib.bib64)；Zhang 等，2018 (https://arxiv.org/html/2605.20396#bib.bib87)；Cai 等，2019 (https://arxiv.org/html/2605.20396#bib.bib17)；Salehkaleybar 等，2020 (https://arxiv.org/html/2605.20396#bib.bib59)；Xie 等，2020 (https://arxiv.org/html/2605.20396#bib.bib83)；Adams 等，2021 (https://arxiv.org/html/2605.20396#bib.bib1)；Dai 等，2022 (https://arxiv.org/html/2605.20396#bib.bib26)；Chen 等，2022 (https://arxiv.org/html/2605.20396#bib.bib18)；Améndola 等，2023 (https://arxiv.org/html/2605.20396#bib.bib4)；Wang & Drton，2023 (https://arxiv.org/html/2605.20396#bib.bib82)）、基于矩阵分解的方法（Anandkumar 等，2013 (https://arxiv.org/html/2605.20396#bib.bib5)）、基于 Copula 模型的方法（Cui 等，2018 (https://arxiv.org/html/2605.20396#bib.bib25)）、基于混合预言的方法（Kivva 等，2021 (https://arxiv.org/html/2605.20396#bib.bib42)）以及基于多域的方法（Zeng 等，2021 (https://arxiv.org/html/2605.20396#bib.bib85)；Sturma 等，2023 (https://arxiv.org/html/2605.20396#bib.bib75)）。就算法过程而言，这些方法通常属于基于约束的方法，通过将统计特性与可能的结构模式匹配，并迭代地构建整个因果结构。在因果充分情况下，一个典型的基于约束的方法是 PC（Spirtes & Glymour，1991 (https://arxiv.org/html/2605.20396#bib.bib71)）。尽管具有渐近一致性，但基于约束方法的经验可靠性可能受到检验顺序依赖性和误差传播的限制（Spirtes，2010 (https://arxiv.org/html/2605.20396#bib.bib70)；Colombo 等，2012 (https://arxiv.org/html/2605.20396#bib.bib23)），尤其是在变量数量较多时。 为解决基于约束方法的这些实证问题，基于分数的因果发现方法被引入，并在实际应用中可能更受青睐（Nandy 等，2018 (https://arxiv.org/html/2605.20396#bib.bib47)；Ramsey 等，2017 (https://arxiv.org/html/2605.20396#bib.bib55)）。与基于约束方法迭代构建单个因果图不同，基于分数的方法为每个潜在图分配一个分数，反映其解释观测数据的程度，并通常在图空间中进行搜索以找到最优图。在因果充分情况下，一个典型的基于分数的方法是贪婪等价搜索（GES）（Chickering，2002 (https://arxiv.org/html/2605.20396#bib.bib19)）。也存在一些能够处理潜变量的基于分数的方法（Shpitser 等，2012 (https://arxiv.org/html/2605.20396#bib.bib65)；Triantafillou & Tsamardinos，2016 (https://arxiv.org/html/2605.20396#bib.bib77)；Nowzohour 等，2017 (https://arxiv.org/html/2605.20396#bib.bib52)；Bhattacharya 等，2021 (https://arxiv.org/html/2605.20396#bib.bib11)；Shahin & Chechik，2020 (https://arxiv.org/html/2605.20396#bib.bib63)；Bernstein 等，2020 (https://arxiv.org/html/2605.20396#bib.bib8)；Bellot & van der Schaar，2021 (https://arxiv.org/html/2605.20396#bib.bib6)；Claassen & Bucur，2022 (https://arxiv.org/html/2605.20396#bib.bib21)）。与 FCI 类似，除了 Zhang (2004) (https://arxiv.org/html/2605.20396#bib.bib89) 的方法（无辨识性保证）外，它们大多不发现潜变量之间的因果关系。当引入潜变量并进一步允许它们在因果结构中的关系时，在刻画自由度（Geiger 等，1996 (https://arxiv.org/html/2605.20396#bib.bib32)，2001 (https://arxiv.org/html/2605.20396#bib.bib33)）、制定评分函数以及组织搜索过程方面会出现挑战。我们在本文中应对这些挑战，据我们所知，这是首个能够识别包含因果相关潜变量的因果结构且具有辨识性保证的基于分数的方法。 **贡献。** 我们开发了基于分数的方法，称为 SALAD（Score-bAsed Latent cAusal Discovery 的缩写），用于潜变量因果模型的因果发现，为几种现有的基于约束的方法（Silva 等，2003 (https://arxiv.org/html/2605.20396#bib.bib67)；Huang 等，2022 (https://arxiv.org/html/2605.20396#bib.bib38)）提供了统一视角。我们的贡献可总结如下： - • 我们开发了一种用于识别线性潜变量因果模型的评分函数公式。我们证明了 (1) 它是分数等价的，并且 (2) 最小化该函数得到的结构在代数上等价于真实结构。后者意味着两个结构对观测变量边际模型具有相同的等式约束（包括条件独立性和秩不足约束）。 - • 我们提供了在 Silva 等（2003 (https://arxiv.org/html/2605.20396#bib.bib67)）和 Huang 等（2022 (https://arxiv.org/html/2605.20396#bib.bib38)）所考虑的结构假设下，关于观测变量边际模型自由度的刻画。 - • 我们开发了用于估计因果结构的精确基于分数的方法，并证明了它们能够渐近地识别整个结构的真实等价类。我们还在某些设置中提供了连续的基于分数的方法，以提高计算效率。 - • 我们证明了所提出的基于分数的方法在估计潜变量因果模型结构方面优于现有的基于约束的方法，进一步验证了基于分数方法的有效性。 **符号说明。** 对于矩阵 \(M\)，我们定义其支撑集为 \(\operatorname{supp}(M) \coloneqq \{(i,j): M_{i,j} \neq 0\}\)。我们用 \(M_{\mathbf{S},:}\) 表示 \(M\) 中由集合 \(\mathbf{S}\) 索引的行，类似地用 \(M_{:,\mathbf{S}}\) 表示列。对于有向无环图 (DAG) \(\mathcal{G}\)，我们用 \(|\mathcal{G}|\) 表示 \(\mathcal{G}\) 中边的数量。此外，令 \(\operatorname{diag}(\mathbb{R}_{>0}^m)\) 为所有 \(m \times m\) 对角线上元素为正的对角矩阵的集合，\(\mathbb{U}^m\) 为所有 \(m \times m\) 严格上三角矩阵的集合，\(\mathbb{G}^m\) 为具有 \(m\) 个测量变量且遵循方程 (1) 的图的集合。对于集合 \(\mathbf{S}\)，我们将其 \(k\)-划分定义为将其元素划分为 \(k\) 个非空子集的一个划分。 ## 2 潜变量因果模型 在本节中，我们讨论潜变量因果模型的几个方面。具体来说，我们在第 2.1 节中描述预备知识和问题设定，并在第 2.2 节中讨论似然函数的公式。我们在第 A.1 节中提供关于潜变量因果模型的讨论。 ### 2.1 预备知识和问题设定 我们考虑一个具有 DAG \(\mathcal{G}\) 的线性潜变量因果模型，其中测量变量 \(X = (X_1, \dots, X_m)\) 和潜变量（未测量）\(L = (L_1, \dots, L_n)\) 遵循数据生成过程：\[ L = C L + E_L \quad\text{and}\quad X = B L + E_X, \tag{1} \] 其中 \(E_X\) 和 \(E_L\) 是联合独立且服从高斯分布的噪声项。DAG \(\mathcal{G}\) 的结构由矩阵 \(B\) 和 \(C\) 的支撑集定义，即如果 \(C_{i,j} \neq 0\)，则 \(L_j \rightarrow L_i\) 是 \(\mathcal{G}\) 中的一条边；如果 \(B_{i,j} \neq 0\)，则 \(L_j \rightarrow X_i\) 是 \(\mathcal{G}\) 中的一条边。对于 DAG \(\mathcal{G}\)，我们用 \(B_{\mathcal{G}} \in \{0,1\}^{m \times n}\) 表示从潜变量 \(L\) 到测量变量 \(X\) 的边的二元邻接矩阵，用 \(C_{\mathcal{G}} \in \{0,1\}^{n \times n}\) 表示潜变量 \(L\) 之间边的二元邻接矩阵。不失一般性，我们假设矩阵 \(C\) 和 \(C_{\mathcal{G}}\) 是严格上三角的。 令 \(\Sigma_X\) 和 \(\Sigma_L\) 分别为测量变量 \(X\) 和潜变量 \(L\) 的总体协方差矩阵。同样地，令 \(\Omega_X\) 和 \(\Omega_L\) 分别为噪声项 \(E_X\) 和 \(E_L\) 的（对角）协方差矩阵。\(\Sigma_L\) 可以写为：\[ \Sigma_L = (I - C)^{-1} \Omega_L (I - C)^{-\top}. \] 根据 \(\Sigma_X = B \Sigma_L B^\top + \Omega_X\)，我们有\[ \Sigma_X = B (I - C)^{-1} \Omega_L (I - C)^{-\top} B^\top + \Omega_X. \tag{2} \] 我们说一个 DAG \(\mathcal{G}\) 能够生成一个协方差矩阵，如果存在 \(\mathcal{G}\) 的一个参数化使得方程 (2) 成立。此外，由于潜变量的标签通常无法识别，我们说两个 DAG 是马尔可夫等价的，如果它们在潜变量重新标记后是马尔可夫等价的。给定 \(T\) 个独立同分布的变量 \(X\) 样本，记为 \(\mathbf{D}\)，其经验协方差矩阵为 \(S\)，目标是估计结构 \(\mathcal{G}\) 直到某种模型等价类（在第 4 节和第 5 节中具体说明）。 ### 2.2 似然函数的公式 我们首先通过以下引理讨论参数 \(\Omega_L\) 的不确定性，因为它影响我们如何制定似然函数。证明见第 B.1 节。 ###### 引理 1 (\(\Omega_L\) 的不确定性)。 对于任何参数 \(B, C, \Omega_X, \Omega_L\) 以及遵循方程 (2) 的 \(\Sigma_X\)，存在参数 \(\tilde{B}\) 和 \(\tilde{C}\)，满足 \(\operatorname{supp}(B) = \operatorname{supp}(\tilde{B})\) 且 \(\operatorname{supp}(C) = \operatorname{supp}(\tilde{C})\)，使得\[ \Sigma_X = \tilde{B} (I - \tilde{C})^{-1} (I - \tilde{C})^{-\top} \tilde{B}^\top + \Omega_X. \] 换句话说，任何由 DAG \(\mathcal{G}\) 和任意 \(\Omega_L\) 产生的协方差矩阵 \(\Sigma_X\)，都可以通过同一 DAG 的替代参数（其中 \(\tilde{\Omega}_L = I\)）生成。这意味着参数 \(\Omega_L\) 在没有额外信息和进一步假设的情况下无法从 \(\Sigma_X\) 中估计出来。此外，由于目标是估计结构 \(\mathcal{G}\)，这暗示在估计过程中可以假设 \(\Omega_L\) 为单位矩阵而不失一般性。

基于分数的潜在变量因果模型因果发现

相似文章

基于互兼容性的双变量因果陈述评估

非线性时间序列中的函数值因果影响

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

反事实评估揭示临床大语言模型和智能体的隐藏能力画像

MOSAIC：通过稀疏可加可识别因果学习在科学时间序列中进行模块发现

提交意见反馈