提升因果推断
摘要
本文介绍了提升因果推断,利用参数化因果因子图高效计算关系域中的因果效应,并提出了提升因果推断(LCI)算法,用于多项式时间推断。
arXiv:2606.28024v1 公告类型:新
摘要:提升推理通过使用不可区分对象的代表来利用概率图模型中的不可区分性,从而在保持精确答案的同时加快查询回答速度。在本文中,我们展示了如何将提升方法应用于高效计算关系域中的因果效应。具体而言,我们引入参数化因果因子图(PCFGs)将因果知识融入提升模型,并给出其中干预的形式语义。我们进一步提出提升因果推断(LCI)算法,在提升层面上计算因果效应,从而相比于命题推断(例如在因果贝叶斯网络中)大幅加速因果推断。此外,我们提出部分有向参数化因果因子图(PD-PCFGs)作为PCFGs的推广,以处理部分因果知识,并将LCI扩展为在PD-PCFG中执行提升因果推断,从而将提升因果推断的适用性扩展到更广泛的模型,这些模型需要更少的关于因果关系的先验知识。
查看缓存全文
缓存时间: 2026/06/29 05:28
# 提升因果推断
来源:<https://arxiv.org/html/2606.28024> \[1,2\]\fnmMalte\surLuttermann 1\]\orgdiv人类中心人工智能研究所,\orgname汉堡大学,\orgaddress\city汉堡,\country德国 \[2\]\orgname德国人工智能研究中心 (DFKI),\orgaddress\city吕贝克,\country德国 3\]\orgdiv数据科学组,\orgname明斯特大学,\orgaddress\city明斯特,\country德国
###### 摘要
提升推理通过使用不可区分对象的代表来利用概率图模型中的不可区分性,从而在保持精确答案的同时加速查询回答。在本文中,我们展示了如何将提升应用于高效计算关系域中的因果效应。具体而言,我们引入了**参数化因果因子图**,将因果知识融入提升模型,并给出了其中干预的形式语义。我们还提出了**提升因果推断** (LCI) 算法,用于在提升层面计算因果效应,从而极大地加速因果推断(与命题层面的推断(例如因果贝叶斯网络)相比)。此外,我们提出了**部分有向参数化因果因子图**,作为PCFG的推广,用于处理部分因果知识,并将LCI扩展为在PD-PCFG中执行提升因果推断,从而将提升因果推断的适用范围扩展到更广泛的、对因果关系先验知识要求较少的模型。
###### 关键词:因果推断、提升、概率关系模型
## 1 引言
在人工智能研究领域中,智能体的一个基本问题是在关系域中规划并理性行动。为了在感知状态下计算最佳行动,智能体考虑可用的行动并选择能带来最大期望效用的行动。当计算作用于特定变量的行动期望效用时,部署干预语义而非对该变量的典型条件作用至关重要 [Pearl2009a, 第4章]。在计算干预效果时,特定变量被设置为固定值,并且对于特定查询,必须忽略该变量的所有入向概率因果影响。必须部署干预语义而非典型条件作用,才能正确确定行动的效果。否则,如果将行动视为证据(通过应用经典条件作用),结论可能会产生误导。例如,假设一个场景,火灾的严重程度会影响试图灭火的消防员数量,即火灾越严重,值班的消防员越多。经典条件作用会建议减少消防员数量以降低火灾严重程度(因为当观察到值班消防员数量较少时,严重火灾的概率较低)。
在本文中,我们将提升应用于高效计算关系域中的因果效应(因此也计算行动的正确效果),其中高效推理指的是推理时间相对于域大小呈多项式时间。近年来,因果模型已成为回答关于对随机变量进行干预的因果效应问题的广泛使用的形式体系。一个因果模型包括 (i) 表示所涉及随机变量之间因果关系的因果图,以及 (ii) 随机变量上的概率分布。
已有大量工作致力于在因果模型中进行因果效应估计,且大部分工作集中于命题模型 [Spirtes2000a, Pearl2009a, Pearl2016a, Peters2017a]。一些工作通过添加边方向扩展了命题(无向)因子图,使得能够计算干预的效果 [Frey2003a, Winn2012a]。Maier2013a 引入了所谓的关系因果模型,用于表示关系域内的因果依赖关系。他们的工作侧重于因果发现,即从观测数据中学习关系因果模型 [Maier2010a]。关系因果模型的进一步发展也侧重于因果发现和条件独立推理(例如,Lee2015a, Lee2016a, Lee2019a)。关系因果模型提供了一种提升表示(即忽略个别对象,从而忽略关系模型所有实例化的表示)来推理条件独立,然而,关系因果模型不支持提升因果推断。最近,关系因果模型也被扩展到覆盖循环依赖结构 [Ahsan2022a, Ahsan2023a]。先前处理关系域中因果效应估计的工作仍然应用命题概率推断 [Arbour2016a, Salimi2020a]。因此,缺乏在提升层面高效计算因果效应的算法。
在概率推断中,提升利用关系模型中的不可区分性,使得在保持精确答案的同时更高效地进行查询回答 [Niepert2014a]。Poole2003a 首次引入了参数化因子图和提升变量消元 (LVE),允许执行提升概率推断,从而显著加速关系域中的概率查询回答。随着时间的推移,LVE 被许多研究人员改进,达到了当前的形式 [DeSalvoBraz2005a, DeSalvoBraz2006a, Milch2008a, Kisynski2009a, Taghipour2013a, Braun2018a]。为了不仅对单个查询而且对查询集进行高效推断,Braun2016a 引入了提升联合树 (LJT) 算法。PFG 已经研究多年,并进一步发展以纳入随时间变化的概率推断 [Gehrke2018a, Gehrke2020a],以及其他扩展,如通过遵循最大期望效用原则进行决策 [Gehrke2018b, Gehrke2019c, Braun2022a]。马尔可夫逻辑网络是另一种提升表示,并且已扩展以纳入最大期望效用 [Apsel2012a]。在本文中,我们扩展 PFG 以实现提升因果推断,从而在提升层面正确确定行动的效果。
本文基于并扩展了 [Luttermann2024b] 和 [Luttermann2024g] 的工作。具体而言,我们将已引入的用于提升因果推断的模型和算法统一呈现,从而做出以下贡献:首先,我们给出了**因果因子图**的形式定义,作为 FG 的扩展,将因果知识融入到命题层面。然后,我们提供了由 Luttermann2024b 引入的全有向提升因果模型和由 Luttermann2024g 引入的部分有向提升因果模型的统一视图。特别地,我们揭示了这些模型与其相应算法之间的联系,以在其中执行提升因果推断。我们特别强调了两个模型在假设上的差异,并展示了这些假设如何影响其相应的推断算法。此外,我们统一了模型定义和算法描述,以保持术语一致性和清晰度。我们还扩展了全有向和部分有向提升因果模型的理论结果,并在一个完整运行示例中展示了所有概念。
本文的其余部分结构如下:在第 2 节中,我们介绍 CFG 并定义 CFG 中的干预概念,以便在其中(在命题层面)计算因果效应。然后,在第 3 节中,我们介绍 PCFG 作为 PFG 的扩展,并提供 PCFG 中干预的形式语义。通过将因果知识融入提升层面,PCFG 允许执行提升因果推断,从而利用干预概念在关系域中进行高效决策。接着,在第 4 节中,我们阐述在 PCFG 上运行的 LCI 算法,并展示 LCI 如何在提升层面计算因果效应,以尽可能避免将 PCFG 实例化。然后,我们在第 5 节中描述 PD-PCFG 作为 PCFG 的推广。之后,我们研究在存在未知因果关系的情况下如何在 PD-PCFG 中计算干预的效果。在第 6 节中,我们介绍扩展提升因果推断 (ELCI) 算法,作为 LCI 的推广,用于在 PD-PCFG 中高效计算因果效应,然后我们在第 7 节中总结本文。
## 2 因果因子图
与因果贝叶斯网络 (CBN) [Pearl1988a, Pearl2009a] 类似,CFG 是一种概率图模型,同时编码一组随机变量 R 上的概率分布以及 R 中随机变量之间的因果关系。如在非因果 FG [Frey1997a, Kschischang2001a] 中一样,全联合概率分布被编码为因子的乘积,其中每个因子是随机变量子集的函数。FG 和 CFG 之间的区别在于,CFG 包含有向边而不是无向边,以表示随机变量之间的因果关系。更具体地说,CFG 中从随机变量 Ri 到另一个随机变量 Rj 的有向边表示 Ri 是 Rj 的直接原因,因此 Ri 的值影响 Rj 的值 [Pearl2009a]。因此,在任何因果图中,随机变量的值取决于其父节点的值。接下来,我们基于 Frey2003a 给出的有向 FG 的定义,提供 CFG 的形式定义。下面,我们用 range(Ri) 表示随机变量 Ri 的取值范围,即 Ri 可能取值组成的集合。
###### 定义 1 (因果因子图). 我们将 *CFG* 定义为一个元组 M = (V, E, Φ),其中 (V, E) 是一个有向二分图,节点集 V = R ∪ F,边集 E ⊆ R × F,且 Φ 是一组函数定义。节点集 V 分为一组随机变量 R = {R1, ..., Rn}(变量节点)和一组函数名(因子节点)F = {f1, ..., fm}。每个函数名 fj ∈ F 都有一个函数定义(简称因子)φj(Rj) ∈ Φ,其中 φj : × R∈Rj range(R) ↦ R≥0 将 Rj(来自 R 的随机变量序列)的取值范围映射到非负实数(势)。对于每个函数定义,必须至少存在一个取值范围序列,其映射到的势非零。边集 E 包含两种类型的边。对于每个因子节点 fj ∈ F,其对应的函数定义为 φj(Rj),那么对于每个随机变量 Ri ∈ Rj,要么存在一条无向边 {Ri, fj} ∈ E,要么存在一条有向边 (fj, Ri) ∈ E。我们规定,对于每个因子节点 fj ∈ F,在与其关联的边中,恰好有一条出向有向边 (fj, Ri) ∈ E。从随机变量 Ri ∈ R 经由因子节点 fj ∈ F 到随机变量 Rk ∈ R 的有向边 {Ri, fj}, (fj → Rk) 对应 Ri 和 Rk 之间的直接因果关系。此外,M 必须是无环的,即 M 不包含任何有向环。
对于赋值 R = r,联合势定义为 CFG M 中所有因子的乘积:
ψM(R = r) = ∏_{j=1}^m φj(Rj = rj), (1)
其中 rj 是 r 在 φj 参数列表上的投影。
由 M 编码的 R 上的全联合概率分布 PM(R) 由归一化的联合势给出:
PM(R = r) = (1/Z) ψM(R = r), (2)
其中归一化常数 Z 定义为所有联合势之和:
Z = ∑_{r ∈ range(R1) × ... × range(Rn)} ψM(R = r). (3)
###### 例 1 (因果因子图). 考虑图 1(a) 中描绘的 CFG M = (V, E, Φ)。M 代表了三位员工 Alice、Bob 和 Charlie 的能力和薪水与他们所在公司营收之间的因果关系。底层的因果图如图 1(b) 所示。用集合表示,M 的图结构由 (V = R ∪ F, E) 给出,其中
R = {ComA, ComB, ComC, Rev, SalA, SalB, SalC},
F = {f1, f2, f3, f4, f5, f6, f7}, 且
E = {(f1, ComA), {ComA, f4}, {ComA, f5}, (f2, ComB), {ComB, f4}, {ComB, f6},
(f3, ComC), {ComC, f4}, {ComC, f7}, (f4, Rev), {Rev, f5}, {Rev, f6}, {Rev, f7},
(f5, SalA), (f6, SalB), (f7, SalC)}。
此外,函数定义集为
Φ = {φ1(ComA), φ2(ComB), φ3(ComC), φ4(ComA, ComB, ComC, Rev),
φ5(ComA, Rev, SalA), φ6(ComB, Rev, SalB), φ7(ComC, Rev, SalC)},
我们为了简洁省略了势表的具体规格。
[图1插图: (a) 一个CFG,建模三位员工Alice、Bob和Charlie的能力和薪水与营收之间的相互影响。]
[图1(b)插图:对应的因果图。]
(注意:原文中图1描述比较特殊,我们保留其结构,但翻译说明部分。由于我们是纯文本,无法显示图片,但我们可以保留引用。)
(翻译继续,但文章很长,我需要逐段翻译到结束。但用户只给出了开头部分?实际上用户给出了从标题到第2节开头的内容。我们继续翻译完用户提供的部分。)
注意:用户提供的文本在第2节示例1的公式后中断了?用户消息的结尾是:“Figure 1:\(a\) ACFGmodelling the interplay between the competences and salaries of three employeesAliceAlice,BobBob, andCharlieCharlie”。但后面还有更多内容吗?用户消息中似乎还有其他文本?让我们仔细看用户消息的结尾:
用户消息最后是:“Figure 1:\(a\) ACFGmodelling the interplay between the competences and salaries of three employeesAliceAlice,BobBob, andCharlieCharlie\)” 然后突然结束了?可能用户只提供了部分内容?但指令说“Translate the given markdown article content”,看起来用户给出了文章的完整开头部分,但可能因为截断?实际上用户消息中有很多内容,包括摘要、引言、第2节开头和示例。但示例的描述在“Figure 1:... Charlie”处结束。可能用户只希望翻译到此处?或者后面还有?用户消息中在“CharlieCharlie\)”之后没有更多字符了。但原文有“(b) ... Rev”等。可能用户粘贴不完整。我们只能根据提供的文本翻译。
为了保险,我们翻译用户提供的所有文本,直到“CharlieCharlie\)”那里。由于用户要求翻译整个文章,但给出的文本不完整,我们只翻译提供的部分。
另外,注意用户消息中有很多LaTeX命令和引用,我们需要保留这些格式,但将其中的英文内容翻译成中文。
最终回复应该只包含翻译后的markdown文本,没有额外注释。# 提升因果推断
来源:<https://arxiv.org/html/2606.28024> \[1,2\]\fnmMalte\surLuttermann 1\]\orgdiv人类中心人工智能研究所,\orgname汉堡大学,\orgaddress\city汉堡,\country德国 \[2\]\orgname德国人工智能研究中心 (DFKI),\orgaddress\city吕贝克,\country德国 3\]\orgname数据科学组,\orgname明斯特大学,\orgaddress\city明斯特,\country德国
###### 摘要
提升推理通过使用不可区分对象的代表来利用概率图模型中的不可区分性,从而在保持精确答案的同时加速查询回答。在本文中,我们展示了如何将提升应用于高效计算关系域中的因果效应。具体而言,我们引入了**参数化因果因子图**,将因果知识融入提升模型,并给出了其中干预的形式语义。我们还提出了**提升因果推断** (LCI) 算法,用于在提升层面计算因果效应,从而极大地加速因果推断(与命题层面的推断(例如因果贝叶斯网络)相比)。此外,我们提出了**部分有向参数化因果因子图**,作为PCFG的推广,用于处理部分因果知识,并将LCI扩展为在PD-PCFG中执行提升因果推断,从而将提升因果推断的适用范围扩展到更广泛的、对因果关系先验知识要求较少的模型。
###### 关键词:因果推断、提升、概率关系模型
## 1 引言
在人工智能研究领域中,智能体的一个基本问题是在关系域中规划并理性行动。为了在感知状态下计算最佳行动,智能体考虑可用的行动并选择能带来最大期望效用的行动。当计算作用于特定变量的行动期望效用时,部署干预语义而非对该变量的典型条件作用至关重要 [Pearl2009a, 第4章]。在计算干预效果时,特定变量被设置为固定值,并且对于特定查询,必须忽略该变量的所有入向概率因果影响。必须部署干预语义而非典型条件作用,才能正确确定行动的效果。否则,如果将行动视为证据(通过应用经典条件作用),结论可能会产生误导。例如,假设一个场景,火灾的严重程度会影响试图灭火的消防员数量,即火灾越严重,值班的消防员越多。经典条件作用会建议减少消防员数量以降低火灾严重程度(因为当观察到值班消防员数量较少时,严重火灾的概率较低)。
在本文中,我们将提升应用于高效计算关系域中的因果效应(因此也计算行动的正确效果),其中高效推理指的是推理时间相对于域大小呈多项式时间。近年来,因果模型已成为回答关于对随机变量进行干预的因果效应问题的广泛使用的形式体系。一个因果模型包括 (i) 表示所涉及随机变量之间因果关系的因果图,以及 (ii) 随机变量上的概率分布。
已有大量工作致力于在因果模型中进行因果效应估计,且大部分工作集中于命题模型 [Spirtes2000a, Pearl2009a, Pearl2016a, Peters2017a]。一些工作通过添加边方向扩展了命题(无向)因子图,使得能够计算干预的效果 [Frey2003a, Winn2012a]。Maier2013a 引入了所谓的关系因果模型,用于表示关系域内的因果依赖关系。他们的工作侧重于因果发现,即从观测数据中学习关系因果模型 [Maier2010a]。关系因果模型的进一步发展也侧重于因果发现和条件独立推理(例如,Lee2015a, Lee2016a, Lee2019a)。关系因果模型提供了一种提升表示(即忽略个别对象,从而忽略关系模型所有实例化的表示)来推理条件独立,然而,关系因果模型不支持提升因果推断。最近,关系因果模型也被扩展到覆盖循环依赖结构 [Ahsan2022a, Ahsan2023a]。先前处理关系域中因果效应估计的工作仍然应用命题概率推断 [Arbour2016a, Salimi2020a]。因此,缺乏在提升层面高效计算因果效应的算法。
在概率推断中,提升利用关系模型中的不可区分性,使得在保持精确答案的同时更高效地进行查询回答 [Niepert2014a]。Poole2003a 首次引入了参数化因子图和提升变量消元 (LVE),允许执行提升概率推断,从而显著加速关系域中的概率查询回答。随着时间的推移,LVE 被许多研究人员改进,达到了当前的形式 [DeSalvoBraz2005a, DeSalvoBraz2006a, Milch2008a, Kisynski2009a, Taghipour2013a, Braun2018a]。为了不仅对单个查询而且对查询集进行高效推断,Braun2016a 引入了提升联合树 (LJT) 算法。PFG 已经研究多年,并进一步发展以纳入随时间变化的概率推断 [Gehrke2018a, Gehrke2020a],以及其他扩展,如通过遵循最大期望效用原则进行决策 [Gehrke2018b, Gehrke2019c, Braun2022a]。马尔可夫逻辑网络是另一种提升表示,并且已扩展以纳入最大期望效用 [Apsel2012a]。在本文中,我们扩展 PFG 以实现提升因果推断,从而在提升层面正确确定行动的效果。
本文基于并扩展了 [Luttermann2024b] 和 [Luttermann2024g] 的工作。具体而言,我们将已引入的用于提升因果推断的模型和算法统一呈现,从而做出以下贡献:首先,我们给出了**因果因子图**的形式定义,作为 FG 的扩展,将因果知识融入到命题层面。然后,我们提供了由 Luttermann2024b 引入的全有向提升因果模型和由 Luttermann2024g 引入的部分有向提升因果模型的统一视图。特别地,我们揭示了这些模型与其相应算法之间的联系,以在其中执行提升因果推断。我们特别强调了两个模型在假设上的差异,并展示了这些假设如何影响其相应的推断算法。此外,我们统一了模型定义和算法描述,以保持术语一致性和清晰度。我们还扩展了全有向和部分有向提升因果模型的理论结果,并在一个完整运行示例中展示了所有概念。
本文的其余部分结构如下:在第 2 节中,我们介绍 CFG 并定义 CFG 中的干预概念,以便在其中(在命题层面)计算因果效应。然后,在第 3 节中,我们介绍 PCFG 作为 PFG 的扩展,并提供 PCFG 中干预的形式语义。通过将因果知识融入提升层面,PCFG 允许执行提升因果推断,从而利用干预概念在关系域中进行高效决策。接着,在第 4 节中,我们阐述在 PCFG 上运行的 LCI 算法,并展示 LCI 如何在提升层面计算因果效应,以尽可能避免将 PCFG 实例化。然后,我们在第 5 节中描述 PD-PCFG 作为 PCFG 的推广。之后,我们研究在存在未知因果关系的情况下如何在 PD-PCFG 中计算干预的效果。在第 6 节中,我们介绍扩展提升因果推断 (ELCI) 算法,作为 LCI 的推广,用于在 PD-PCFG 中高效计算因果效应,然后我们在第 7 节中总结本文。
## 2 因果因子图
与因果贝叶斯网络 (CBN) [Pearl1988a, Pearl2009a] 类似,CFG 是一种概率图模型,同时编码一组随机变量 R 上的概率分布以及 R 中随机变量之间的因果关系。如在非因果 FG [Frey1997a, Kschischang2001a] 中一样,全联合概率分布被编码为因子的乘积,其中每个因子是随机变量子集的函数。FG 和 CFG 之间的区别在于,CFG 包含有向边而不是无向边,以表示随机变量之间的因果关系。更具体地说,CFG 中从随机变量 Ri 到另一个随机变量 Rj 的有向边表示 Ri 是 Rj 的直接原因,因此 Ri 的值影响 Rj 的值 [Pearl2009a]。因此,在任何因果图中,随机变量的值取决于其父节点的值。接下来,我们基于 Frey2003a 给出的有向 FG 的定义,提供 CFG 的形式定义。下面,我们用 range(Ri) 表示随机变量 Ri 的取值范围,即 Ri 可能取值组成的集合。
###### 定义 1 (因果因子图). 我们将 *CFG* 定义为一个元组 M = (V, E, Φ),其中 (V, E) 是一个有向二分图,节点集 V = R ∪ F,边集 E ⊆ R × F,且 Φ 是一组函数定义。节点集 V 分为一组随机变量 R = {R1, ..., Rn}(变量节点)和一组函数名(因子节点)F = {f1, ..., fm}。每个函数名 fj ∈ F 都有一个函数定义(简称因子)φj(Rj) ∈ Φ,其中 φj : × R∈Rj range(R) ↦ R≥0 将 Rj(来自 R 的随机变量序列)的取值范围映射到非负实数(势)。对于每个函数定义,必须至少存在一个取值范围序列,其映射到的势非零。边集 E 包含两种类型的边。对于每个因子节点 fj ∈ F,其对应的函数定义为 φj(Rj),那么对于每个随机变量 Ri ∈ Rj,要么存在一条无向边 {Ri, fj} ∈ E,要么存在一条有向边 (fj, Ri) ∈ E。我们规定,对于每个因子节点 fj ∈ F,在与其关联的边中,恰好有一条出向有向边 (fj, Ri) ∈ E。从随机变量 Ri ∈ R 经由因子节点 fj ∈ F 到随机变量 Rk ∈ R 的有向边 {Ri, fj}, (fj → Rk) 对应 Ri 和 Rk 之间的直接因果关系。此外,M 必须是无环的,即 M 不包含任何有向环。
对于赋值 R = r,联合势定义为 CFG M 中所有因子的乘积:
ψM(R = r) = ∏_{j=1}^m φj(Rj = rj), (1)
其中 rj 是 r 在 φj 参数列表上的投影。
由 M 编码的 R 上的全联合概率分布 PM(R) 由归一化的联合势给出:
PM(R = r) = (1/Z) ψM(R = r), (2)
其中归一化常数 Z 定义为所有联合势之和:
Z = ∑_{r ∈ range(R1) × ... × range(Rn)} ψM(R = r). (3)
###### 例 1 (因果因子图). 考虑图 1(a) 中描绘的 CFG M = (V, E, Φ)。M 代表了三位员工 Alice、Bob 和 Charlie 的能力和薪水与他们所在公司营收之间的因果关系。底层的因果图如图 1(b) 所示。用集合表示,M 的图结构由 (V = R ∪ F, E) 给出,其中
R = {ComA, ComB, ComC, Rev, SalA, SalB, SalC},
F = {f1, f2, f3, f4, f5, f6, f7}, 且
E = {(f1, ComA), {ComA, f4}, {ComA, f5}, (f2, ComB), {ComB, f4}, {ComB, f6},
(f3, ComC), {ComC, f4}, {ComC, f7}, (f4, Rev), {Rev, f5}, {Rev, f6}, {Rev, f7},
(f5, SalA), (f6, SalB), (f7, SalC)}。
此外,函数定义集为
Φ = {φ1(ComA), φ2(ComB), φ3(ComC), φ4(ComA, ComB, ComC, Rev),
φ5(ComA, Rev, SalA), φ6(ComB, Rev, SalB), φ7(ComC, Rev, SalC)},
我们为了简洁省略了势表的具体规格。
图 1:(a) 一个 CFG,建模三位员工 Alice、Bob 和 Charlie 的能力和薪水与营收之间的相互影响。相似文章
基于反事实链和因果图的LLM可解释性
本文提出了一种四阶段方法,用于构建建模LLM推理过程的因果图,利用反事实增强实现稳定的因果发现,并提供透明、概念级的可解释性。
CausaLab: 面向AI科学家的可扩展交互式因果发现环境
CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。
信念还是电路?上下文图学习的因果证据
本文使用主成分分析(PCA)和激活补丁等机制可解释性方法,在一个图随机游走任务上探究了大型语言模型是通过潜在结构推断还是局部模式匹配来进行上下文学习。
PACER: 从大规模干预数据中进行无环因果发现
PACER 是一个新的可扩展框架,用于从大规模干预数据中进行因果发现,其设计保证了无环性,在包含数千个变量的基准测试中,比基于惩罚的方法实现了高达两个数量级的加速。
关系结构因果模型
本文介绍了关系结构因果模型,将结构因果模型扩展到具有变化对象和关系的场景。它提供了识别的理论结果,并提出了关系神经因果模型,该模型在模拟交通场景中的表现优于非关系基线方法。