在模拟复杂系统上验证因果抽象度量
摘要
本文介绍了一个包含十个复杂系统的基准,用于验证因果抽象度量,评估了三十多个候选度量,并提出了因果抽象误差(CAE)作为一种通用的有效性度量,能够可靠地区分有效与无效的解释。
arXiv:2607.00267v1 Announce Type: new
摘要:科学的一个核心目标是产生对复杂系统的有效解释:即忠实反映低层机制行为的高层因果描述。然而,对于如何衡量所提出的高层解释是否真正有效,目前尚无共识。我们引入了一个包含十个复杂系统的基准,涵盖离散和连续状态空间以及静态和动态系统,每个系统都配有共识性的真实因果解释和无效对比条件。在一个统一的因果抽象框架内,我们系统评估了来自观测、函数、信息论和因果家族的三十多个候选度量。结果表明,只有后者能够可靠区分有效与无效的抽象,并且只有在包含对未映射变量的忠实性测试时才能做到。基于这些发现,我们提出了因果抽象误差(CAE),这是一种带有显式忠实性测试的连续有效性度量,它在每个系统中的所有区分测试中均通过,并且可以仅通过30次采样干预就收敛。我们将其作为发现和验证高层解释的通用度量。
查看缓存全文
缓存时间: 2026/07/02 05:37
# 在模拟复杂系统上验证因果抽象指标
来源:https://arxiv.org/html/2607.00267
Maxime Méloux¹¹,Tiago Pimentel²,François Portet¹,Maxime Peyrard¹
¹ 格勒诺布尔阿尔卑斯大学,CNRS,格勒诺布尔INP,LIG
² 苏黎世联邦理工学院
\{melouxm, portetf, peyrardm\}@univ-grenoble-alpes.fr
[email protected]
###### 摘要
科学的一个核心目标是产生对复杂系统的有效解释:这些高层次的因果解释应忠实地反映底层机制的行为。然而,关于如何衡量所提出的高层次解释是否有效,目前尚无共识。我们引入了一个基准测试,包含十个复杂系统,涵盖离散和连续状态空间,以及静态和动态机制,每个系统都配备了公认的基准真实因果解释和无效的对比条件。在统一的因果抽象框架内,我们系统评估了来自观察、函数、信息论和因果家族的三十多个候选指标。我们的结果表明,只有后者能够可靠地区分有效和无效的抽象,并且只有在结合对未映射变量的忠实性测试时才能做到。基于这些发现,我们引入了因果抽象误差(CAE),这是一个带有显式忠实性测试的连续有效性指标,它在每个系统的所有判别测试中都通过了,并且可以仅用30次采样干预就收敛。我们将其作为发现和验证高层次解释的通用指标。
## 1 引言
科学的一个核心目标是产生解释:不仅仅是描述或预测,而是关于*为什么*现象会发生的原因 (Hempel,1965 (https://arxiv.org/html/2607.00267#bib.bib113); Woodward,2004 (https://arxiv.org/html/2607.00267#bib.bib153))。尽管科学哲学长期以来一直在争论解释是什么,但围绕几个核心必要条件已经形成了工作共识:好的科学解释应该具有因果信息 (Woodward,2004 (https://arxiv.org/html/2607.00267#bib.bib153); Pearl,2009 (https://arxiv.org/html/2607.00267#bib.bib157); Salmon,1984 (https://arxiv.org/html/2607.00267#bib.bib154))、简洁 (Kitcher,1989 (https://arxiv.org/html/2607.00267#bib.bib114); Batterman and Rice,2014 (https://arxiv.org/html/2607.00267#bib.bib155)),并且范围应适当,以符合目标现象最佳表征的上下文和描述层次 (Lombrozo,2006 (https://arxiv.org/html/2607.00267#bib.bib145); Potochnik,2017 (https://arxiv.org/html/2607.00267#bib.bib143))。当研究的系统表现出 Warren Weaver 所称的“有组织的复杂性”时 (Weaver,1991 (https://arxiv.org/html/2607.00267#bib.bib144)),寻找好的解释尤其困难:这些系统有许多相互作用的部分,既非无序到可以接受统计平均,也非简单到可以直接分析处理。解释所需的适当高层次变量必须被发现,而将低层次量合法地聚合成这些变量的函数类别本身就是一个研究课题 (Hoel et al.,2013 (https://arxiv.org/html/2607.00267#bib.bib110); Potochnik,2017 (https://arxiv.org/html/2607.00267#bib.bib143))。这提出了一个基本挑战:什么是有用的高层次变量?它们应该如何从低层次量中定义?
研究不同类型复杂系统的不同领域各自发展了自己的候选答案,例如系统神经科学中的发放率和群体编码 (Cunningham and Yu,2014 (https://arxiv.org/html/2607.00267#bib.bib109)),或生态学中的物种丰度和营养级 (Loreau,2010 (https://arxiv.org/html/2607.00267#bib.bib108))。然而,一个统一的跨学科方法来评估复杂系统的高层次解释仍然难以捉摸。Jonas and Kording (2017 (https://arxiv.org/html/2607.00267#bib.bib178)) 提供了一个令人清醒的例证:他们将神经科学的标准因果和统计工具包应用到一个完全可观察的微处理器——一个为模块化、分层组织而设计的相对简单的系统——但未能恢复该系统有意义的高层次属性。
人工智能(AI)近期的成功提供了类似的情况。与现代微处理器类似,现代AI系统在结构上是复杂的,但它们完全可观察且可完美操控,这在自然科学中是一种罕见的特性。这种特权性的认知访问使AI系统成为复杂系统科学的方法论实验室 (Holtzman et al.,2025 (https://arxiv.org/html/2607.00267#bib.bib258)),用于在简化环境中开发和测试解释发现程序。然而,AI可解释性也令人清醒,它倾向于产生大量假阳性发现以及不稳定且不可泛化的解释 (Hewitt and Liang,2019 (https://arxiv.org/html/2607.00267#bib.bib255); Ravichander et al.,2021 (https://arxiv.org/html/2607.00267#bib.bib172); Méloux et al.,2025a (https://arxiv.org/html/2607.00267#bib.bib214))。
因此,一个用于评估对低层复杂系统提出的高层次解释的通用指标是前进的先决条件:没有它,候选解释的发现和评估就无法严格进行,而进步也很难衡量或跨领域转移。然而,目前还没有这样一个公认的通用指标。
越来越多的研究开始通过“因果抽象”的视角来解决这一差距 (Beckers and Halpern,2019 (https://arxiv.org/html/2607.00267#bib.bib70)),其核心思想是:如果在假设的抽象映射下,高层次干预能忠实地对应低层次干预,那么高层次的因果模型就是低层系统的有效解释。这个框架在概念上很有吸引力且前景广阔,但现有实现存在重要差异:它们是将抽象视为精确还是近似的 (Beckers et al.,2020 (https://arxiv.org/html/2607.00267#bib.bib71)),以及它们如何处理输入分布或干预分布 (Geiger et al.,2021 (https://arxiv.org/html/2607.00267#bib.bib275),2025 (https://arxiv.org/html/2607.00267#bib.bib254))。当前在AI可解释性领域开发的具体指标实现也被证明存在明显的假阳性和不可泛化发现的全局性问题 (Sutter et al.,2025 (https://arxiv.org/html/2607.00267#bib.bib62); Méloux et al.,2025a (https://arxiv.org/html/2607.00267#bib.bib214))。
在这项工作中,**我们着手系统测试、比较和基准化**一系列广泛的提议解释指标——包括观察的、信息论的、符号的和因果的——这些指标应用于一组多样化的、具有已知且共识性高层解释的理想化复杂系统。我们并非局限于单一领域,而是有意跨越在多个维度上变化的系统:(i) 离散与连续状态空间;(ii) 静态与时间动态;(iii) 无序与结构化复杂性(按照Weaver的定义)。对于每个系统,我们手动构建将低层变量映射到高层变量的对齐函数,在共享的概念形式主义(因果抽象)和统一的编程API(支持观察和干预查询)中实现所有配对。最后,我们手工制作对比性扰动——对低层或高层模型的修改,使提出的解释变得无效——从而允许我们测试每个候选指标是否正确识别出已破坏的解释以及有效的解释。这是对现有概念思想实际运作化的一个实证测试。
我们的结果为因果抽象研究计划提供了强有力的支持,但仅限于特定的分布变体。我们进一步引入了因果抽象误差(CAE),这是一个包含对分布输入和干预进行原则性处理、内置忠实性测量的误差度量,并产生一个实值违反程度分数。**CAE** 在我们检查的每个系统类别中通过了所有对比测试,并且优于相关的因果抽象变体。
## 2 解释有效性的指标
遵循Pearl (2009 (https://arxiv.org/html/2607.00267#bib.bib157)) 和 Beckers and Halpern (2019 (https://arxiv.org/html/2607.00267#bib.bib70)) 的框架,我们将所研究的系统建模为一个*结构因果模型*(SCM)。Dyer et al. (2024 (https://arxiv.org/html/2607.00267#bib.bib156)) 之前采用了Pearl的建模假设,即模拟的复杂系统属于这一类。
###### 定义 2.1 (结构因果模型)
一个结构因果模型是一个元组 \( \mathcal{M} = \langle \mathcal{U}, \mathcal{V}, \mathcal{R}, \mathcal{F}, P_{\mathcal{U}} \rangle \),其中 \(\mathcal{U}\) 是一组*外生*变量,具有联合分布 \(P_{\mathcal{U}}\);\(\mathcal{V}\) 是一组*内生*变量;\(\mathcal{R} = \{ \mathcal{R}_{W} \}_{W \in \mathcal{U} \cup \mathcal{V}}\) 为每个变量分配一个范围;\(\mathcal{F} = \{ f_{V} \}_{V \in \mathcal{V}}\) 是一组*结构方程*,每个方程从它的直接原因 \(\mathrm{Pa}(V) \subseteq \mathcal{V}\) 和一个噪声项 \(\mathcal{U}_{V} \subseteq \mathcal{U}\) 确定 \(V\)。对于任意子集 \(\mathcal{W} \subseteq \mathcal{U} \cup \mathcal{V}\),我们用 \(\mathcal{R}_{\mathcal{W}}\) 表示其联合范围。我们用 \(\mathcal{M}(\mathcal{W} \mid u, \mathrm{do})\) 表示在外生实现 \(u \in \mathcal{R}_{\mathcal{U}}\) 和干预 \(\mathrm{do}\)(空 \(\mathrm{do}\) 表示观察情况)下,变量 \(\mathcal{W} \subseteq \mathcal{V}\) 在 \(\mathcal{M}\) 中取得的联合值;对于单个变量 \(V\),我们缩写为 \(\mathcal{M}(V \mid u, \mathrm{do})\)。对于确定性模型,我们省略 \(u\) 上的空依赖关系。
一个*计算解释*是一个从某个可接受类 \(\mathfrak{E}\) 中取出的替代模型 \(\mathcal{E}\),旨在在相关的抽象层次上解释 \(\mathcal{M}\) 的行为。本文研究的核心问题是:*在什么条件下,\(\mathcal{E}\) 是在分布 \(P_{\mathcal{U}}\) 下 \(\mathcal{M}\) 的一个有效计算解释?*
对于这个问题,已经提出了截然不同的答案。我们在此简要讨论我们评估的那些答案,并在附录B (https://arxiv.org/html/2607.00267#A2) 中提供更深入的描述。
#### 观察有效性。
最基础的标准是*观察等价性*:\(\mathcal{E}\) 应能再现 \(\mathcal{M}\) 在*自然输入分布*下的可测量输出。对于确定性设置,这通过逐点差异度量来操作化,包括 MSE、RMSE、\(L^2\) 及其归一化变体 NMSE,以及确定系数 \(R^2\) (Koza,1994 (https://arxiv.org/html/2607.00267#bib.bib244); Ljung,1999 (https://arxiv.org/html/2607.00267#bib.bib232))。复杂度正则化的变体如 AIC (Akaike,1974 (https://arxiv.org/html/2607.00267#bib.bib242))、BIC (Schwarz,1978 (https://arxiv.org/html/2607.00267#bib.bib241))、MDL (Rissanen,1978 (https://arxiv.org/html/2607.00267#bib.bib231)) 和 Mallows’ \(C_{p}\) (Mallows,1973 (https://arxiv.org/html/2607.00267#bib.bib25); Lee and Ghosh,2009 (https://arxiv.org/html/2607.00267#bib.bib223)) 对解释的复杂性进行惩罚以防止过拟合。当 \(\mathcal{M}\) 是随机的时,分布相似性通过诸如 KL 散度、对称 JS 散度或基于核的 MMD (Gretton et al.,2012 (https://arxiv.org/html/2607.00267#bib.bib29)) 等度量来衡量;HSIC (Gretton et al.,2005 (https://arxiv.org/html/2607.00267#bib.bib26)) 可以进一步测试解释的残差是否与输入独立,探查全局一致性。对于动态系统,有效性必须在整个轨迹上成立:我们评估轨迹 MSE、动态时间规整 (DTW; Sakoe and Chiba,1978 (https://arxiv.org/html/2607.00267#bib.bib28))、时间自相关匹配和频谱分析 (Percival and Walden,1993 (https://arxiv.org/html/2607.00267#bib.bib27))。最后,我们还考虑了符号回归方法,如 SINDy 评估器 (Brunton et al.,2016 (https://arxiv.org/html/2607.00267#bib.bib116)),它通过观测状态导数上其控制方程的残差来评分解释。
所有观察标准都有一个根本局限,称为*等效性* (Valogianni and Padmanabhan,2022 (https://arxiv.org/html/2607.00267#bib.bib100); Collins et al.,2024 (https://arxiv.org/html/2607.00267#bib.bib101)):不同的机制在观察上可能无法区分,所产生的解释通常不能泛化 (Ghorbani et al.,2019 (https://arxiv.org/html/2607.00267#bib.bib213); Kindermans et al.,2019 (https://arxiv.org/html/2607.00267#bib.bib211); Méloux et al.,2025b (https://arxiv.org/html/2607.00267#bib.bib215))。
#### 函数有效性。
函数标准要求 \(\mathcal{E}\) 额外再现 \(\mathcal{M}\) 的*输入-输出响应轮廓*。通过 ANOVA 或 Sobol 灵敏度指数 (Sobol’,2001 (https://arxiv.org/html/2607.00267#bib.bib9)) 进行的*方差分解*将输出方差分解为每个输入的贡献和交互作用,有效性要求高层模型 \(\mathcal{E}\) 和低层模型 \(\mathcal{M}\) 的指数一致。在局部层面,infidelity 度量 (Yeh et al.,2019 (https://arxiv.org/html/2607.00267#bib.bib187)) 经过两模型设置的调整,测量 \(\mathcal{E}\) 和 \(\mathcal{M}\) 是否在其每个输入的归因向量上一致。这取代了原始的单模型归因公式,转而使用两模型灵敏度比较,以 \(\mathcal{E}\) 本身作为局部线性近似。LIME (Ribeiro et al.,2016 (https://arxiv.org/html/2607.00267#bib.bib177)) 和 SHAP (Lundberg and Lee,2017 (https://arxiv.org/html/2607.00267#bib.bib180)) 可以被理解为此概念的代理。全局上,关系保真度 (Collins et al.,2024 (https://arxiv.org/html/2607.00267#bib.bib101)) 要求所有输入对上的输出差异保持一致,确保 \(\mathcal{E}\) 保留了 \(\mathcal{M}\) 的函数几何。然而,函数标准仍然不涉及内部机制。
#### 信息论和表征有效性。
第三类标准要求 \(\mathcal{E}\) 再现 \(\mathcal{M}\) 的表征结构。这可以通过表征相似性分析来衡量 (Kriegeskorte et al.,2008 (https://arxiv.org/html/2607.00267#bib.bib271))。类似地,*探测准确率* (Alain and Bengio,2018 (https://arxiv.org/html/2607.00267#bib.bib186); Pimentel et al.,2020 (https://arxiv.org/html/2607.00267#bib.bib257)) 衡量 \(\mathcal{E}\) 所假定的变量是否可以从 \(\mathcal{M}\) 的内部状态中解码。*信息瓶颈* (IB) 拉格朗日量 (Tishby et al.,2000 (https://arxiv.org/html/2607.00267#bib.bib121)) 将有效表征描述为达到最优压缩-相关性权衡的表征。*复杂度漂移* (Zenil et al.,2019 (https://arxiv.org/html/2607.00267#bib.bib225)) 衡量 \(\mathcal{E}\) 是否在扰动下引起可比较的变换,通过 Kolmogorov 复杂度来评估。这些标准捕捉了*什么*信息存在,但不捕捉信息*如何*被因果转换 (Elazar et al.,2021 (https://arxiv.org/html/2607.00267#bib.bib4相似文章
基于互兼容性的双变量因果陈述评估
本文提出了兼容性和不兼容性分数,用于评估双变量因果陈述集合,无需依赖忠实性假设,并通过分析大型语言模型的因果主张展示了其实用性。
基准测试未衡量的:论自主智能体弃权能力的评估
本文认为,目前的自主智能体基准测试未能评估智能体是否应该继续执行任务,从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法,以及新的评估协议(Safety Rate, Usability Rate, Informed Refusal Rate),初步结果显示,不同模型家族的安全性与可用性之间存在可调节的权衡。
反事实评估揭示临床大语言模型和智能体的隐藏能力画像
本文介绍了因果敏感性得分(CSS),一种干预性指标,用于评估临床大语言模型和智能体在患者输入沿临床意义维度变化时,是否适当地更新其建议。该指标揭示了标准覆盖度指标未能捕捉的隐藏能力画像,暴露了安全盲点和结构性响应能力缺陷。
$ECUAS_n$: 用于原则性评估不确定性增强系统的度量族
本文提出一个称为ECUAS_n的度量族,用于原则性评估输出预测和不确定性分数的不确定性增强系统。作者认为现有的评估方法不充分,并将这些度量构建为不确定性下决策的恰当评分规则。
CausaLab: 面向AI科学家的可扩展交互式因果发现环境
CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。