ReplaySCM：基于干预数据执行因果机制归纳的基准测试

arXiv cs.LG 2026/05/12 04:00 论文

摘要

本文介绍了 ReplaySCM，这是一个旨在评估语言模型从干预证据中归纳可执行因果机制能力的基准测试，重点关注语义重放行为而非语法匹配。

arXiv:2605.08197v1 公告类型：新论文摘要：大多数针对语言模型的因果基准测试仅对局部答案或图结构进行评分。我们引入了 ReplaySCM，这是一个包含 1,300 个项目的基准测试，用于评估从有限的干预证据中归纳可执行因果机制的能力。每个项目包含由潜在的全观测无环布尔结构因果模型（SCM）生成的二元世界。系统必须在一个受限的布尔领域特定语言（DSL）中输出机制映射；提交内容将被解析，检查其合法性和无环性，并在训练数据和预留的干预世界中进行重放。评分基于重放行为而非公式字符串，因此当不同语法结构的机制表现正确时，它们也能获得认可。ReplaySCM 通过有序（Ordered）、块有序（Block-order）、隐藏有序（Hidden-order）和隐藏根节点（Hidden-roots）设置，变化向模型披露的结构信息量，并包含替代 SCM（Alternative-SCM）任务，这些任务提供有效的参考 SCM，并要求找到一个与训练数据世界相符且在语义上不同的替代方案，同时提供区分性干预和见证者。前沿大型语言模型能够推断出部分功能-父节点结构，但当顺序或根节点结构被隐藏时，预留数据的重放性能急剧下降。我们还评估了一个匹配的支持审计阶梯：原始（Original）、额外世界（Extra Worlds）和反例审计（Counterexample Audit, CEx），这将平均局部前驱模式覆盖率从 0.8949 提升至 0.9815，再提升至 1.0；在受审计的搜索下，未发现任何发现的语义替代方案与训练世界保持一致。在这种更强有力的证据下，有序/隐藏有序之间的差距依然存在。ReplaySCM 补充了答案级因果推理和图发现基准测试，通过评估从有限干预证据中执行重放泛化能力，而不声称能唯一识别潜在的 SCM。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:02

# ReplaySCM：一个基于干预的可执行因果机制归纳基准

来源: https://arxiv.org/html/2605.08197

###### 摘要

大多数针对语言模型的因果基准测试仅对局部答案或图结构进行评分。我们引入了 ReplaySCM，这是一个包含 1,300 个项目的基准测试，旨在从有限的干预证据中归纳可执行的因果机制。每个项目包含由潜在的全观测无环布尔结构因果模型（SCM）生成的二元世界。系统必须输出一个受限布尔领域特定语言（DSL）中的机制映射；提交内容经过解析，检查其合法性和无环性，并在训练及保留的干预世界中进行重放。评分基于重放行为而非公式字符串，因此当不同语法形式的机制行为正确时均会获得信用。ReplaySCM 通过有序（Ordered）、块序（Block-order）、隐藏序（Hidden-order）和隐藏根（Hidden-roots）设置，变化向模型披露的结构信息量，并包含替代 SCM 任务，这些任务提供一个有效的参考 SCM，并要求寻找一个语义上不同但符合训练世界的替代方案，同时提供一个分离干预和见证者。前沿 LLM 能够推断出部分功能-父节点结构，但当顺序或根结构被隐藏时，保留集的重放性能急剧下降。我们还评估了一个匹配的支持审计阶梯——原始（Original）、额外世界（Extra Worlds）和反例审计（Counterexample Audit, CEx），它将平均局部前驱模式覆盖率从 0.8949 提高到 0.9815，进而达到 1.0；在审计后的搜索中，没有发现的语义替代方案与训练世界保持一致。即使在这种更强的证据下，有序/隐藏序之间的差距依然存在。ReplaySCM 通过评估从有限干预证据中得出的可执行重放泛化能力，补充了答案级因果推理和图发现基准，而并不声称对潜在 SCM 进行唯一识别。

ReplaySCM：一个基于干预的可执行因果机制归纳基准
Serafim Batzoglou
[email protected]

## 1 引言

最近针对语言模型的因果基准测试通常对局部输出进行评分：对因果问题的回答、预测的反事实值、图边或书面解释。这些任务很有用，但它们并未阐明系统能否输出一个因果模型，该模型能否在新的干预下被重用。我们引入了 ReplaySCM，这是一个包含 1,300 个项目的基准测试，旨在受控布尔设置下，从有限的干预证据中归纳可执行的因果机制。结构因果模型（SCMs）是这种评估的自然目标，因为它们在单一形式对象中表示机制和干预（Pearl, 2009）。

ReplaySCM 使用小型、有限、二元、全观测、无环的 SCM，其内生机制为布尔表达式。ReplaySCM 要求输出一个受限布尔 DSL 中的机制映射。评估器解析该映射，检查其合法性和无环性，并在训练和保留的干预世界中重放它。评分是语义性的：公式因其重放行为而获得信用，独立于其文本形式。

该基准围绕同一潜在 SCM 的匹配版本组织。一个揭示结构阶梯变化告知模型的信息：有序（Ordered）提供完整的拓扑顺序，块序（Block-order）仅提供粗略的优先块，隐藏序（Hidden-order）隐藏内生顺序，隐藏根（Hidden-roots）还隐藏根集。两个替代 SCM 任务（有序和隐藏序）提供一个有效的参考 SCM，并要求返回一个语义上不同的替代方案，附带分离干预和见证者。额外世界和反例审计（CEx）任务（有序和隐藏序）逐步增加训练世界以减少有限证据的歧义性。在 CEx 中，从 LLM 输出、符号精确搜索或 50 种子 bnlearn+DSL 搜索中发现的任何语义替代方案都不再符合训练世界。匹配的揭示结构设置在相同的潜在 SCM 上隔离了披露信息；CEx 在审计歧义性的同时保留潜在 SCM 和保留世界。

我们评估了前沿 LLM，并包含两个非 LLM 校准行。在这些比较中，经验结果是一致的。前沿 LLM 通常能推断出一些功能-父节点关系，但精确的可执行重放仍然困难，尤其是在顺序或根被隐藏时。在完全拟合所有训练世界的响应中，保留集重放率要高得多，而在训练世界失败的响应中，很少能重放所有保留世界。在替代 SCM 中提供有效 SCM 显著提高了性能，表明使用提供的因果对象进行局部编辑比从干预世界中推断该对象更容易。有序/隐藏序的差距在额外世界和 CEx 设置中持续存在。

**贡献。** 我们做出四点贡献。首先，我们引入了从干预中归纳可执行 SCM 作为公开发布的基准，通过训练和保留世界的精确重放进行评估。其次，我们将基准组织为匹配的揭示结构阶梯——有序、块序、隐藏序和隐藏根，以及替代 SCM，从而将使用提供的 SCM 进行推理与隐藏结构推断分开。第三，我们构建了一个生成器，过滤掉琐碎的捷径，并通过支持过滤器、捷径检查、有界审计和三级匹配支持审计阶梯（原始、额外世界和反例审计 CEx）跟踪残余歧义性。第四，我们在共享评估器下对标前沿 LLM，并使用两个非 LLM 基线来校准可执行机制归纳的难度。我们发布了基准实例、提示导出和评分代码、重放和验证脚本以及用于复现报告评估的文档等公共工件。

## 2 相关工作

针对语言模型的因果推理基准主要评估局部输出：常识因果判断、干预问题、反事实答案或图级预测。代表性例子包括 COPA, WIQA, Corr2Cause, CLadder, CounterBench, ExpliCa, CausalFlip, CausalGraphBench 和 CausalGraph2LLM（Roemmele et al., 2011; Tandon et al., 2019; Jin et al., 2024, 2023; Chen et al., 2025; Miliani et al., 2025; Wang et al., 2026; Babakov et al., 2025; Sheth et al., 2025）。ReplaySCM 的不同之处在于目标对象：它通过对干预下的重放来评分完整可执行的 SCM。

ReplaySCM 直接关联到经典的因果发现、干预结构学习、布尔网络推断、归纳逻辑编程和程序合成。基于约束、基于评分、干预、功能因果模型和连续优化的方法从观测和干预数据中估计图或等价类（Spirtes et al., 2000; Chickering, 2002; Hauser and Bühlmann, 2012; Shimizu et al., 2006; Zheng et al., 2018; Glymour et al., 2019）。可求解器检查的符号归纳长期以来在布尔网络推断、逻辑模型推断、ILP 和合成中被研究（Liang et al., 1998; Quinlan, 1990; Muggleton, 1991; Muggleton and De Raedt, 1994; Solar-Lezama, 2008; Alur et al., 2013; Torlak and Bodik, 2014）。

对于 ReplaySCM，最接近的前期工作是从有限干预证据中进行的精确符号归纳，因为该基准奖励无环结构搜索以及在共享语义评估器下的精确布尔机制合成。ReplaySCM 并没有引入新的因果发现算法；它将这个离散机制归纳问题 formulated 为一个带有固定最终对象合约的 LLM 基准：输出一个可执行的因果机制并通过干预重放进行评估。

## 3 基准定义

每个基准实例由多个由小型二元无环 SCM 生成的干预世界组成。所需的输出是一个可执行的布尔机制映射。信用通过训练和保留世界上的语义重放分配；评估器不比较公式字符串。任何在评分世界中诱导正确重放行为的可执行 SCM 都被视为正确，即使其布尔公式在语法上与潜在黄金机制不同。

**潜在 SCM 和干预世界。** 每个问题由具有观测根和内生变量的小型二元无环 SCM 生成。基准提供多个干预世界，每个世界都有硬干预目标、行级赋值以及在该干预下执行潜在 SCM 产生的观测行。在有序、块序和隐藏序中，提交物是基准布尔 DSL 中的可执行机制映射。在隐藏根中，提交物还必须预测根集。在替代 SCM 中，模型被给定一个有效的参考 SCM，并必须返回一个语义上不同的替代方案，该方案符合训练世界，并附带分离干预和见证者。

**重放和指标。** 重放是语义性的：干预变量被固定为其赋值，未干预的根从观测行复制，未干预的内生变量在提交 SCM 的有效拓扑顺序中计算。仅对未干预的内生单元格进行评分。TrainExact 要求对所有评分训练单元格进行精确重放。TrainWorldExact 和 HeldoutWorldExact 平均计算训练和保留世界上的精确重放。HeldoutExact 更严格：它要求精确的训练重放以及每个保留世界的精确重放。附录 B.1 给出了正式的重放定义。

**重放示例。** 有一个根变量 $R$ 和一个内生变量 $Y$，其黄金机制为 $Y = \text{not } R$，候选 $f^Y = \text{not } R$ 能够精确重放观测行 $(R,Y)=(0,1)$ 和干预行 $R:=1$ 且 $(R,Y)=(1,0)$，而 $f^Y = R$ 则失败。

**语义结构指标。** 我们使用以下语义结构指标。如果翻转变量 $U$ 可以改变局部机制 $f^V$ 的真值表，则 $U$ 是 $f^V$ 的功能父节点；排除自环。这产生了一个具有边 $U \to V$ 的有向功能父节点图 $G(\hat{M})$。Parent F1 是 $G(\hat{M})$ 相对于黄金功能父节点图的边级 F1。精确父节点映射要求每个内生变量的功能父节点集与黄金集匹配。Parent SHD 是有向功能父节点图之间的结构汉明距离，添加/删除代价为 1，反转代价也为 1。

**基准设置和池。** ReplaySCM 使用四种揭示结构设置——有序、块序、隐藏序和隐藏根，以及补充性的替代 SCM 系列。有序（Ord-Full）和隐藏序（Hid-Full）是两个包含 250 个问题的池。在这些池中，100 个问题在每对中匹配相同的潜在 SCM。这 100 个问题构成了匹配有序（Ord-Match）、块序（Block）、匹配隐藏序（Hid-Match）、隐藏根（Hid-Roots）和替代 SCM（Alt-Ord, Alt-Hid）的池。相同的 100 个问题也形成了一个三级支持审计阶梯：原始（Ord-Match/Hid-Match）、额外世界（Ord-Ext/Hid-Ext，增加训练世界但保留世界不变）和反例审计（Ord-CEx/Hid-CEx，进一步的世界完成局部前驱模式覆盖并针对发现的训练一致替代方案添加反例）。基准池、大小和关系列于附录表 A.1。

## 4 基准构建

天真地采样潜在 SCM 和干预世界会产生许多约束不足的问题：简单的捷径公式可以拟合观测到的训练世界，并且某些局部机制可能从未在被确定所需的前驱赋值上进行查询。因此，ReplaySCM 联合生成潜在 SCM 和世界集。黄金机制必须在语义上依赖于每个声明的父节点，获得两种布尔输出，并且仅出现在满足局部支持、干预覆盖、分布偏移和捷径抵抗检查的实例中。然后，生成器应用两个歧义减少阶段。首先，一个有界的幸存者减少循环保持一个拟合训练世界的捷径候选池，并添加排除尽可能多候选的新世界。其次，一个针对性的消歧阶段搜索每个内生机制的局部语义替代方案，并添加紧凑的世界以一次排除许多替代方案。生成后，有界歧义审计枚举局部替代方案和协调的上游/下游替代方案对，固定搜索预算。这些审计量化了有界搜索下的残余歧义性；它们不证明唯一性。基准在有限证据支持与结构多样性之间取得平衡。实例首先生成为匹配隐藏序形式，然后转换为相同潜在 SCM 的匹配有序、块序和隐藏根变体。替代 SCM 从成对结果池中符合训练世界的有效替代方案构建，通过语义签名去重，并且仅当存在单变量分离干预和见证者时保留。

**支持审计阶梯。** 三级支持审计阶梯使用相同的 100 个匹配有序/隐藏序 SCM，以询问在添加更多证据后有序/隐藏序差距是否依然存在。原始级别是 Ord-Match/Hid-Match。额外世界级别为两种披露设置每个问题添加相同的 3-4 个黄金模拟训练世界，排除保留干预签名，并将平均局部前驱模式覆盖率从 0.8949 提高到 0.9815，同时保留保留世界。反例审计（CEx）级别从额外世界开始，用黄金模拟世界完成局部前驱模式覆盖，然后添加分离世界，直到从 LLM 输出、符号精确搜索或 50 种子 bnlearn+DSL 搜索中发现的任何语义替代方案都不再拟合训练世界。这些变体增加了证据，但也使提示更长。完整的生成器规范在附录 B.2 中。

## 5 实验设置

所有实验使用相同的固定基准快照。两个完整池是有序（full）和隐藏序（full），每个包含 250 个问题。所有匹配、替代 SCM、额外世界和 CEx 设置均衍生自相同的 100 个问题相同潜在子池。支持审计变体共享潜在 SCM 和保留世界。原始和额外世界也共享训练世界，而 CEx 可能会添加特定设置的反例训练世界。每个系统输出都经过解析...

ReplaySCM：基于干预数据执行因果机制归纳的基准测试

相似文章

PROMETHEUS：自动化深度因果研究，整合文本、数据与模型

构建了一个用于营销决策的反事实模拟器——因果语义在这里失效

行为线索推理：通过监督提高推理效率与安全性

CausalCine：用于多镜头视频叙事的实时自回归生成

不破坏的引导：基于机制的离散扩散语言模型干预

提交意见反馈