确定性事件图基质作为反事实推理的世界模型

arXiv cs.AI 论文

摘要

该论文提出并评估了一类称为事件图基质的因果推理世界模型,通过确定性重放在类型化RDF事件日志上进行反事实查询,在多个基准上优于基线模型,同时保证了可检查性和可重放一致性。

arXiv:2605.15967v1 公告类型:新 摘要:我们研究了事件图基质:一类世界模型,将代理状态表示为类型化RDF三元组的仅追加日志,并通过在结构化干预词汇下对日志进行分叉来回答反事实查询。基质可在三元组级别进行检查,支持精确的反事实,并且无需学习组件即可跨领域转移。我们形式化该类,证明了解释性查询和反事实查询之间的对偶性,将两者简化为相同的因果祖先遍历,并在完整的CLEVRER验证规模(n=75,618)上评估了一个基于领域无关基质运行时的1400行CLEVRER-DSL解释器。该基质在所有四个逐问题类别上均超过了NS-DR符号基准(分别高出9.89、20.26、17.65和0.80个百分点),在描述性和解释性上超过了参数化ALOE基线,但在预测性和反事实性上略逊一筹。我们还引入了twin-EventLog,这是一个包含500个规范的Park-canonical Smallville反事实基准,在该基准上,基质在联合准确率上比拥有完整上下文的Llama-3.1-8B高出18.80个百分点。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:34

# 确定性事件图基板作为反事实推理的世界模型
来源:https://arxiv.org/html/2605.15967

###### 摘要

我们研究一类用于智能体系统的世界模型,该类模型将状态表示为一个仅追加的、带类型的RDF三元组日志,并通过在选定的时间点、在结构化干预词汇下分叉日志来回答反事实查询。我们将此类模型称为**事件图基板**。基板可在单个三元组级别进行检查,支持对带类型状态的任意干预进行精确反事实推理,并且无需学习组件即可跨领域迁移。

我们做出三项贡献。第一,我们提出一个具有确定性重放和干预语义的事件图基板的正式定义,并刻画反事实查询简化为对观测事件日志进行图论操作的条件。我们证明了解释性查询(“哪个观测事件导致了 \(E\)?”)与反事实查询(“如果对象 \(X\) 不存在,哪些观测事件不会发生?”)之间的对偶性,表明在封闭事件假设下,两者都通过相同的因果祖先遍历来回答。第二,我们在CLEVRER (Yi et al., 2020 (https://arxiv.org/html/2605.15967#bib.bib1)) 的标准视频因果推理基准上,以一个领域无关的基板运行时为基础,评估了一个1400行的CLEVRER-DSL解释器,达到完整验证规模(\(n=75,618\) 个问题)。基板在描述性问题每个问题上超过已发表的符号神谕基线 NS-DR (Yi et al., 2020 (https://arxiv.org/html/2605.15967#bib.bib1)) 9.89个百分点,在解释性每个问题上超过20.26个百分点,在反事实每个问题上超过17.65个百分点,在预测性每个问题上超过0.80个百分点。与基于参数注意力的基线ALOE (Ding et al., 2021 (https://arxiv.org/html/2605.15967#bib.bib9)) 相比,基板在描述性和解释性每个问题上表现更好,但在预测性和反事实每个问题上落后,其中ALOE学习的动力学分布提供了优势,而基板的闭式运动学投影无法与之匹敌。第三,我们引入了twin-EventLog,一个500个规范的、Park-经典 Smallville 反事实基准,用于评估干预下的智能体记忆一致性。在此基准上,基板在联合准确率上超过提供完整上下文的 Llama-3.1-8B 18.80个百分点,并超过 Park/Concordia 风格的 LLM 驱动模拟器 (Park et al., 2023 (https://arxiv.org/html/2605.15967#bib.bib5); Vezhnevets and others, 2023 (https://arxiv.org/html/2605.15967#bib.bib6)) 65个百分点。

这些结果共同表明,反事实世界建模可以通过对类型化事件增量的确定性重放来实现,而不是通过学习到的潜在模拟,并且在可检查性和重放一致性方面具有形式化保证。我们刻画了这种方法与参数化世界模型相比具有竞争力的机制(封闭事件推理,精确干预语义)以及落后的机制(在学习的动力学下进行长时程预测,隐藏属性推理)。

## 1 引言

参见图注 图1: 基板世界模型与参数化世界模型。基板将观测值存储为类型化RDF事件日志 \(\mathcal{L}\),并通过在应用 \(do(X)\) 到 \(\mathcal{L}\) 后进行确定性重放来回答反事实查询。参数化模型将观测值压缩为潜在状态 \(h_t\),并且没有精确的 \(do\)-语义:干预通过重新提示或微调来近似。

智能体系统需要一个支持三种操作的世界模型:忠实地检索已观测到的内容,预测在假设性干预下会发生什么,以及由外部审核员检查模型的内部状态。当前的参数化架构优化了其中一项而牺牲了其他。像 Dreamer-V3 (Hafner et al., 2023 (https://arxiv.org/html/2605.15967#bib.bib7)) 这样的潜在动力学模型学习用于强化学习的想象展开,但展开是从学习到的分布中采样的,不能确定性重放。像 V-JEPA-2 (Assran et al., 2025 (https://arxiv.org/html/2605.15967#bib.bib8)) 这样的视频联合嵌入预测器学习高质量的视频特征,但不暴露可查询的状态。生成式智能体 (Park et al., 2023 (https://arxiv.org/html/2605.15967#bib.bib5)) 通过语言模型摘要暴露可查询的状态,但状态不可重放,并且在重复查询下摘要会漂移。

我们研究一种替代架构,其中智能体记忆是一个仅追加的、带类型的RDF三元组日志,通过分叉选定时间点的日志并应用结构化干预来回答反事实查询。我们将此类架构称为事件图基板。这类在精神上并不新鲜;它继承了结构因果模型 (Pearl, 2009 (https://arxiv.org/html/2605.15967#bib.bib20))、神经符号视觉推理 (Yi et al., 2018 (https://arxiv.org/html/2605.15967#bib.bib11), 2020 (https://arxiv.org/html/2605.15967#bib.bib1); Mao et al., 2019 (https://arxiv.org/html/2605.15967#bib.bib12)) 和类型化知识图谱。我们的贡献是以一种明确其保证的方式对该类进行形式化,证明一个将反事实查询连接到对观测日志的标准图操作的对偶性定理,并在标准视频因果推理基准的完整验证规模上评估一个领域无关的实现。

我们按以下方式组织论文。第2节 (https://arxiv.org/html/2605.15967#S2) 形式化具有确定性重放和干预语义的事件图基板。第3节 (https://arxiv.org/html/2605.15967#S3) 证明祖先对偶性定理并刻画其复杂度。第4节 (https://arxiv.org/html/2605.15967#S4) 报告基板在CLEVRER上的性能。第5节 (https://arxiv.org/html/2605.15967#S5) 展示在ComPhy (Chen et al., 2022 (https://arxiv.org/html/2605.15967#bib.bib2))、GQA (Hudson and Manning, 2019 (https://arxiv.org/html/2605.15967#bib.bib4)) 和新的twin-EventLog基准上的跨领域迁移。第6节 (https://arxiv.org/html/2605.15967#S6) 呈现对每个算法组件的消融研究。第7节 (https://arxiv.org/html/2605.15967#S7) 将我们的工作与先前的神经符号推理器、结构化世界模型和智能体记忆架构进行对比。第8节 (https://arxiv.org/html/2605.15967#S8) 讨论局限性,第9节 (https://arxiv.org/html/2605.15967#S9) 总结。

#### 实证结果总结。

在CLEVRER的完整验证规模上,一个基于领域无关基板运行时的1400行CLEVRER-DSL解释器,在每一类问题上都超过了已发表的符号神谕基线NS-DR (Yi et al., 2020 (https://arxiv.org/html/2605.15967#bib.bib1)):描述性高9.89个百分点(97.99对88.1),解释性高20.26个百分点(99.86对79.6),反事实高17.65个百分点(59.85对42.2),预测性高0.80个百分点(69.50对68.7)。与参数化的ALOE基线 (Ding et al., 2021 (https://arxiv.org/html/2605.15967#bib.bib9)) 相比,基板在描述性(97.99对94.0)和解释性(99.86对96.0)每个问题上更好,但在预测性(69.50对87.5)和反事实(59.85对75.6)每个问题上落后。这种交叉表明,对于观测日志上的封闭事件推理,基板的确定性重放达到或超过了学习方法,而对于学习到的动力学分布下的预测以及剩余的反事实涌现交互类别,参数化模型保持优势。在一个匹配实例子集(\(n=300\))上进行受控比较,其中 Llama-3.1-8B 接收相同的事件日志作为自然语言并带有语法约束输出,基板在描述性问题上超过语言模型46.99个百分点(97.99对51.00;LLM的Wilson 95%置信区间 [45.37, 56.61])。这与以下解释一致:关键因素是结构化执行路径,而不是信息内容。

## 2 基板定义

我们将一个事件图基板定义为一个元组

\[
\mathcal{S} = (\mathcal{T}, \mathcal{A}_0, \mathcal{L}, \rho, \mathcal{I})
\]

其中 \(\mathcal{T}\) 是一个在固定词汇上的类型化公理 TBox,\(\mathcal{A}_0\) 是一个初始的三元组 ABox,\(\mathcal{L}\) 是一个有序的仅追加的类型化增量日志,\(\rho\) 是一个确定性重放函数,而 \(\mathcal{I}\) 是一个干预词汇。

#### 状态与增量。

基板在时间点 \(t\) 的状态记为 \(\mathcal{A}_t\),其中 \(\mathcal{A}_t \subseteq \mathcal{V}_{RDF}\) 是一个与 \(\mathcal{T}\) 一致的有限类型化三元组集合。每个增量 \(d_t \in \mathcal{L}\) 是一个元组 \((t, \text{op}, \text{triple})\),其中 \(\text{op} \in \{\text{insert}, \text{retract}\}\)。重放 \(\rho\) 定义为 \(\mathcal{A}_{t+1} = \rho(\mathcal{A}_t, d_t)\),将 \(d_t\) 作为集合操作应用于 \(\mathcal{A}_t\)。因此,任何时间点 \(t\) 的状态都可以从 \(\mathcal{A}_0\) 和日志前缀 \(d_0, \ldots, d_{t-1}\) 在 \(O(t)\) 时间内恢复。

#### 干预。

干预词汇 \(\mathcal{I}\) 是一个有限的、作用于 ABox 的类型化操作集合。我们的实现使用了五种干预:Assert、Retract、OverrideLocation、AssertAwareness 和 RetractAwareness。每个干预 \(\iota \in \mathcal{I}\) 是基板状态上的一个函数。一个反事实查询由分支时间点 \(t^*\) 和干预 \(\iota\) 参数化。反事实日志定义为

\[
\mathcal{L}_{t^*}^\iota = d_0, \ldots, d_{t^*-1}, \iota, d_{t^*}^\iota, d_{t^*+1}^\iota, \ldots
\]

其中在 \(t^*\) 之后的增量由相同的重放函数应用于被干预后的状态产生。对于物理模拟领域,干预后的增量由外部确定性模拟器发出;对于符号领域,它们由基板自身的规则应用发出。

#### 可检查性。

\(\mathcal{A}_t\) 中的每个三元组都可以通过其类型化IRI寻址。\(\mathcal{L}\) 中的每个增量都可以通过其时间点寻址。在 \(\mathcal{A}_t\) 上的SPARQL查询返回确定性结果集。在 \(\mathcal{T}\) 上的SHACL约束在特定三元组级别识别违规。

#### 成本。

从时间点 \(a\) 重放到时间点 \(b\) 的成本在增量应用次数上是 \(O(b-a)\)。SPARQL查询成本主要由底层RDF存储决定;对于本文中的工作负载,每个查询的成本是常数或接近常数,因为每个场景的ABox最多包含几百个三元组。一个反事实分叉的成本等于从分支时间点向前重放的成本,加上一次干预应用的成本。

#### 具体实例化。

我们的实现使用 Oxigraph (Pellissier Tanon, 2020 (https://arxiv.org/html/2605.15967#bib.bib19)) 作为RDF存储,以及大约1400行Python代码用于CLEVRER解释器(四个模块:描述性、解释性、反事实、预测性),另有1800行代码用于ComPhy、GQA和bAbI模块。TBox按领域手工编写(Smallville村庄、CLEVRER物理、GQA视觉场景图、ComPhy组合物理、bAbI文本推理)。本文报告的所有数字均使用此实现。

## 3 祖先对偶性与复杂度

现在我们来刻画事件图基板上反事实查询简化为观测事件日志上的标准图操作的条件。

### 3.1 因果祖先图

设 \(\mathcal{L}\) 是有限对象集 \(\mathcal{O}\) 上的一个事件日志。每个事件 \(e \in \mathcal{L}\) 关联一个参与对象集合 \(\text{obj}(e) \subseteq \mathcal{O}\) 和一个时间点 \(\text{tick}(e)\)。对于CLEVRER领域,我们将事件实例化为对象碰撞、场景进入和场景退出;参与对象分别是碰撞对、进入对象或退出对象。

###### 定义 1 (因果祖先集合).

对于事件 \(e \in \mathcal{L}\), \(e\) 的因果祖先集合,记为 \(\textsc{Anc}(e)\),是满足以下条件的最小事件集合:(i) 每个满足 \(\text{tick}(e') < \text{tick}(e)\) 且 \(\text{obj}(e') \cap \text{obj}(e) \neq \emptyset\) 的事件 \(e'\) 都在 \(\textsc{Anc}(e)\) 中;(ii) 对于每个 \(e' \in \textsc{Anc}(e)\) 和每个满足 \(\text{tick}(e'') < \text{tick}(e')\) 且 \(\text{obj}(e'') \cap \text{obj}(e') \neq \emptyset\) 的事件 \(e''\),有 \(e'' \in \textsc{Anc}(e)\)。

等价地,\(\textsc{Anc}(e)\) 可以通过对二分事件-对象关联图进行向后广度优先遍历从 \(e\) 可达,仅限于时间点严格小于 \(\text{tick}(e)\) 的节点。我们记 \(\textsc{AncObj}(e) = \bigcup_{e' \in \textsc{Anc}(e)} \text{obj}(e')\) 表示出现在 \(e\) 的因果历史中任何位置的对象集合。算法 1 (https://arxiv.org/html/2605.15967#alg1) 通过一次对日志的向后遍历计算 \(\textsc{Anc}(e)\) 和 \(\textsc{AncObj}(e)\)。

算法 1 因果祖先遍历
1: 函数 Ancestors(\(e\), \(\mathcal{L}\))
2:   \(A \leftarrow \emptyset\)
3:   \(\textsc{Obj} \leftarrow \text{obj}(e)\)
4:   \(Q \leftarrow \{(o, \text{tick}(e)) : o \in \text{obj}(e)\}\)  \(\triangleright\) 队列(对象,参考时间点)
5:   \(\textsc{Visited} \leftarrow \text{obj}(e)\)
6:   while \(Q\) 非空 do
7:     从 \(Q\) 弹出 \((o, \tau)\)
8:     for each \(e' \in \mathcal{L}\) 满足 \(\text{tick}(e') < \tau\) 且 \(o \in \text{obj}(e')\) do
9:       \(A \leftarrow A \cup \{e'\}\)
10:      for each \(o' \in \text{obj}(e') \setminus \textsc{Visited}\) do
11:        \(\textsc{Visited} \leftarrow \textsc{Visited} \cup \{o'\}\)
12:        \(\textsc{Obj} \leftarrow \textsc{Obj} \cup \{o'\}\)
13:        将 \((o', \text{tick}(e'))\) 推入 \(Q\)
14:      end for
15:     end for
16:   end while
17:   return \((A, \textsc{Obj})\)
18: 结束函数

每个事件的参考时间点是必不可少的。一个朴素的变体对每个BFS步骤都使用 \(\text{tick}(e)\),这会允许虚假的长传递路径,并产生 \(\textsc{Anc}(e)\) 的过度近似;这种区别的实证影响在第6节 (https://arxiv.org/html/2605.15967#S6) 中报告。

### 3.2 对偶性定理

###### 命题 1 (祖先对偶性,非正式).

设 \(\mathcal{L}\) 是对象集 \(\mathcal{O}\) 上的一个事件日志,并设 \(X \in \mathcal{O}\)。假设以下条件成立:

1. C1 (*封闭事件*.) 每个依赖于 \(\mathcal{O}\) 中任何对象状态发生的事件都记录在 \(\mathcal{L}\) 中。
2. C2 (*非祖先的外生性*.) 对于每个满足 \(X \notin \textsc{AncObj}(e')\) 的事件 \(e' \in \mathcal{L}\),事件 \(e'\) 的发生和时机不依赖于 \(X\) 的状态。

相似文章

面向时序知识图谱推理的显著性感知评估

arXiv cs.AI

本文提出了一种面向时序知识图谱推理(TKGR)的显著性感知评估框架,该框架根据事件的稀有性对其加权,以更好地评估模型推理能力,解决了由琐碎重复事件导致的过高估计问题。

GraphReAct:面向多步图推理的推理与行动

arXiv cs.AI

本文介绍了 GraphReAct,这是一个将推理与行动范式扩展到图结构数据以进行多步推理的框架。它结合了拓扑检索、语义检索以及上下文精炼,以提升在图学习基准测试上的性能。

基于反事实链和因果图的LLM可解释性

Hugging Face Daily Papers

本文提出了一种四阶段方法,用于构建建模LLM推理过程的因果图,利用反事实增强实现稳定的因果发现,并提供透明、概念级的可解释性。