WorldKernel: 世界模型是可行可能世界的耦合核

arXiv cs.AI 2026/06/10 04:00 论文

causality counterfactual world-models inference uncertainty theory

摘要

本文识别了一种故障模式，其中预测器在未识别的反事实耦合上坍缩为一点，并提出了一个使用正半定耦合核来约束反事实的框架，表明预测无法表示跨世界耦合的不确定性，且施加核约束可产生可处理的边界。

arXiv:2606.10934v1 公告类型：新摘要：一种常见假设认为，只要有足够的观察和干预数据，交给足够强的预测器就足够了。我们报告了一种与之相矛盾的故障模式。在数百个结构因果模型中，对于已识别的量，强预测器和贝叶斯基线都能成功，但对于未识别的量（反事实世界之间的耦合），预测器坍缩为一点，在28%的模型上坍缩为没有任何有效模型能产生的点，而真实情况是一个有效区间，更多数据也无法缩小它。这种差距是结构性的：预测无法表示反事实耦合的不确定性。我们将世界模型视为一个关于可行世界的正半定耦合核K(T,T')，其对角线是普通的后验（预测器恢复的内容），非对角线则是它无法恢复的跨世界耦合，每个反事实都读取该耦合。本文是关于这个非对角线的理论。它是真实的：两个具有相同后验的状态在跨世界查询上表现不同，而非对角线就是固定反事实的耦合。它是可约束的：正半定性是边际所缺乏的部分识别信息，施加它在多项式时间内约束反事实，而精确的反应类型程序是难以处理的。逻辑结构使其更加精确：本体论公理将边界缩小了多达三分之一，并传播到它们从未触及的耦合上。它是可获取的：有针对性的疤痕，即从遇到的不可行性中学习到的约束，比无针对性的疤痕快数倍地缩小差距。它的完整重建是对可行世界的近似计数，在Sly-Sun阈值以下是可处理的，在阈值以上则难以近似；我们并未声称要战胜最坏情况。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:18

# 世界模型是可容许可能世界的耦合核——对角线上可容许性、非对角线上反事实耦合，以及达到 Sly–Sun 计数屏障的本体论结构界  
来源：https://arxiv.org/html/2606.10934 \(2026 年 6 月\)

###### 摘要  
一个常见假设认为，给一个足够强的预测器提供足够的观测和干预数据，就基本足够了。我们报告了一个与此相矛盾、反复出现的失效模式：在数百个结构因果模型中，对于数据可识别的量，强预测器和贝叶斯基线都能成功；但对于**不可识别**的量——即反事实世界之间的耦合——预测器会坍缩为一个点，在 28% 的模型上甚至坍缩为没有有效模型能产生的值，而真实答案是一个可容许区间，且更多数据永远无法缩小它。这种差距是结构性的：预测无法表示对反事实耦合的不确定性。我们将一个世界模型视为一个在可容许世界上的正半定**耦合核** \(K_E(T,T')\)，其对角线是通常的后验（预测器所能恢复的），而其**非对角线**则是它无法表示、但每个反事实都会读取的跨世界耦合。本文就是关于这个非对角线的理论，围绕一个对象组织成五个问题。  

*它是真实的吗？* 两个后验相同的状态在一个跨世界查询上表现不同，而非对角线恰好与修复反事实的耦合一致。  
*我们能对它进行界化吗？* 其正半定性是边际分布所缺少的部分识别信息；强制实施它（半定松弛）能在精确响应类型程序不可解的多项式时间内对反事实进行界化，并在该程序无法达到的规模上返回精确界。  
*逻辑结构能使其更精确吗？* 本体论公理作为附加约束进入，并将界最多收紧三分之一，通过正半定性传播到它们从未触及的耦合——这是平坦因果界工具无法使用的结构。  
*我们能从经验中获得它吗？* 有目标的“疤痕”（即从遇到的不可行性中学到的约束）比无目标的疤痕快 4 倍地缩小识别差距（当两者都饱和时，区间收窄），并带有谱间隙恢复保证。  
*何时可达？* 访问它是对可容许世界的近似计数，在 Sly–Sun 阈值之下可解，之上则不可近似；我们并不声称能打败最坏情况，而是精确测量在何处相极端策略有效（少相）以及在何处必然会停滞（玻璃相）。  
世界模型是“什么能一致存在”的耦合核；其非对角线正是预测永远无法提供的部分。

## 1 引言

我们并非从一个定义开始，而是从一个失效开始。一个普遍的假设是：观测和干预数据，在数量充足且给予足够强的预测器的条件下，足以对某个领域进行推理。第 4.4 节（https://arxiv.org/html/2606.10934#S4.SS4）报告了在三百个结构因果模型上的测试，该假设以一种特定且可重复的方式被打破。每个模型都被查询一个反事实。当该查询被观测和干预数据识别时，强语言模型、贝叶斯结构因果基线和本文的表示都能回答它。但当该查询**不**被识别时，正确答案是一个可容许值的区间，而各个系统开始分化：贝叶斯基线输出一个可行点，该点常常远离真实值且符号不稳定；语言模型则输出一个点，在 28% 的模型上甚至不可行——一个没有任何结构因果模型能产生的值。更多的数据也无济于事，因为那个不可识别的量——反事实世界之间的耦合——不是任何观测或干预分布的函数。因此，失效不是统计性的，而是表征性的：**预测无法表示对反事实耦合的不确定性。**

本文开发了能够表示这种不确定性的最小对象。一个世界模型是一个在完全可容许世界 \(T,T'\) 上、以证据 \(E\) 为条件的正半定**耦合核** \(K_E(T,T') = \langle T | \rho_E | T' \rangle\)。对角线 \(K_E(T,T) = \mu_E(T)\) 是可容许世界上的经典后验，正是观测和干预数据（因此也是任何预测器）所能恢复的。非对角线 \(K_E(T,T')\) 连接了不同的世界，正是预测器无法表示的跨世界耦合。时间连接一个世界内的阶段；这个核连接不同的世界。后验只是该核的对角线投影，上述失效模式恰好就是非对角线的缺失。

#### 一个对象。
本文只讨论一个对象：世界核的**非对角线**，即连接不同世界的跨世界耦合 \(K_E(T,T')\)。预测器只能恢复对角线，即关于“情况是什么”的后验；非对角线是它唯一无法表示的东西，却正是反事实所读取的内容。本文其余部分都是关于这个对象的理论，按照任何关于它的论述都必须回答的问题来组织。

1. *它是真实的，还是只是伪装的预测？* 真实且独立。世界可能在预测上相同但在可容许性上不同（第 2 节），并且两个后验相同的状态可能在一个跨世界查询上表现不同（第 3 节）；实验上，非对角线与修复反事实的耦合吻合，而强预测器会使其坍缩（第 4 节）。
2. *我们能从数据中对其界化吗？* 可以，而且核自身的结构就起作用。正半定性是边际分布所丢弃的部分识别信息，能在精确程序不可解的多项式时间内收紧反事实界（第 4.5 节）。
3. *逻辑结构能使其更精确吗？* 可以。本体论的公理作为附加约束进入，并将界最多收紧三分之一，传播到它们从未触及的耦合——这是平坦因果界工具无法使用的结构（第 4.6 节）。
4. *我们能从经验中获得它吗？* 可以。有目标的“疤痕”，即从遇到的不可行性中学到的约束，关闭识别差距的速度比无目标的快 4 倍（当两者都饱和时，区间收窄），并带有 Cheeger 保证（第 5.2 节）。
5. *何时可达？* 严格有界。访问它是对可容许世界的近似计数，在 Sly–Sun 阈值之下可解，之上则不可近似，序参量 \((d-1)\eta\) 在约束图度数 5 和 6 之间穿过 1（第 6 节）。

一个对象，五个问题，不是五个想法。第 7 节阐述了该对象带来的好处：智能即保持闭包的反事实能力。

#### 什么是新的，什么是借用的。
我们不声称有新的采样到计数定理、新的屏蔽方法或新的部分识别算法。贡献在于综合：识别出一个单一对象（正半定核），证明其非对角线是一个独立且反事实上有意义的方向，展示其半定结构在精确响应类型程序不可解的实例上比边际分布更紧地收紧反事实界，将已知的近似计数障碍定位为完全访问非对角线的边界，以及实验证明非对角线对于强预测器失效的因果推理来说是承重性的。

## 2 可能世界、查询以及预测的不足

###### 定义 1（世界与查询类别）。
令 \(\Omega\) 为一组完全可容许的世界（或历史）。一个查询类别 \(Q\) 是一组函数 \(q: \Omega \to Y_q\)。我们区分预测查询 \(Q_{\mathrm{pred}}\)（例如 \(p(o_{t+1} \mid o_{\leq t}, a_t)\)）、蕴涵查询 \(Q_{\mathrm{ent}}\)（\(\mathcal{O} \models \varphi\)）、可容许性查询 \(Q_{\mathrm{adm}}\)（\(a \in \Gamma_{\mathcal{O}}(s)\)）、干预查询 \(Q_{\mathrm{caus}}\)（\(P(Y \mid do(a), E)\)），以及核查询 \(Q_{\mathrm{ker}}\)（\(K_E(\omega, \omega')\)）。世界查询类别是 \(Q_{\mathrm{world}} = Q_{\mathrm{pred}} \cup Q_{\mathrm{ent}} \cup Q_{\mathrm{adm}} \cup Q_{\mathrm{caus}} \cup Q_{\mathrm{ker}}\)。

###### 定义 2（查询等价与完备性）。
对于类别 \(Q\)，令 \(\omega \sim_Q \omega'\) 当且仅当对所有 \(q \in Q\) 有 \(q(\omega) = q(\omega')\)。一个表示 \(\phi: \Omega \to Z\) 是 \(Q\)-完备的，如果对于每个 \(q \in Q\) 都存在一个解码器 \(f_q\) 使得 \(q = f_q \circ \phi\)。

###### 定理 1（查询商）。
商映射 \(\pi_Q: \Omega \to \Omega/\!\sim_Q\) 是 \(Q\)-完备的，并且任何 \(Q\)-完备的 \(\phi\) 都通过它分解：\(\phi(\omega) = \phi(\omega') \Rightarrow \omega \sim_Q \omega'\)。因此 \(\Omega/\!\sim_Q\) 是对 \(Q\) 而言足够的最粗表示。

###### 证明。
定义 \(f_q([\omega]) = q(\omega)\)，由于 \([\omega] = [\omega']\) 意味着 \(q(\omega) = q(\omega')\)，因此良定义；那么 \(q = f_q \circ \pi_Q\)。反之，如果 \(\phi\) 完备且 \(\phi(\omega) = \phi(\omega')\)，那么对所有 \(q\) 有 \(q(\omega) = f_q(\phi(\omega)) = f_q(\phi(\omega')) = q(\omega')\)，所以 \(\omega \sim_Q \omega'\)。∎

###### 推论 1（形式智能判据）。
如果在一个领域上 \(Q_{\mathrm{pred}} \subsetneq Q_{\mathrm{world}}\) 严格成立，那么一个预测表示可以对预测完备，但同时对世界理解不完备。世界能力需要一个至少与 \(\Omega/\!\sim_{Q_{\mathrm{world}}}\) 一样细的表示。

###### 定理 2（预测不足性）。
存在世界 \(W_0, W_1\)，它们在预测上等价，但在世界上不等价。没有仅被训练为预测完备的表示能保证对世界理解完备。

###### 证明。
取一个具有状态 \(S\)、动作 \(A\)、转移 \(T: S \times A \to S\) 的确定性竞技场，以及一个物理上可穿越的区域 \(L \subset S\)。令 \(W_0 = (S, A, T, O, \mathcal{O}_0)\) 和 \(W_1 = (S, A, T, O, \mathcal{O}_1)\) 共享相同的动力学和观测映射，其中 \(\mathcal{O}_0\) 不包含对 \(L\) 的任何限制，而 \(\mathcal{O}_1\) 禁止转入 \(L\)。所有关于观测的预测条件分布都一致，因此 \(W_0, W_1\) 在预测上等价。选择 \(s, a\) 使得 \(T(s,a) \in L\)。那么 \(a \in \Gamma_{\mathcal{O}_0}(s)\) 但 \(a \notin \Gamma_{\mathcal{O}_1}(s)\)，所以可容许性查询将它们分开。根据定理 1，任何可容许性完备的表示必须将它们分开，而仅基于预测的表示没有足够的信息这样做。∎

#### 对角线是可证明的。
该核的对角线是可容许性，并且可以在独立于学习模型的情况下得到保证。令 \(\Phi_{\mathcal{O}} \subseteq S\) 为蕴涵的禁止集，\(V_{\mathcal{O}}\) 为蕴涵的转移违反谓词。

###### 定理 3（保持闭包的视界可靠性）。
令投影器 \(g_{\mathcal{O}}\) 是单步可靠的：对于 \(s \notin \Phi_{\mathcal{O}}\) 和任何提议的动作 \(a\)，有 \(g_{\mathcal{O}}(s, a) \notin \Phi_{\mathcal{O}}\) 且 \(\neg V_{\mathcal{O}}(s, g_{\mathcal{O}}(s,a))\)。如果 \(s_0 \notin \Phi_{\mathcal{O}}\) 且 \(s_{t+1} = g_{\mathcal{O}}(s_t, a_t)\) 对于任意（可能任意不准确）的动作序列成立，那么对所有 \(t\) 有 \(s_t \notin \Phi_{\mathcal{O}}\) 且 \(\neg V_{\mathcal{O}}(s_t, s_{t+1})\)。

###### 证明。
归纳。基础 \(s_0 \notin \Phi_{\mathcal{O}}\)。如果 \(s_t \notin \Phi_{\mathcal{O}}\)，单步可靠性给出 \(g_{\mathcal{O}}(s_t, a_t) \notin \Phi_{\mathcal{O}}\) 且 \(\neg V_{\mathcal{O}}(s_t, g_{\mathcal{O}}(s_t, a_t))\)，而 \(s_{t+1} = g_{\mathcal{O}}(s_t, a_t)\)。∎

关键是这种能力独立于学习模型 \(F_\theta\)：一个任意不准确的预测器仍然不能离开可容许集。实验上，在一个宽松熔岩竞技场（我们用作可容许性见证）中，无屏蔽的预测器通过在 36.4%（91/250）的回合中进入禁止区域来达到目标，而对角线投影器使用相同的无视墙壁的学习模型，在 250 个回合中实现了零次禁止转移（图 1）。相同的 OWL 衍生的转移语法不仅提高了安全性，还提高了能力：将其移植到一个未经修改的学习规划器上，可以在各种墙壁拓扑下提高跨房间成功率，而无需重新训练。蕴涵的约束不是附加的安全补丁，而是预测器所缺少的信息。

图 1: 宽松熔岩竞技场。无屏蔽规划器通过穿越禁止带到达目标；对角线投影器在相同的学习模型下，穿过蕴涵的门并从未进入禁止带。

#### 对角线弯曲空间。
可容许性不仅是逻辑的，还是几何的，这是最清楚地看到蕴涵结构是动作空间的一种属性而非事后过滤器的方式。

###### 命题 1（蕴涵几何）。
令 \(\Phi_{\mathcal{O}} \subset X \subset \mathbb{R}^2\) 为蕴涵的禁止集，\(g_M = e^{2M \mathbf{1}_{\Phi_{\mathcal{O}}}} \delta\) 为具有屏障高度 \(M\) 的共形度量。当 \(M \to \infty\) 时，任何最小化 \(g_M\)-路径从 \(a\) 到 \(b\) 的极限，是回避 \(\Phi_{\mathcal{O}}\) 的可整流路径中最短的一条，而且高斯曲率 \(K = -e^{-2\phi} \Delta \phi\) 集中在 \(\partial \Phi_{\mathcal{O}}\) 上。

###### 证明草图。
一条回避 \(\Phi_{\mathcal{O}}\) 的路径的 \(g_M\)-长度等于其欧几里得长度，与 \(M\) 无关。一条在 \(\Phi_{\mathcal{O}}\) 内部花费欧几里得长度 \(\ell_M\) 的路径的 \(g_M\)-长度 \(\geq e^{M \ell_M}\)，因此最小性迫使 \(\ell_M \to 0\)；在 \(\Phi_{\mathcal{O}}\) 的补集上，度量是欧几里得的，因此极限在回避路径中最小化欧几里得长度。∎

禁止区域变成曲率脊，而蕴涵的开口变成平坦通道：知识已经变成了度量。

## 3 核及其非对角线

令 \(\Omega = \mathcal{T}_E\) 为在证据 \(E\) 下完全可容许世界的有限集，\(\mathcal{H} = \ell^2(\mathcal{T}_E)\) 具有基 \(\{|T\rangle\}\)。一个加权生成器将……

WorldKernel: 世界模型是可行可能世界的耦合核

相似文章

@CSProfKGD：.@ylecun 对世界模型（world model）的定义。

BadWorld：对世界模型的对抗性攻击

当前世界模型缺乏持久状态核心

在紧凑世界模型中空间关系的接地：指令泄露与无目标动态修复

模拟一切，差不多如此：世界模型的承诺与局限

提交意见反馈