预测瓶颈无法发现因果结构(但它们实际上能做什么)

Hugging Face Daily Papers 论文

摘要

本文质疑了诸如 Mamba 等模型中的预测瓶颈能够恢复因果结构的说法,并通过一个新的基准测试证明,其性能提升主要归因于混杂因素和鲁棒性伪影,而非真正的因果发现。

一个仅针对下一步预测训练的 Mamba 状态空间模型,似乎能够通过简单的读出公式 S = |W_{out} W_{in}| 恢复格兰杰(Granger)因果结构。早期实验表明,这一现象在不同架构中具有普适性,并且在干预数据下表现出显著优势(p < 10^{-5})。我们将用于检验该声称的协议——包括标准化的合成生成器(VAR/Lorenz/CauseMe 风格)、三种干预语义(do(X=c)、软噪声、随机强制)、三个真实数据集上的边来源卡片,以及尺寸匹配的控制组——打包为一个可重复使用的证伪基准测试,并通过五个阶段对该声称进行了验证。方法层面的声称未能通过检验:(i) 普通的线性瓶颈表现相当甚至更好;(ii) 经过调优的 Lasso 在合成 CauseMe 风格基准测试上优于瓶颈方法,而在 Lorenz-96(唯一具有明确真实标签的真实基准)上,经典的 PCMCI 和格兰杰因果分析领先,瓶颈方法紧随其后;(iii) 标题中提到的干预优势约有 60% 源于样本量混杂因素,剩余部分在标准的 do(X=c) 干预下消失,仅在非标准的随机强制方案下存留;(iv) 即使这剩余部分也能在经典的双变量格兰杰因果分析中以更大的效应复现——说明该效应与方法无关。唯一幸存的是一个狭窄的特征化结果;该基准测试是持久的成果,而上述每个阶段都是其控制组之一。
查看原文
查看缓存全文

缓存时间: 2026/05/13 04:13

论文页面 - 预测瓶颈无法发现因果结构(但它们实际上做了什么)

来源:https://huggingface.co/papers/2605.09169

本文证伪了“下一步预测瓶颈——尤其是 Mamba/SSM 的权重投影——能够恢复因果结构”的主张,指出其表现出的增益主要源于低秩回归、样本量混淆、干预语义伪影以及对目标破坏的鲁棒性,其主要持久贡献在于提供了一个可复用的证伪基准。

➡️ 他们针对“预测即因果发现”的证伪框架的关键亮点:

🧪 可复用的五阶段证伪基准:引入了一个以控制变量为核心的基准,涵盖 VAR、Lorenz-96、CauseMe 风格生成器、带有边溯源卡片(edge-provenance cards)的真实数据集、容量匹配的网络架构、大小匹配的观测对照,以及多种干预语义,用以严格测试“预测模型隐式恢复因果图”的主张。

🧩 权重投影因果性无法经受控制测试:测试了瓶颈预测器的提取规则(S = \|W_{out}W_{in}\|),结果显示线性瓶颈的表现与 Mamba SSM 相当甚至更优,在合成图恢复任务中经过调优的 Lasso 占据主导,而在干净的 Lorenz-96 真值上,经典的 PCMCI/Granger 类方法优于瓶颈模型。

🧠 干预增益是混淆因素,而非因果提取:表明所报告的干预优势主要来自额外的样本量以及非标准的每步随机强迫干预;在适当的 do(X_i=c) 干预下,该效应几乎消失,而剩余效应在经典的双变量 Granger 因果检验中甚至更为显著,这表明这是一种与方法无关的目标破坏鲁棒性,而非习得的因果发现能力。

相似文章

出于必要性的偏差:收敛式人工智能与人类验证中顺序处理的不可能性定理

arXiv cs.AI

本文证明了不可能性定理,表明由于因果掩码(causal masking)约束,首要效应(primacy effects)、锚定效应(anchoring)和顺序依赖性(order-dependence)是自回归语言模型中架构上必然存在的偏差。作者跨越12种前沿大语言模型验证了这些理论界限,并通过涉及工作记忆负荷的预注册人类实验证实了相关预测。