预测瓶颈无法发现因果结构(但它们实际上能做什么)

Hugging Face Daily Papers 论文

摘要

本文质疑了诸如 Mamba 等模型中的预测瓶颈能够恢复因果结构的说法,并通过一个新的基准测试证明,其性能提升主要归因于混杂因素和鲁棒性伪影,而非真正的因果发现。

一个仅针对下一步预测训练的 Mamba 状态空间模型,似乎能够通过简单的读出公式 S = |W_{out} W_{in}| 恢复格兰杰(Granger)因果结构。早期实验表明,这一现象在不同架构中具有普适性,并且在干预数据下表现出显著优势(p < 10^{-5})。我们将用于检验该声称的协议——包括标准化的合成生成器(VAR/Lorenz/CauseMe 风格)、三种干预语义(do(X=c)、软噪声、随机强制)、三个真实数据集上的边来源卡片,以及尺寸匹配的控制组——打包为一个可重复使用的证伪基准测试,并通过五个阶段对该声称进行了验证。方法层面的声称未能通过检验:(i) 普通的线性瓶颈表现相当甚至更好;(ii) 经过调优的 Lasso 在合成 CauseMe 风格基准测试上优于瓶颈方法,而在 Lorenz-96(唯一具有明确真实标签的真实基准)上,经典的 PCMCI 和格兰杰因果分析领先,瓶颈方法紧随其后;(iii) 标题中提到的干预优势约有 60% 源于样本量混杂因素,剩余部分在标准的 do(X=c) 干预下消失,仅在非标准的随机强制方案下存留;(iv) 即使这剩余部分也能在经典的双变量格兰杰因果分析中以更大的效应复现——说明该效应与方法无关。唯一幸存的是一个狭窄的特征化结果;该基准测试是持久的成果,而上述每个阶段都是其控制组之一。
查看原文
查看缓存全文

缓存时间: 2026/05/13 04:13

论文页面 - 预测瓶颈无法发现因果结构(但它们实际上做了什么)

来源:https://huggingface.co/papers/2605.09169

本文证伪了“下一步预测瓶颈——尤其是 Mamba/SSM 的权重投影——能够恢复因果结构”的主张,指出其表现出的增益主要源于低秩回归、样本量混淆、干预语义伪影以及对目标破坏的鲁棒性,其主要持久贡献在于提供了一个可复用的证伪基准。

➡️ 他们针对“预测即因果发现”的证伪框架的关键亮点:

🧪 可复用的五阶段证伪基准:引入了一个以控制变量为核心的基准,涵盖 VAR、Lorenz-96、CauseMe 风格生成器、带有边溯源卡片(edge-provenance cards)的真实数据集、容量匹配的网络架构、大小匹配的观测对照,以及多种干预语义,用以严格测试“预测模型隐式恢复因果图”的主张。

🧩 权重投影因果性无法经受控制测试:测试了瓶颈预测器的提取规则(S = \|W_{out}W_{in}\|),结果显示线性瓶颈的表现与 Mamba SSM 相当甚至更优,在合成图恢复任务中经过调优的 Lasso 占据主导,而在干净的 Lorenz-96 真值上,经典的 PCMCI/Granger 类方法优于瓶颈模型。

🧠 干预增益是混淆因素,而非因果提取:表明所报告的干预优势主要来自额外的样本量以及非标准的每步随机强迫干预;在适当的 do(X_i=c) 干预下,该效应几乎消失,而剩余效应在经典的双变量 Granger 因果检验中甚至更为显著,这表明这是一种与方法无关的目标破坏鲁棒性,而非习得的因果发现能力。

相似文章

马尔可夫边界在表格预测中的好、坏与丑

Hugging Face Daily Papers

本文评估了马尔可夫边界在表格预测中的实际效果,发现尽管理论上最优,但由于计算限制和优化目标不匹配,当前的因果发现方法无法持续提升预测性能。

反事实行为的几何视角:决策边界接近性与局部数据支撑的交互作用

arXiv cs.LG

本文通过几何视角审视机器学习模型中的反事实行为,表明预测性能相似的模型,由于决策边界接近性与局部数据支撑之间的交互作用,其反事实结果可能大相径庭。研究结果将反事实行为视为与预测性能不同的独立维度,对模型选择及反事实解释方法的可靠性具有启示意义。