预测瓶颈无法发现因果结构(但它们实际上能做什么)
摘要
本文质疑了诸如 Mamba 等模型中的预测瓶颈能够恢复因果结构的说法,并通过一个新的基准测试证明,其性能提升主要归因于混杂因素和鲁棒性伪影,而非真正的因果发现。
查看缓存全文
缓存时间: 2026/05/13 04:13
论文页面 - 预测瓶颈无法发现因果结构(但它们实际上做了什么)
来源:https://huggingface.co/papers/2605.09169
本文证伪了“下一步预测瓶颈——尤其是 Mamba/SSM 的权重投影——能够恢复因果结构”的主张,指出其表现出的增益主要源于低秩回归、样本量混淆、干预语义伪影以及对目标破坏的鲁棒性,其主要持久贡献在于提供了一个可复用的证伪基准。
➡️ 他们针对“预测即因果发现”的证伪框架的关键亮点:
🧪 可复用的五阶段证伪基准:引入了一个以控制变量为核心的基准,涵盖 VAR、Lorenz-96、CauseMe 风格生成器、带有边溯源卡片(edge-provenance cards)的真实数据集、容量匹配的网络架构、大小匹配的观测对照,以及多种干预语义,用以严格测试“预测模型隐式恢复因果图”的主张。
🧩 权重投影因果性无法经受控制测试:测试了瓶颈预测器的提取规则(S = \|W_{out}W_{in}\|),结果显示线性瓶颈的表现与 Mamba SSM 相当甚至更优,在合成图恢复任务中经过调优的 Lasso 占据主导,而在干净的 Lorenz-96 真值上,经典的 PCMCI/Granger 类方法优于瓶颈模型。
🧠 干预增益是混淆因素,而非因果提取:表明所报告的干预优势主要来自额外的样本量以及非标准的每步随机强迫干预;在适当的 do(X_i=c) 干预下,该效应几乎消失,而剩余效应在经典的双变量 Granger 因果检验中甚至更为显著,这表明这是一种与方法无关的目标破坏鲁棒性,而非习得的因果发现能力。
相似文章
可观测模式并非解释:隐式推理模型的因果几何分析
本文分析了隐式推理模型(LRM),并论证隐状态中的可观测模式并非推理的因果解释;它倡导在可解释性研究中采用匹配对照和因果测试。
马尔可夫边界在表格预测中的好、坏与丑
本文评估了马尔可夫边界在表格预测中的实际效果,发现尽管理论上最优,但由于计算限制和优化目标不匹配,当前的因果发现方法无法持续提升预测性能。
FoundCause: 从观测数据中发现存在潜在混杂因素的因果关系
FoundCause 是一种摊销式因果关系发现模型,能够显式处理潜在混杂因素和缺失数据,在真实数据集上通过单次前向传播即可超越15种现有方法。
基于分数的潜在变量因果模型因果发现
本文介绍了在存在潜在变量情况下进行因果发现的基于分数的方法,提供了一致性和分数等价性的理论保证,并统一了几种基于约束的方法。
反事实行为的几何视角:决策边界接近性与局部数据支撑的交互作用
本文通过几何视角审视机器学习模型中的反事实行为,表明预测性能相似的模型,由于决策边界接近性与局部数据支撑之间的交互作用,其反事实结果可能大相径庭。研究结果将反事实行为视为与预测性能不同的独立维度,对模型选择及反事实解释方法的可靠性具有启示意义。