预测瓶颈无法发现因果结构(但它们实际上能做什么)
摘要
本文质疑了诸如 Mamba 等模型中的预测瓶颈能够恢复因果结构的说法,并通过一个新的基准测试证明,其性能提升主要归因于混杂因素和鲁棒性伪影,而非真正的因果发现。
查看缓存全文
缓存时间: 2026/05/13 04:13
论文页面 - 预测瓶颈无法发现因果结构(但它们实际上做了什么)
来源:https://huggingface.co/papers/2605.09169
本文证伪了“下一步预测瓶颈——尤其是 Mamba/SSM 的权重投影——能够恢复因果结构”的主张,指出其表现出的增益主要源于低秩回归、样本量混淆、干预语义伪影以及对目标破坏的鲁棒性,其主要持久贡献在于提供了一个可复用的证伪基准。
➡️ 他们针对“预测即因果发现”的证伪框架的关键亮点:
🧪 可复用的五阶段证伪基准:引入了一个以控制变量为核心的基准,涵盖 VAR、Lorenz-96、CauseMe 风格生成器、带有边溯源卡片(edge-provenance cards)的真实数据集、容量匹配的网络架构、大小匹配的观测对照,以及多种干预语义,用以严格测试“预测模型隐式恢复因果图”的主张。
🧩 权重投影因果性无法经受控制测试:测试了瓶颈预测器的提取规则(S = \|W_{out}W_{in}\|),结果显示线性瓶颈的表现与 Mamba SSM 相当甚至更优,在合成图恢复任务中经过调优的 Lasso 占据主导,而在干净的 Lorenz-96 真值上,经典的 PCMCI/Granger 类方法优于瓶颈模型。
🧠 干预增益是混淆因素,而非因果提取:表明所报告的干预优势主要来自额外的样本量以及非标准的每步随机强迫干预;在适当的 do(X_i=c) 干预下,该效应几乎消失,而剩余效应在经典的双变量 Granger 因果检验中甚至更为显著,这表明这是一种与方法无关的目标破坏鲁棒性,而非习得的因果发现能力。
相似文章
无需数据清洗即可获得高质量预测(为何“垃圾进,垃圾出”有时是一种误区)
这篇arXiv预印本挑战了“垃圾进,垃圾出”的经验法则,认为在高维表格数据中,激进的手动数据清洗可能会通过减少三角测量潜在驱动因素所需的维度,从而限制预测性能。
真实场景下的对比归因:针对现实基准中大模型失效的可解释性分析
研究者采用基于LRP的对比归因方法,分析大模型在现实基准中失败的原因,发现该方法在某些场景下能提供有用信号,但并非始终可靠。
OceanCBM:一种用于海洋预报机制可解释性的概念瓶颈模型
OceanCBM 是一种用于海洋预报中时空预测和机制可解释性的概念瓶颈模型,它采用混合监督来预测混合层热含量,同时施加软物理结构。该模型在不牺牲预测技能的情况下,实现了可解释、基于物理的表示。
PROMETHEUS:自动化深度因果研究,整合文本、数据与模型
本文介绍了PROMETHEUS框架,该框架利用大型语言模型从文本中提取局部因果主张,并将其组织成可导航的因果图谱,从而在多个领域实现深度因果研究。
出于必要性的偏差:收敛式人工智能与人类验证中顺序处理的不可能性定理
本文证明了不可能性定理,表明由于因果掩码(causal masking)约束,首要效应(primacy effects)、锚定效应(anchoring)和顺序依赖性(order-dependence)是自回归语言模型中架构上必然存在的偏差。作者跨越12种前沿大语言模型验证了这些理论界限,并通过涉及工作记忆负荷的预注册人类实验证实了相关预测。