现实世界数据集是否包含自然实验?一项基于因果特征选择的实证研究
摘要
本文通过因果发现与特征选择,探究现实世界数据集是否包含自然实验,结果表明它们确实包含,并能提升模型性能。
arXiv:2606.03251v1 公告类型:新提交
摘要:在自然界中,影响某些个体或群体而不影响其他个体或群体的事件构成了隐式干预,被称为自然实验。例如,COVID-19 疫情就是冠状病毒对感染 COVID 的子群体进行的一次干预。我们提出疑问:现有现实世界数据集中是否存在自然实验?如果存在,我们应如何处理?为了检测数据中的自然实验,我们使用因果发现来恢复潜在的因果图,并基于因果联系进行特征选择。如果将数据视为干预性而非观察性处理后,下游性能有所提升,我们认为这表明数据集包含自然实验。我们首先通过使用合成图模拟含与不含自然实验的数据集来验证这一假设。随后,我们在大量现实世界数据集上进行了系统的实证评估。结果表明,现实世界数据集确实包含自然实验,我们可以利用这些自然实验通过因果推断来提升模型性能。本研究是对该领域的初步探索,仅在有限范围内进行了初步尝试。
查看缓存全文
缓存时间: 2026/06/03 09:43
# 现实世界数据集是否包含自然实验?基于因果特征选择的实证研究 来源:https://arxiv.org/abs/2606.03251 查看 PDF(https://arxiv.org/pdf/2606.03251) > **摘要**:在自然界中,某些事件只影响部分个体或群体而不影响其他个体或群体,构成了隐含的干预,这类事件被称为自然实验。例如,COVID-19 大流行就是冠状病毒对感染 COVID 的亚人群实施的一次干预。我们提出一个问题:现有的现实世界数据集中是否也存在自然实验?如果存在,我们又应如何处理它们?为了检测数据中的自然实验,我们使用因果发现来恢复底层的因果图,并基于因果连接进行特征选择。如果通过将数据视为干预性而非观测性来改进下游性能,我们就认为这暗示该数据集包含自然实验。我们首先利用合成图模拟了包含和不包含自然实验的数据集,验证了这一假设。随后,我们在大量真实世界数据集上进行了系统的实证评估。结果表明,现实世界数据集确实包含自然实验,我们可以利用这些自然实验通过因果推断来提升模型性能。本工作是该领域的初步探索,仅在有限范围内进行了初步研究。 ## 提交历史 来自:Gautam Gare [查看邮件(https://arxiv.org/show-email/e2d9d0e1/2606.03251)] **\[v1\]** 2026年6月2日星期二 07:12:30 UTC(5,942 KB)
相似文章
用于部分因果效应识别的最优实验
本文提出了“最大效力问题”,旨在选择受成本约束的实验,以最大程度地缩小部分因果效应的界限。作者提出了图形剪枝准则以减少搜索空间,并在NHANES健康数据集上展示了该方法的应用。
CausaLab: 面向AI科学家的可扩展交互式因果发现环境
CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。
代理时代的因果发现
本文认为,语言模型代理应通过提供上下文支持和解释来辅助因果发现工作流程,而非生成因果结论,并介绍了causal-learn+平台以演示这一原则。
FoundCause: 从观测数据中发现存在潜在混杂因素的因果关系
FoundCause 是一种摊销式因果关系发现模型,能够显式处理潜在混杂因素和缺失数据,在真实数据集上通过单次前向传播即可超越15种现有方法。
大规模好奇心驱动学习研究
OpenAI 展示了一项大规模实证研究,研究了在 54 个基准环境中不依赖外在奖励的好奇心驱动强化学习,展现了强大的性能,并探讨了特征空间在基于预测的奖励信号中的作用。