现实世界数据集是否包含自然实验？一项基于因果特征选择的实证研究

arXiv cs.AI 2026/06/03 04:00 论文

摘要

本文通过因果发现与特征选择，探究现实世界数据集是否包含自然实验，结果表明它们确实包含，并能提升模型性能。

arXiv:2606.03251v1 公告类型：新提交摘要：在自然界中，影响某些个体或群体而不影响其他个体或群体的事件构成了隐式干预，被称为自然实验。例如，COVID-19 疫情就是冠状病毒对感染 COVID 的子群体进行的一次干预。我们提出疑问：现有现实世界数据集中是否存在自然实验？如果存在，我们应如何处理？为了检测数据中的自然实验，我们使用因果发现来恢复潜在的因果图，并基于因果联系进行特征选择。如果将数据视为干预性而非观察性处理后，下游性能有所提升，我们认为这表明数据集包含自然实验。我们首先通过使用合成图模拟含与不含自然实验的数据集来验证这一假设。随后，我们在大量现实世界数据集上进行了系统的实证评估。结果表明，现实世界数据集确实包含自然实验，我们可以利用这些自然实验通过因果推断来提升模型性能。本研究是对该领域的初步探索，仅在有限范围内进行了初步尝试。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:43

# 现实世界数据集是否包含自然实验？基于因果特征选择的实证研究
来源：https://arxiv.org/abs/2606.03251
查看 PDF（https://arxiv.org/pdf/2606.03251）

> **摘要**：在自然界中，某些事件只影响部分个体或群体而不影响其他个体或群体，构成了隐含的干预，这类事件被称为自然实验。例如，COVID-19 大流行就是冠状病毒对感染 COVID 的亚人群实施的一次干预。我们提出一个问题：现有的现实世界数据集中是否也存在自然实验？如果存在，我们又应如何处理它们？为了检测数据中的自然实验，我们使用因果发现来恢复底层的因果图，并基于因果连接进行特征选择。如果通过将数据视为干预性而非观测性来改进下游性能，我们就认为这暗示该数据集包含自然实验。我们首先利用合成图模拟了包含和不包含自然实验的数据集，验证了这一假设。随后，我们在大量真实世界数据集上进行了系统的实证评估。结果表明，现实世界数据集确实包含自然实验，我们可以利用这些自然实验通过因果推断来提升模型性能。本工作是该领域的初步探索，仅在有限范围内进行了初步研究。

## 提交历史

来自：Gautam Gare [查看邮件（https://arxiv.org/show-email/e2d9d0e1/2606.03251）] **\[v1\]** 2026年6月2日星期二 07:12:30 UTC（5,942 KB）

现实世界数据集是否包含自然实验？一项基于因果特征选择的实证研究

相似文章

用于部分因果效应识别的最优实验

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

代理时代的因果发现

FoundCause: 从观测数据中发现存在潜在混杂因素的因果关系

大规模好奇心驱动学习研究

提交意见反馈