有多少已发表的AI研究因数据泄露而错误？

Reddit r/artificial 2026/06/01 18:15 新闻

data-leakage ai-research reproducibility machine-learning research-integrity methodology

摘要

普林斯顿大学的一项研究发现，在17个领域的近300篇AI论文中存在数据泄露问题，导致结果过于乐观。作者强调了意外泄露数据的容易程度，并提醒不要轻信那些令人印象深刻的AI声明而不检查是否存在泄露。

有一篇由Kapoor和Narayanan撰写的普林斯顿大学论文。他们在包括医学和经济学在内的17个领域的近300篇论文中发现了数据泄露。数据泄露意味着模型在训练时使用了它在进行真实预测时永远不会拥有的信息。因此，模型在测试集上表现优异，但在现实世界中却失败。我最喜欢的例子是内战预测。据报道，复杂模型击败了旧的逻辑回归。一旦数据泄露被修复，那些花哨的模型并不比几十年前的统计模型更好。我构建过足够多的模型，知道这有多容易意外发生。你在划分数据之前进行缩放，或者使用一个实际上是答案替代的特征，你的数字看起来就会很棒。所以现在当我读到另一个"AI攻克X"的标题时，我的第一反应是是否有人检查过数据泄露。

查看原文

有多少已发表的AI研究因数据泄露而错误？

相似文章

最重要的AI失败可能是虚假自信，而非错误答案

研究人员刚刚在医学论文中发现28个虚假AI引用

MosaicLeaks：你的研究助手能保守秘密吗？

我是一名专业事实核查员。AI的错误比你想象的更频繁

对AI辅助同行评议的操纵给科学界带来新风险

提交意见反馈