有多少已发表的AI研究因数据泄露而错误?

Reddit r/artificial 新闻

摘要

普林斯顿大学的一项研究发现,在17个领域的近300篇AI论文中存在数据泄露问题,导致结果过于乐观。作者强调了意外泄露数据的容易程度,并提醒不要轻信那些令人印象深刻的AI声明而不检查是否存在泄露。

有一篇由Kapoor和Narayanan撰写的普林斯顿大学论文。他们在包括医学和经济学在内的17个领域的近300篇论文中发现了数据泄露。数据泄露意味着模型在训练时使用了它在进行真实预测时永远不会拥有的信息。因此,模型在测试集上表现优异,但在现实世界中却失败。我最喜欢的例子是内战预测。据报道,复杂模型击败了旧的逻辑回归。一旦数据泄露被修复,那些花哨的模型并不比几十年前的统计模型更好。我构建过足够多的模型,知道这有多容易意外发生。你在划分数据之前进行缩放,或者使用一个实际上是答案替代的特征,你的数字看起来就会很棒。所以现在当我读到另一个"AI攻克X"的标题时,我的第一反应是是否有人检查过数据泄露。
查看原文

相似文章

最重要的AI失败可能是虚假自信,而非错误答案

Reddit r/ArtificialInteligence

本文认为,最危险的AI失败并非源于错误答案,而是系统基于不完整的数据、过时的上下文或糟糕的假设,以虚假自信行事。这表明AI评估应优先考虑处理不确定性的能力,而非原始智能。

MosaicLeaks:你的研究助手能保守秘密吗?

Hugging Face Blog

MosaicLeaks 提出了一个新的基准,用于衡量深度研究型AI助手的隐私泄露情况,结果表明这些助手经常通过外部查询泄露私人信息,并提出了一种训练方法(PA-DR),在降低泄露的同时提升任务性能。

对AI辅助同行评议的操纵给科学界带来新风险

arXiv cs.CL

一项新研究表明,AI辅助的同行评审易通过廉价手段被操控——仅需对论文摘要进行表面改写,即可显著提高AI生成的评审分数,并可能使人类编辑决策产生偏差,凸显了建立防护措施的必要性。