NeurIPS 使用未校准的 AI 检测器进行桌面拒稿 [D]

Reddit r/MachineLearning 2026/06/03 17:28 新闻

neurips ai-detector desk-rejection ai-policy false-positive conference methodology

摘要

一篇投稿因未校准的 AI 检测器（Pangram）而被 NeurIPS 桌面拒稿，引发了对审稿流程循环性以及在目标分布上未经验证的误报率的担忧。

我最近有一篇投稿被 NeurIPS 2026 立场论文赛道以涉嫌违反 AI 政策为由桌面拒稿。在与赛道领导层沟通并阅读他们的公开博客文章后，我认为更广泛的方法论问题值得在此讨论。该赛道使用了专有 AI 文本检测器 Pangram 作为桌面拒稿流程的一部分。我被告知，桌面拒稿所考虑的材料包括： * 检测器的输出 * 作者的 AI 使用声明这产生了一个潜在的循环性问题。如果使用高检测分数来判断作者的声明不一致，而该不一致又被用来证明桌面拒稿的合理性，那么检测器就不仅仅是辅助工具，而是成为了裁决过程中的决定性部分。更大的问题在于验证。NeurIPS 博客描述了使用 Pangram 审核、较旧的 ACM FAccT 论文、合成 AI 生成的立场论文以及手动编辑的样本进行的测试。但目标人群是 NeurIPS 2026 立场论文投稿，其真实作者归属过程是未知的。因此，关键问题是：**在真实目标分布上，最终决策程序的误报率是多少？** 在一个分布上测得的误报率不会自动迁移到另一个分布。如果实际投稿池产生了“惊人高的标记率”（引用 NeurIPS 博客文章），这可能表明分布偏移或校准误差。为了对检测器的行为进行合理性检查，我还对 NeurIPS 立场论文赛道主席近期（2026 年）撰写的论文运行了 Pangram。Pangram 返回的分数包括： * 69% AI * 45% AI * 36% AI * 24% AI 我**并非**声称那些论文是由 AI 撰写的。对我而言，仅凭 Pangram 的输出无法得出这样的结论。而这一点正是问题的关键所在。

查看原文

NeurIPS 使用未校准的 AI 检测器进行桌面拒稿 [D]

相似文章

顶级AI会议使用AI检测器拒绝涉嫌由AI撰写的论文

NeurIPS 2026 AI生成的评审 [D]

NeurIPS 2026 审稿人：AI生成的回复（及论文）[D]

基础模型被AI检测器视为人类

AI检测器有多准确？

提交意见反馈