NeurIPS 使用未校准的 AI 检测器进行桌面拒稿 [D]
摘要
一篇投稿因未校准的 AI 检测器(Pangram)而被 NeurIPS 桌面拒稿,引发了对审稿流程循环性以及在目标分布上未经验证的误报率的担忧。
我最近有一篇投稿被 NeurIPS 2026 立场论文赛道以涉嫌违反 AI 政策为由桌面拒稿。在与赛道领导层沟通并阅读他们的公开博客文章后,我认为更广泛的方法论问题值得在此讨论。该赛道使用了专有 AI 文本检测器 Pangram 作为桌面拒稿流程的一部分。我被告知,桌面拒稿所考虑的材料包括:
* 检测器的输出
* 作者的 AI 使用声明
这产生了一个潜在的循环性问题。如果使用高检测分数来判断作者的声明不一致,而该不一致又被用来证明桌面拒稿的合理性,那么检测器就不仅仅是辅助工具,而是成为了裁决过程中的决定性部分。
更大的问题在于验证。NeurIPS 博客描述了使用 Pangram 审核、较旧的 ACM FAccT 论文、合成 AI 生成的立场论文以及手动编辑的样本进行的测试。但目标人群是 NeurIPS 2026 立场论文投稿,其真实作者归属过程是未知的。因此,关键问题是:**在真实目标分布上,最终决策程序的误报率是多少?**
在一个分布上测得的误报率不会自动迁移到另一个分布。如果实际投稿池产生了“惊人高的标记率”(引用 NeurIPS 博客文章),这可能表明分布偏移或校准误差。
为了对检测器的行为进行合理性检查,我还对 NeurIPS 立场论文赛道主席近期(2026 年)撰写的论文运行了 Pangram。Pangram 返回的分数包括:
* 69% AI
* 45% AI
* 36% AI
* 24% AI
我**并非**声称那些论文是由 AI 撰写的。对我而言,仅凭 Pangram 的输出无法得出这样的结论。而这一点正是问题的关键所在。
相似文章
顶级AI会议使用AI检测器拒绝涉嫌由AI撰写的论文
NeurIPS 2026使用了专有AI文本检测器,以涉嫌违反AI政策为由直接拒绝论文,但未在目标分布上验证该检测器;随后同一检测器又将会议主席自己的论文标记为可能由AI撰写。
基础模型被AI检测器视为人类
这篇论文揭示,GPTZero和Pangram等商用AI检测器将基础语言模型生成的文本判定为几乎完全是人类撰写,而经过指令微调的模型输出则被标记为AI生成。作者提出了HIP,一种与检测器无关的迭代改写流程,能在保持语义的同时提升文本的类人性。
Sem-Detect: 面向语义级别的AI生成同行评审检测方法
Sem-Detect 提出了一种结合文本特征与声明级语义分析的方法,用于区分AI生成的同行评审与人类撰写的评审。在0.1%假阳性率下,其真阳性率相比基线提升了25.5%,并且表明经过大语言模型润色的人类评审仍保留独特的语义信号,仅有不到3.5%被误判为AI生成。
这是一个AI胡说检测器:我每天使用它,它能捕捉到你独自发现不了的问题
一款名为Lighthouse的工具,由一位AI治理工程师构建,利用运行时验证来检测AI输出和写作中的认知漂移以及听起来自信的胡说八道。
微缺陷暴露宏观伪造:通过局部分布变化检测AI生成图像
一种局部分布感知的检测框架,通过放大微观尺度上的统计异常来识别AI生成图像,具有更高的准确率,在多个基准测试中优于基线检测器。