关于AI评审员的局限与机遇:联合45位专家科学家评审Nature系列期刊论文的评审意见

arXiv cs.CL 论文

摘要

一项研究评估了AI评审员(GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro)与45位人类专家评审员对Nature系列期刊论文的评审表现,发现AI评审员在综合评审质量上可以超越评分最高的人类评审员,尽管其准确性略低,但能提出更多重要问题。

arXiv:2605.20668v1 公告类型:新 摘要:随着AI能力的提升,AI评审员开始被应用于科学同行评审中,但其能力和可信度仍存疑问:许多科学家仅将其视为概率系统,缺乏评估研究的专业知识,而其他研究者则对其准备程度持乐观态度,却缺乏具体证据。了解AI评审员的优势、不足以及仍存的挑战至关重要。然而,现有对AI评审员的评估主要关注其评审结论是否与人类一致(例如评分对齐、接收预测),这不足以刻画其能力与限制。本文通过一项大规模专家标注研究弥补了这一空白:45位来自物理、生物与健康科学领域的专家科学家共花费469小时,对来自82篇Nature系列期刊论文的人类撰写评审和AI生成评审中的2960条具体批评(每条针对论文的一个特定方面)在正确性、重要性和证据充分性上进行评分。在三个维度的综合评分上,基于GPT-5.2的评审智能体得分高于每篇论文评分最高的人类评审员(60.0% vs. 48.2%,p = 0.009),而所有三个AI评审员(包括Gemini 3.0 Pro和Claude Opus 4.5)在每个维度上都超过了评分最低的人类评审员。AI评审员准确的批评也更多被评定为重要且证据充分,并提出了26%的人类从未提出的独特问题。然而,AI评审员之间的重叠远高于人类(交叉评审员对的重叠率21% vs. 3%),并且表现出16个人类不常有的反复出现的弱点,例如子领域知识有限、缺乏对多个文件的长期上下文管理、以及对小问题过于挑剔。总体而言,我们的结果将当前的AI评审员定位为人类评审员的补充,而非替代。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:34

# 论AI审稿人的局限与机遇:45位专家科学家评阅《自然》系列论文的审稿意见分析 来源:https://arxiv.org/html/2605.20668

各审稿组“完全正面”率

| 审稿人 | 论文级别均值 [95% CI] | 条目级别比率 [95% CI] | 完全正面条目 | 条目总数 | 论文数 |
|---|---|---|---|---|---|
| 最高分人类 | 48.2 [42.2, 54.3] | 47.8 [44.9, 50.7] | 544 | 1,139 | 82 |
| 最低分人类 | 36.2 [30.0, 42.4] | 29.3 [26.3, 32.5] | 244 | 833 | 82 |
| GPT-5.2 | 60.0 [52.3, 67.4] | 58.6 [54.0, 63.1] | 259 | 442 | 81 |
| Claude Opus 4.5 | 53.1 [45.6, 60.7] | 54.7 [50.2, 59.2] | 260 | 475 | 81 |
| Gemini 3.0 Pro | 50.2 [42.7, 57.7] | 51.3 [46.7, 55.8] | 236 | 460 | 82 |

成对配对差异(论文级别,行−列;配对t检验)

| 比较 | 差异 | 95% CI (差异) | Cohen's d | p值 | n配对 |
|---|---|---|---|---|---|
| 最高分人类 vs 最低分人类 | +12.1% | [+5.3,+18.9] | +0.39 | 0.0007*** | 82 |
| 最高分人类 vs GPT-5.2 | -11.6% | [-20.3,-3.0] | -0.30 | 0.0091** | 81 |
| 最高分人类 vs Claude Opus 4.5 | -4.9% | [-13.0,+3.2] | -0.13 | 0.2300 | 81 |
| 最高分人类 vs Gemini 3.0 Pro | -2.0% | [-10.6,+6.7] | -0.05 | 0.6521 | 82 |
| 最低分人类 vs GPT-5.2 | -23.6% | [-32.3,-14.8] | -0.60 | <0.0001*** | 81 |
| 最低分人类 vs Claude Opus 4.5 | -16.5% | [-25.3,-7.6] | -0.41 | 0.0004*** | 81 |
| 最低分人类 vs Gemini 3.0 Pro | -14.1% | [-23.4,-4.7] | -0.33 | 0.0038** | 82 |
| GPT-5.2 vs Claude Opus 4.5 | +8.0% | [+0.8,+15.3] | +0.25 | 0.0294* | 80 |
| GPT-5.2 vs Gemini 3.0 Pro | +10.4% | [+4.1,+16.8] | +0.36 | 0.0016** | 81 |
| Claude Opus 4.5 vs Gemini 3.0 Pro | +2.2% | [-2.8,+7.3] | +0.10 | 0.3784 | 81 |

表4:GPT-5.2在审稿条目综合质量上超过了最高分人类,所有三个AI审稿人都超过了最低分人类。
上表:各组的完全正面率,汇总到论文级别(每篇论文权重相等;bootstrap 95% CI)和条目级别(论文按条目数量加权;Wilson 95% CI)。
下表:所有10个成对比较,基于每篇论文的比率,显示了配对差异(行−列)、95% CI、Cohen's d和p值;正数表示第一个列出的审稿人更高。
*p<0.05, **p<0.01, ***p<0.001。

##### AI审稿人正确率低于最高分人类,但提出了更多重要问题
§ 3 (https://arxiv.org/html/2605.20668#S3.SS0.SSS0.Px1) 报告了每个维度的论文级别均值,以及针对每个人类基线的成对效应量和p值。在**正确性**上,所有三个AI审稿人都比最高分人类(92.3%)低6到10个百分点:GPT-5.2达到86.2%(d=−0.23, p=.046),Claude Opus 4.5达到83.7%(d=−0.34, p=.003),Gemini 3.0 Pro达到81.9%(d=−0.42, p<.001)。然而,在**重要性**上,方向反转:在正确的条目中,所有三个AI审稿人提出的重要批评都多于最高分人类(在0到2的评分尺度上,平均重要性得分为1.39),GPT-5.2的秩双列相关系数为r=+0.49,Claude Opus 4.5为r=+0.30,Gemini 3.0 Pro为r=+0.42(所有p≤.028)。在**证据充分性**上,GPT-5.2和Claude Opus 4.5的得分略高于最高分人类(分别为d=+0.23和+0.24,均p<.05),而Gemini 3.0 Pro在统计上无显著差异(d=−0.10, p=.380)。与最低分人类相比,所有三个AI审稿人在每个维度上都达到或超过,其中重要性显示出最大增益(r=+0.43到+0.56)。综合来看,这些结果揭示了一个**正确性与重要性之间的权衡**:AI审稿人提出更多重要问题,证据也相当或更好,但正确性低于最高分人类审稿人。

##### 在审稿条目综合质量上,所有AI审稿人都超过最低分人类,GPT-5.2超过最高分人类
上述维度层面的结果并不能直接告诉我们每位审稿人中有多大比例的条目对作者完全有用:一个正确但不重要的批评,或者重要但证据不足的批评,提供不了多少可操作的反馈。因此,我们考察了上文定义的**完全正面**率。如表4 (https://arxiv.org/html/2605.20668#S3.T4) 所示,论文级别的完全正面率均值,最高分人类为48.2%,最低分人类为36.2%,GPT-5.2为60.0%,Claude Opus 4.5为53.1%,Gemini 3.0 Pro为50.2%。GPT-5.2超过最高分人类11.6个百分点(配对差异:最高分人类−GPT-5.2,d=−0.30, p=.009),而Claude Opus 4.5和Gemini 3.0 Pro与最高分人类在统计上无显著差异(分别为p=.23和p=.65)。所有三个AI审稿人都大幅超过最低分人类(差异为+14.1到+23.6个百分点,所有p≤.004)。在AI审稿人中,GPT-5.2平均产生最高质量的条目,显著高于Claude Opus 4.5(d=+0.25, p=.029)和Gemini 3.0 Pro(d=+0.36, p=.002),而后两者之间在统计上无显著差异。

| 审稿人 | vs 最高分人类 | vs 最低分人类 |
|---|---|---|
| | 胜率 [95% CI] | 胜率 [95% CI] |
| GPT-5.2 | 48.6% [38.7, 58.5] | 73.4% [64.2, 82.4] |
| Claude Opus 4.5 | 32.1% [22.5, 42.0] | 68.8% [58.9, 78.4] |
| Gemini 3.0 Pro | 30.3% [21.6, 39.4] | 59.6% [50.4, 69.2] |

表5:专家科学家判断,GPT-5.2的审稿意见在近半数论文上达到或超过最高分人类审稿人的意见。
每位AI审稿人在达到或超过人类基准的论文中所占比例(n=109个观测值,覆盖82篇论文,95%聚类bootstrap CI)。

##### 专家判定的对人类的胜率证实了整体情况
除了逐条比较外,每位领域科学家还提供了论文级别的判断,即哪些AI审稿人的整体质量达到或超过了每位人类基准(§ 2.4 (https://arxiv.org/html/2605.20668#S2.SS4))。如表5 (https://arxiv.org/html/2605.20668#S3.T5) 所示,这些整体评估与综合质量结果高度一致。GPT-5.2被判定在48.6%的论文上达到或超过最高分人类,在73.4%的论文上达到或超过最低分人类。Claude Opus 4.5和Gemini 3.0 Pro在与最高分人类的比较中明显落后于GPT-5.2(分别为30.3%和32.1%),但两者在大多数论文上都超过了最低分人类基准(分别为59.6%和68.8%)。这一排序与表4 (https://arxiv.org/html/2605.20668#S3.T4) 中的完全正面率排序一致,表明专家的整体判断很好地反映了逐条评分的综合结果。

##### 小结:AI审稿人提出更多重要条目但正确率较低;仅GPT-5.2在综合上超过最高分人类
综合来看,三个分析(§ 3 (https://arxiv.org/html/2605.20668#S3.SS0.SSS0.Px1) 的维度层面分析、表4 (https://arxiv.org/html/2605.20668#S3.T4) 的综合条目质量分析,以及表5 (https://arxiv.org/html/2605.20668#S3.T5) 的专家判定的论文级别匹配分析)得出一致的结论。当前前沿的AI审稿人,在配备工具以访问论文完整源文件、代码和外部文献后,产生的审稿条目比一篇论文的最佳人类审稿人更频繁地揭示重要问题,并且证据充分。然而,这是以事实正确性为代价的:每位AI审稿人都提出了非少量的专家判定为不正确或表述不清的条目。总体效果因模型而异:GPT-5.2更高的重要性和证据比率足以弥补其正确性差距,因此其审稿意见在综合上被判定为达到或超过最佳人类审稿人;对于Claude Opus 4.5和Gemini 3.0 Pro,其正确性差距相对于重要性增益更大,使其处于最高分人类和最低分人类基准之间。采用带论文级别随机截距的广义线性混合模型(GLMM)分析也得出了相同结论(附录C (https://arxiv.org/html/2605.20668#A3))。

## 4 AI审稿意见与人类审稿意见在多大程度上重叠?
##### 动机
如果说§ 3 (https://arxiv.org/html/2605.20668#S3) 比较了AI与人类审稿人在每条审稿条目质量上的差异,那么本节则探讨不同审稿人所提出的批评之间如何相互关联,而不以其中任何一方作为标准答案。其动因在于,多审稿人同行评议的很大一部分价值来自于不同审稿人为稿件带来的**视角多样性** (Page, 2008 (https://arxiv.org/html/2605.20668#bib.bib35)):指派一组具有不同专业知识的审稿人,既能提高对稿件的覆盖范围,又能减少审稿意见之间的重复 (Goyal等, 2024 (https://arxiv.org/html/2605.20668#bib.bib36))。因此,AI审稿人是促进还是削弱这种多样性,并不取决于它们各自的质量,而是取决于它们所批评的目标是否与人类审稿人所批评的目标重叠。

##### 定义两条审稿条目何时重叠
每条审稿条目可分解为三个组成部分。**目标**是论文中被指出的具体部分:一个章节、一张图、一个公式、一段代码功能、一份补充文件或一个具体主张。**批评**是审稿人就目标所表达的内容:它有什么问题、缺少什么、或需要如何改进。**证据**是支持批评的内容:来自手稿的引用文本、代码块或外部参考文献。为了具体说明这一区分:如果两位审稿人都指出了论文中的图2,但一位说误差线缺失,另一位说配色方案不友好,那么他们共享相同目标(图2)但提出了不同的批评;如果两位都说误差线缺失,但引用了方法部分的不同句子作为证据,那么他们共享相同目标和相同批评,但使用了不同的证据。沿着这三个组成部分比较两条审稿条目,会得到四个互斥的类别:(1)**不同目标**;(2)**相同目标,不同批评**;(3)**相同目标,相同批评,不同证据**;(4)**相同目标,相同批评,相同证据**(近乎同义复述)。如果一对条目共享相同目标和相同批评(类别3和4),我们将其归类为**相似**,否则为**不相似**。这一分类法源于领域科学家自身在自由形式的论文级别调查回复中如何处理重叠问题;更多细节见§ D.2 (https://arxiv.org/html/2605.20668#A4.SS2)。

##### 自动化相似性判断
65,704个跨审稿人配对数量太大,无法手动标注。我们使用一个基于LLM的相似性判断器(GPT-5.4),该判断器针对164个配对的人工标注集进行校准,在此标注集上实现了92.7%的二分类准确率(相似 vs. 不相似)和83.5%的四分类准确率,敏感性为87.1%,特异性为96.8%。为了将判断器的表观患病率转换为真实患病率的估计值,我们应用了Rogan-Gladen患病率校正 (Rogan and Gladen, 1978 (https://arxiv.org/html/2605.20668#bib.bib34))。本节报告的所有百分比均为Rogan-Gladen校正后的值,并附带95%聚类bootstrap CI(10,000次论文级别重抽样),该置信区间传播了判断器错误率和跨论文方差中的不确定性。关于校准集、候选判断器的比较、混淆矩阵及校正过程的全部细节见附录D (https://arxiv.org/html/2605.20668#A4)。

| 指标 | 数值 | 95% CI |
|---|---|---|
| 被1个AI审稿人覆盖的人类条目 | 26.9% | [21.3, 32.6] |
| 被3个AI审稿人覆盖的人类条目 | 46.3% | [39.4, 53.9] |
| 被1个AI覆盖的完全正面人类条目 | 36.3% | [29.6, 43.6] |
| 被3个AI覆盖的完全正面人类条目 | 59.2% | [50.2, 69.1] |
| 被≥1位人类审稿人覆盖的AI条目 | 74.0% | [65.5, 84.1] |
| 未被覆盖的AI条目(无人类匹配) | 26.0% | [15.9, 34.5] |
| 未被覆盖的AI条目中完全正面的比例 | 48.1% | [39.6, 56.6] |
| 未被覆盖的AI条目中正确的比例 | 81.8% | [75.3, 87.9] |

表6:AI审稿人对人类关注的覆盖情况。“被覆盖”指至少有一个跨审稿人条目对被归类为相似(相同目标和相同批评)。按论文级别对每对审稿人进行平均;经Rogan-Gladen校正。

| 指标 | 未被覆盖 | 匹配 | χ² | p值 |
|---|---|---|---|---|
| 正确性 | 81.8% (79) | 84.4% (81) | 1.45 | 0.229 |
| 重要性≥1† | 87.4% (75) | 91.8% (80) | 2.81 | 0.094 |
| 重要性=2† | 57.6% (75) | 63.5% (80) | 14.98 | <0.001*** |
| 证据充分‡ | 93.5% (71) | 93.2% (80) | 0.00 | 0.971 |
| 完全正面(综合) | 48.1% (79) | 54.8% (81) | 13.71 | <0.001*** |

表7:未被覆盖的AI条目同样正确且证据充分,但被评为高度重要的比例较低。“未被覆盖”/“匹配”指没有/有相似人类对应物的AI条目。括号内为N(论文数)。†在正确条目中(级联筛选)。‡在正确且至少具有边际重要性的条目中。***p<0.001(χ²检验)。

##### AI审稿人提出但人类审稿人未提出的审稿条目是正确的且证据充分
一个自然的首要问题是,AI审稿人是否增加了人类审稿人未涉及的内容,以及这些新增内容是宝贵的贡献还是虚假的噪音。表6 (https://arxiv.org/html/2605.20668#S4.T6) 显示,74.0%的AI提出条目在至少一位人类的审稿意见中有相似对应物(我们称之为**匹配的**),剩下26.0%没有相似的人类对应物(**未被覆盖的**)。对未被覆盖与匹配的AI条目进行的组成部分层面比较(表7 (https://arxiv.org/html/2605.20668#S4.T7))表明,未被覆盖的条目并非幻觉,也非证据不足:它们的正确率(81.8%)和证据充分率(93.5%)在统计上与匹配的AI条目(正确率84.4%,p=0.23;证据充分率93.2%,p=0.97)无显著差异。将这两组条目区分开来的是被评为**高度**重要的比例:未被覆盖的为57.6%,匹配的则为63.5%(p<0.001),且这一差距在所有三个AI审稿人模型中一致出现。这并不与§ 3 (https://arxiv.org/html/2605.20668#S3) 中关于AI审稿人整体上提出比人类审稿人更多重要条目的发现相矛盾:AI条目中与人类关注点重叠的部分,倾向于也是人类标出的条目;而未被覆盖的AI条目,顾名思义,对应着人类未提出的观察意见。我们的解读是,AI审稿人能够可靠地发现人类审稿人也会提出的主要关注点,并且**额外**提出大量有效、有充分支持但人类遗漏的观察意见,这些意见往往重要性相对较低。

见图注
图4:AI审稿人彼此之间的重叠程度远高于人类,而AI审稿人群覆盖了大多数人类目标,但仅覆盖了约一半的具体批评。
(左图)跨审稿人条目对在四个相似性类别中的分布,分为人类-人类、人类-AI和AI-AI配对类型。
(右图)一位审稿人的条目被另一位审稿人在三个逐渐严格的相似性阈值下覆盖的比例:至少相同目标、至少相同批评、精确匹配

相似文章

对AI辅助同行评议的操纵给科学界带来新风险

arXiv cs.CL

一项新研究表明,AI辅助的同行评审易通过廉价手段被操控——仅需对论文摘要进行表面改写,即可显著提高AI生成的评审分数,并可能使人类编辑决策产生偏差,凸显了建立防护措施的必要性。

AI编写的评论帮助人类发现缺陷

OpenAI Blog

# AI编写的评论帮助人类发现缺陷 来源:[https://openai.com/index/critiques/](https://openai.com/index/critiques/) 我们希望确保未来执行极困难任务的AI系统始终与人类意图保持一致。[Many⁠](https://openai.com/index/learning-to-summarize-with-human-feedback/)[previous⁠\(opens in a new window\)](https://arxiv.org/abs/2204.05862)[works⁠\(opens in a new window\)](https://www.deepmind.com/publications/gophercite-teaching-language-models-to-suppo