代理审核系统基准测试

arXiv cs.AI 2026/06/20 04:00 论文

benchmarking agentic-review peer-review llm evaluation open-source proprietary

摘要

本文对用于同行评审的代理审核系统进行基准测试，评估了开源和专有系统在研究论文上的表现。最佳配置实现了83.0%的成对准确率，并捕获了71.6%的注入错误，但用户反馈强调了误报和吹毛求疵的问题。

arXiv:2606.19749v1 公告类型：新摘要：一类新型的代理审核系统正在兴起，用以缓解AI辅助研究给同行评审系统带来的压力，但目前尚不清楚应如何评估这些系统。我们评估了两个开源系统（OpenAIReview和coarse）、一个专有系统（Reviewer3）以及一个零样本基线，涉及涵盖前沿和高效模型的六种LLM。首先，我们研究在ICLR/NeurIPS论文上，AI评审是否与论文质量（通过引用和录用决定等外部信号近似衡量）保持一致。所有系统在成对准确率上均高于随机水平，最佳表现是OpenAIReview + GPT-5.5，达到83.0%。其次，为测试系统能否捕获已知真实错误的答案，我们构建了一个扰动基准，在八个arXiv学科类别的论文中注入四类错误，并测量检测召回率。最强配置（OpenAIReview + GPT-5.5）捕获了71.6%的注入错误，仍有较大改进空间。六个模型检测结果的并集召回率达到83.3%，表明不同模型能检测到不同错误，更好的流程设计可能进一步提升性能。除了这些基准测试，我们还研究了OpenAIReview面向真实用户的公开部署。其评论投票偏向正面，比例为1.44:1，最常见的投诉是关于误报和细枝末节的吹毛求疵。总体而言，通过评估由最先进模型支持的完整评审系统在真实研究论文上的表现，我们表明：尽管AI评审仍有改进空间，但它们已经能够很好地跟踪人类质量判断、捕获重要错误，并获得真实用户的正面反馈。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:32

# 基准测试智能评审系统

来源：https://arxiv.org/html/2606.19749

Dang Nguyen1††致谢：[email protected]，Wanqing Hao1，Yanai Elazar2，Chenhao Tan1  
1芝加哥大学，2巴伊兰大学

###### 摘要

AI辅助研究给同行评审系统带来压力，催生出一类新型智能评审系统，但其评估方式尚不明确。我们评估了两个开源系统（OpenAIReview和‘coarse）、一个专有系统（Reviewer3）以及一个零样本基线，涵盖六个前沿与高效LLM。首先，我们研究AI评审对ICLR/NeurIPS论文的评价是否与引用量、录用决定等外部信号所反映的论文质量相关。每个系统在成对准确率上均高于随机水平，最佳系统为OpenAIReview + GPT-5.5，达到83.0%。其次，为测试系统能否捕捉有真值标签的错误，我们构建了一个扰动基准，向八个arXiv学科类别的论文中注入四类错误，并测量检测召回率。最强配置（OpenAIReview + GPT-5.5）捕捉了71.6%的注入错误，仍有较大改进空间。六个模型的联合检测召回率可达83.3%，表明不同模型检测不同错误，更好的系统设计有可能进一步提升性能。除基准测试外，我们还研究了OpenAIReview在真实用户中的公开部署。对其评论的投票偏向正面，赞踩比为1.44:1，最常见的抱怨是误报和细微挑剔。综合来看，通过评估由顶尖模型支持、针对真实研究论文的完整评审系统，我们表明：AI评审虽有改进空间，但已能很好追踪人类质量判断、捕捉重要错误，并获得真实用户的积极反馈。

## 1 引言

图1：AI评审系统可以生成有用的评审。(1) 在ICLR/NeurIPS论文上，每个系统的最佳后端产生不同的评论量（上图），但每个系统在区分低质量与高质量论文时，鉴别能力均高于随机水平（下图）。(2) 我们向论文中注入受控错误，并检查评审是否标记了被扰动的段落。(3) 最强配置（OpenAIReview + GPT-5.5）捕捉了71.6%的注入错误。

同行评审面临着日益增长的压力：AI辅助论文增加了投稿量，淹没了评审系统（Liu and Tan, 2026；Lu et al., 2024）。Liu和Tan（2026）将此动态形式化为“评审死亡螺旋”：随着投稿超出评审能力，评审准确性下降，录用变得更随机，弱论文被吸引来“碰运气”，进一步加重评审负担，使系统走向急剧崩溃。他们的分析指出，只有提高“评审精度”（区分高质量与低质量论文的能力）才能稳定系统，这使得AI辅助评审成为一种必要的补救措施。事实上，主要会议已经开始将LLM整合到评审流程中，并取得了有希望的结果（ICML Program Committee, 2026；Biswas et al., 2026）。

与此同时，基于LLM的自动化评审系统应运而生，包括专有系统如Refine（Calvó López and Golub, 2025）和Reviewer3（Reviewer3, 2025），以及开源系统如OpenAIReview（Chicago Human+AI Lab, 2025）和‘coarse（Van Dijcke, 2025）。这些系统支持多智能体设置、结构化提示以及不同形式的上下文管理，能够对论文片段输出详细反馈，而不仅仅是评分或录用决定。尽管有一些关于它们有用性的积极轶事，但还不清楚这些评审系统之间如何比较。此前的基准测试要么规模较小，要么评估的是原始LLM而非整体系统（Liu and Shah, 2023；Tyser et al., 2024；Xi et al., 2025），而且自那以后模型也有了显著改进。现在是重新审视AI评审系统基准测试的恰当时机，使用更强的模型、进行系统级比较，并基于真实论文。

我们首先研究OpenAIReview、‘coarse和Reviewer3等AI评审系统是否能够与来自不同来源的论文质量相关联，包括社区引用量、会议决定、评审评分以及三者的综合指标。例如，高引用量可能表明论文强，低引用量表明论文弱。我们发现，AI评审系统在ICLR/NeurIPS论文上捕捉到了这一信号，尽管它们并未被明确训练来近似录用决定。在假设弱论文（根据这些代理指标）应该收到更多评论的前提下，我们计算了系统在随机抽取的（低质量，高质量）论文对上的准确率。每个系统分配给低质量论文的评论数量均高于随机水平，并且最强信号出现在前沿模型上（OpenAIReview + GPT-5.5达到0.83成对准确率）。这一趋势在不同模型上一致，并随模型能力增强而增加，表明当今模型在评审中能提供有用信号。

然而，在识别论文中所有错误方面，模型远非完美。上述质量代理研究仅限于ICLR/NeurIPS投稿，这里我们超越单一领域，构建了一个全面的*扰动基准*，向原本良好的论文中引入错误，并评估AI评审系统对这些错误的召回率。该基准涵盖从计量经济学到基因组学的八个arXiv学科类别，包含四类错误：局部数学编辑、虚假主张、错误推理、实验设计或分析错误。最强配置（OpenAIReview搭配GPT-5.5）捕捉了71.6%的注入错误（图1，右图）。OpenAIReview相对于零样本基线的最大提升出现在散文级错误上（例如，错误推理从36.8%提升到68.4%），而数学标记编辑的提升较小。这与OpenAIReview支持长论文评审的运行摘要设计一致，因为散文级错误通常比局部数学编辑跨越更长的上下文。尽管召回率尚未完美，但通过更好的系统设计可以实现改进。OpenAIReview下的不同后端模型具有互补性：所有模型组合的召回率达到83.3%，比GPT-5.5高出11.7个百分点。这些发现共同表明，AI评审系统有潜力被用于会议评审，并且可以设计出在所有评估维度上表现良好的新系统。

然后，我们从受控基准转向实际使用。我们将OpenAIReview部署为公开网络工具，收集了1,360条针对1,100篇论文的评审反馈。用户对评论的投票偏正面，赞踩比为1.44:1，许多评论被标记为已解决，证明这些评审在实践中具有价值。按原因对差评评论进行分类显示，主要弱点是评论精度：大多数抱怨集中在误报和细微挑剔上。

综上所述，我们的贡献如下：

- 我们引入了一个基于扰动的基准，发现最强系统能捕捉约71.6%的注入错误。
- 我们证明，当今的AI评审系统无需明确训练，就能以66–83%的准确率捕捉论文质量信号，且更强模型信号更强。
- 我们发现，模型经常评论不相交的段落集合，组合它们可以得到更高的召回率。
- 在OpenAIReview的公开部署中，用户对其评论投正面票（赞踩比1.44:1），主要弱点是评论精度，大多数抱怨是误报和细微挑剔。

## 2 相关工作

#### 自动化评审系统。
早期工作使用较小的骨干模型进行LLM辅助评审，从方面级摘要（Yuan et al., 2022）到直接对完整论文提供GPT-4反馈（Liang et al., 2024）。最近的系统将前沿LLM封装在多阶段管道中（章节级多智能体管道（D'Arcy et al., 2024）、评分准则顺序提示（Tyser et al., 2024）、基于专用评审链式思维语料库训练的结构化推理智能体（Gao et al., 2025）、以及将评审作为下游阶段嵌入的完整研究管道（Lu et al., 2024）），以输出详细的咨询反馈而非接受/拒绝决定。我们的基准针对这一空间的不同部分：我们不评估上述学术原型，而是评估作者今天实际可以运行的公开评审系统（OpenAIReview（Chicago Human+AI Lab, 2025）、‘coarse（Van Dijcke, 2025）以及商业系统Reviewer3（Reviewer3, 2025）），同时搭配一个零样本单提示基线，并对每个系统作为完整管道进行评分，而不是替换其底层LLM。

#### 基于扰动的错误检测。
注入受控错误并测量评审是否捕捉到它们，是一种具有悠久NLP传统的重复评估思路（Gardner et al., 2020; Kaushik et al., 2020; Talmor et al., 2020; Ribeiro et al., 2020; Kassner and Schütze, 2020; Sai et al., 2021）。就论文评审而言，早期工作手动向短论文中注入少量错误（Liu and Shah, 2023; Tyser et al., 2024），而同期基准FLAWS（Xi et al., 2025）和SPECS（Biswas et al., 2026）将此扩展到ICML和AAAI论文。我们的不同之处在于：按错误*类型*（数学、主张、推理、实验）而非评审方面进行扰动，在六个LLM上变化模型，并基准测试独立开发的第三方系统之间的正面比较，而非原始LLM提示。

#### LLM vs. 人类。
近期有若干工作比较LLM和人类评审：Liang等人（2024）发现GPT-4能捕捉共识批评，但更强调广泛影响而低估新颖性。Li等人（2025）报告LLM评审偏向优点而非缺点，且批评复杂性几乎不随论文质量提升。Gao等人（2025）引入ReviewBench用于LLM与人类的直接比较。我们的质量代理相关性研究提供了一个补充信号，即对真实ICLR/NeurIPS论文的评论行为，涵盖四个质量代理、三个评审系统和六个模型。

## 3 OpenAIReview

OpenAIReview（Chicago Human+AI Lab, 2025）是一个开源系统，输入完整论文，返回评论列表，每条评论附带引用的段落。我们在第5节和第6节中将其与现有系统进行基准测试，并在第8节中分析部署版本的真实用户反馈。

图2：OpenAIReview逐段评审论文，将每个段落与其相邻段落及论文迄今的运行摘要进行核对。每个段落之后更新摘要，最终合并收集到的评论。

#### 论文处理管道。
系统接受不同格式的论文，如PDF、Markdown或LaTeX。评审以总体反馈部分开始，随后是评论列表，每条评论包含引用的段落和问题解释（附录A中的图8显示示例，图3(a)显示web界面）。图2展示了系统如何生成评审：论文首先被分割成大致等长的段落，系统逐段评审。每个段落与两类上下文核对：相邻段落窗口和已读内容的运行摘要。运行摘要累积符号、定义、关键方程、定理、假设和主张。每个段落检查后，通过单独模型调用更新摘要，添加其中任何新内容。这使得模型能够捕捉跨越长距离的问题，例如一个符号的使用与几个章节之前的定义不一致，而无需将整篇论文放入单个提示中。最后，系统去除重复并合并指向同一根本问题的评论。我们在整个管道中使用相同的骨干模型。

#### 评审提示。
主要评审提示为模型提供在每个段落上运行的一组固定检查，例如数学和公式错误、不一致的符号、夸大的主张、以及描述过于模糊无法重现的方法。为减少误报，提示指示模型首先检查该问题是否被周围上下文解决，并跳过格式问题或前向引用等类别。附录A中的图5显示完整的评审提示，图6和图7给出了摘要更新、合并和总体反馈的提示。

#### 评估评审。
如前所述，评审包含两部分：总体反馈部分和单个评论列表。这是近期评审系统如Refine（Calvó López and Golub, 2025）和‘coarse（Van Dijcke, 2025）共享的格式，因此如何评估它是一个超越OpenAIReview的普遍问题。总体反馈提供对论文质量、清晰度和主要问题的高层评估。判断其是否准确有用是一个单独的问题，可能最好留给LLM评判，我们在这里将其搁置。我们专注于评论，这些评论对特定段落提出具体主张。一条评论只有在指向真实问题时才有用，因此我们基于两个标准评估评论：是否

代理审核系统基准测试

相似文章

我让58个AI代理互相审查代码561次——发现它们的盲点

它是否具备足够的代理能力？使用你自己的工具对开放模型进行基准测试

针对自主AI供应商的开源采购评估标准，我对其中5家进行了评分，希望能获得关于评估方法的反馈

PseudoBench：衡量智能自动研究如何助长伪科学

对AI辅助同行评议的操纵给科学界带来新风险

提交意见反馈