PRISM:评估LLM审稿人的多维度基准

arXiv cs.CL 论文

摘要

介绍PRISM,一个用于评估基于大语言模型的同行评审员的多维度基准,涵盖分析深度、新颖性评估、缺陷识别和建设性。研究结果表明,大语言模型在单个维度上能与人类评审员匹敌甚至超越,但缺乏跨所有维度的平衡表现,因此最适合作为人类评审的补充工具。

arXiv:2605.26730v1 公告类型:新 摘要:机器学习会议投稿数量的快速增长给科学同行评审系统带来了压力,也激发了对基于大语言模型的自动化审稿人的兴趣。然而,这些系统实际表现如何,尤其是与人类审稿人在发现科学漏洞方面的比较,仍然知之甚少。在这项工作中,我们引入了PRISM(通过结构化多维度评估的同行评审智能),这是一个基准测试框架,从四个维度评估评审质量:分析深度、新颖性评估、缺陷识别与重大问题优先级排序,以及多维度建设性。与大多数基于ROUGE和BLEU等表面指标或不受约束的LLM作为评判者的提示(混淆流畅性与严谨性)的现有评估不同,PRISM将每个维度建立在论证挖掘、检索增强验证和共识评分的基础上。我们应用PRISM对来自ICLR、ICML和NeurIPS的分层评审语料库中的五个领先自动化审稿系统和人类审稿人进行基准测试。结果显示,大语言模型在单个维度上能与人类审稿人匹敌甚至超越:分析深度相当,新颖性验证更强,批评优先级排序高度准确。然而,没有一个系统能在所有维度上始终如一地匹配人类基线的平衡表现。每个系统都表现出独特的专业化特征和特有的盲点——聚合指标完全忽略的失败模式。其含义是,大语言模型审稿人最好被理解为人类评审的有针对性的补充,在特定维度上有效,但作为独立替代品则不可靠。我们的演示和关键结果请访问https://khanhthanhdev.github.io/prism-page/。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:09

# PRISM: 评估大语言模型同行评审员的多维度基准测试
来源:https://arxiv.org/html/2605.26730

Ngoc Phan Phuoc Loc¹,Toan Huynh La Viet¹¹¹footnotemark:1,Thanh Tran Khanh¹¹¹footnotemark:1,Duy A. Nguyen¹,²,Tuan Anh Nguyen Pham¹,Thanh Nguyen¹,Nitesh V. Chawla³,Wray Buntine¹,⁴,Kok-Seng Wong¹,Khoa D. Doan¹,Binh T. Nguyen²²²footnotemark:2

¹VinUniversity,²伊利诺伊大学厄巴纳-香槟分校,³圣母大学,⁴莫纳什大学

###### 摘要

机器学习领域提交论文数量的快速增长给科学同行评审系统带来了压力,也加剧了人们对基于大语言模型的自动化评审系统的兴趣。然而,这些系统实际表现如何,尤其是与人类评审员在发现科学漏洞方面的能力相比,我们仍然知之甚少。在本文中,我们提出了**PRISM**(通过结构化多维度评估的同行评审智能),这是一个基准测试框架,从四个维度评估评审质量:**分析深度**、**新颖性评估**、**缺陷识别与重大问题优先级排序**,以及**多维度建设性**。与大多数基于ROUGE和BLEU等表面级指标,或依赖于将流畅性与严谨性混为一谈的无约束LLM-as-a-judge提示方法的现有评估不同,PRISM将每个维度建立在论点挖掘、检索增强验证和共识评分的基础之上。我们将PRISM应用于对来自ICLR、ICML和NeurIPS的分层语料库,对五个领先的自动化评审系统和人类评审员进行基准测试。结果显示,大语言模型在各自维度上可以匹配甚至超越人类评审员:相当的分析深度、更强的新颖性验证,以及高度精确的批评优先级排序。然而,没有任何单一系统能在所有维度上始终与人类基线的均衡表现相匹配。每个系统都展现出独特的专业化特征和特定的盲点——这些是聚合指标完全遗漏的失败模式。其含义是,**大语言模型评审员最好被理解为人类评审的针对性补充,在特定维度上有效,但作为独立的替代品并不可靠。**我们的演示和关键结果可在 [https://khanhthanhdev.github.io/prism-page/](https://khanhthanhdev.github.io/prism-page/) 找到。

## 1. 引言

科学同行评审正面临越来越大的压力。主要机器学习会议上的投稿数量以惊人的速度增长:NeurIPS 在 2024 年收到了 15,671 篇投稿,到 2025 年激增至 21,575 篇 \[26 ([https://arxiv.org/html/2605.26730#bib.bib21](https://arxiv.org/html/2605.26730#bib.bib21)), 6 ([https://arxiv.org/html/2605.26730#bib.bib19](https://arxiv.org/html/2605.26730#bib.bib19))\],而 ICML 仅在 2023 年至 2024 年间就同比增长了 44.9%,随后在 2025 年又进一步增长了 25.4% \[24 ([https://arxiv.org/html/2605.26730#bib.bib20](https://arxiv.org/html/2605.26730#bib.bib20)), 25 ([https://arxiv.org/html/2605.26730#bib.bib22](https://arxiv.org/html/2605.26730#bib.bib22)), 27 ([https://arxiv.org/html/2605.26730#bib.bib24](https://arxiv.org/html/2605.26730#bib.bib24))\]。这种指数级增长严重挤压了评审员资源,并使论文与评审员的匹配变得复杂,促使各会议引入新的负载管理和质量控制机制,例如 ICML 近期采用的作者自我排名政策 \[33 ([https://arxiv.org/html/2605.26730#bib.bib23](https://arxiv.org/html/2605.26730#bib.bib23))\]。此外,一些机器学习会议的评审工作变得强制性且截止日期紧迫,这给评审员带来了额外压力,尤其是在分配任务与他们的专业知识不完全匹配时。

作为回应,大语言模型已迅速从校对辅助工具转变为能够起草全面批评意见的自主评审代理,其部署已不再是理论上的可能性 \[3 ([https://arxiv.org/html/2605.26730#bib.bib17](https://arxiv.org/html/2605.26730#bib.bib17)), 9 ([https://arxiv.org/html/2605.26730#bib.bib16](https://arxiv.org/html/2605.26730#bib.bib16)), 38 ([https://arxiv.org/html/2605.26730#bib.bib15](https://arxiv.org/html/2605.26730#bib.bib15)), 43 ([https://arxiv.org/html/2605.26730#bib.bib18](https://arxiv.org/html/2605.26730#bib.bib18)), 35 ([https://arxiv.org/html/2605.26730#bib.bib27](https://arxiv.org/html/2605.26730#bib.bib27))\]。据估计,近期顶级会议中 17–21% 的评审已涉及 LLM 辅助 \[17 ([https://arxiv.org/html/2605.26730#bib.bib3](https://arxiv.org/html/2605.26730#bib.bib3)), 34 ([https://arxiv.org/html/2605.26730#bib.bib4](https://arxiv.org/html/2605.26730#bib.bib4)), 13 ([https://arxiv.org/html/2605.26730#bib.bib25](https://arxiv.org/html/2605.26730#bib.bib25))\],这促使各会议采取了从全面禁止到强制披露的一系列不同政策 \[14 ([https://arxiv.org/html/2605.26730#bib.bib26](https://arxiv.org/html/2605.26730#bib.bib26))\]。这一现实提出了一个重要问题:**大语言模型是否足以成为评估科学工作的评审员——关键是,与那些日益在时间压力和评审过载下工作的人类评审员相比,它们能否更好地识别论文中的漏洞?** 回答这个问题尤为重要,因为越来越多的证据表明,在日益增长的压力下,人类评审的质量和可靠性可能正在下降。例如,NeurIPS 的一致性实验 \[1 ([https://arxiv.org/html/2605.26730#bib.bib41](https://arxiv.org/html/2605.26730#bib.bib41))\] 表明,多达 23% 的录用决定可能仅仅因为评审员分配的不同而改变。

我们通过引入一个基准测试来解决这个问题,该基准测试基于已建立的机器学习会议(例如,ICLR, NeurIPS)的官方评审指南,来评估 LLM 生成的评审和人类评审。高质量的同行评审必须超越简单的总结,满足四个核心职责:评估技术健全性、定位原创性、诊断关键错误以及提供可操作的反馈。因此,我们的基准测试评估评审员是否能在以下四个维度上履行这些职责:

- **RQ1:分析深度**:评审员是否深入参与论文的方法论和实证声明,还是仅仅停留在表面评估?
- **RQ2:新颖性评估**:评审员的新颖性判断是否基于现有文献,还是依赖于未经验证或事实不正确的断言?
- **RQ3:缺陷识别与重大问题优先级排序**:评审员检测关键科学缺陷的准确性和全面性如何?他们能否正确地将致命的方***问题置于次要的文本异常之上?
- **RQ4:多维度建设性**:评审员的反馈在多大程度上是可操作的、面向解决方案的,并且专业程度适当?

我们将此基准测试称为 **PRISM**(通过结构化多维度评估的同行评审智能)。每个维度都通过专用的评估流水线实现,这些流水线基于论点挖掘、检索增强验证和共识评分。然后,我们将 PRISM 应用于比较五个领先的自动化评审系统——TreeReview \[3 ([https://arxiv.org/html/2605.26730#bib.bib17](https://arxiv.org/html/2605.26730#bib.bib17))\],Reviewer2 \[9 ([https://arxiv.org/html/2605.26730#bib.bib16](https://arxiv.org/html/2605.26730#bib.bib16))\],SEA-E \[38 ([https://arxiv.org/html/2605.26730#bib.bib15](https://arxiv.org/html/2605.26730#bib.bib15))\],DeepReview \[43 ([https://arxiv.org/html/2605.26730#bib.bib18](https://arxiv.org/html/2605.26730#bib.bib18))\]和 CycleReviewer \[35 ([https://arxiv.org/html/2605.26730#bib.bib27](https://arxiv.org/html/2605.26730#bib.bib27))\]——以及来自 ICLR、ICML 和 NeurIPS 分层语料库的人类评审员(图 1 ([https://arxiv.org/html/2605.26730#S1.F1](https://arxiv.org/html/2605.26730#S1.F1)))。这一分析产生了以下见解:

- **RQ1**:CycleReviewer 和 DeepReview 在分析深度上可与人类媲美;TreeReview 则陷入表面层级陷阱,过度关注展示异常。
- **RQ2**:SEA-E 在有依据的新颖性验证方面优于人类评审员;其他系统则表现出可衡量的新颖性幻觉。
- **RQ3**:Reviewer2 作为高灵敏度扫描器在缺陷召回率上领先;LLM 普遍实现了近乎完美的重要问题优先级排序,展现出与人类评审员相当的内在认知对齐能力。
- **RQ4**:DeepReview 生成最具可操作性的反馈,但所有系统与人类评审员相比仍存在建设性差距。

![[未标注图片]](https://arxiv.org/html/2605.26730v1/x1.png)

**图 1:LLM 评审员与人类评审员的结果对比。** 没有单一系统在所有四个维度上占据主导地位:每个系统都在特定领域表现出色,同时存在聚合指标无法捕捉的结构性差距。这使 LLM 评审员成为强大且任务匹配的专家——在有意识地部署时有效,但尚未接近能够全面替代人类评审员。

总而言之,本研究的主要贡献是:

- • **PRISM:一个多维度基准测试框架。** 我们引入了 PRISM,这是一个包含四个专用流水线的结构化评估框架,用于实现 RQ1–RQ4 的操作化,超越表面散文来探究科学评审能力。
- • **全面的评估语料库。** 我们整理了一个包含手稿和专家人类评审的数据集,这些评审涵盖 ICLR、ICML 和 NeurIPS,为自动化评审系统的基准测试建立了稳健的、共识驱动的参考。
- • **系统性的人类与 LLM 对比分析。** 我们在所有四个维度上对五个领先的 LLM 评审系统进行基准测试,揭示了聚合指标无法看到的独特专业化特征和结构化失败模式。
- • **可操作的部署指南。** 我们基于证据提出了部署 LLM 评审员的建议,确定了在人类辅助的评审流程中,哪些系统最适合哪些角色。

## 2. 相关工作

##### **基于 LLM 的评审系统。** 大语言模型的快速进步催生了一个日益壮大的专门化自动评审系统家族。一条研究路线通过结构化推理来改进评审质量:TreeReview \[3 ([https://arxiv.org/html/2605.26730#bib.bib17](https://arxiv.org/html/2605.26730#bib.bib17))\] 将评估分解为一个分层的提问树,这些提问被递归地细化和聚合;而 DeepReview \[43 ([https://arxiv.org/html/2605.26730#bib.bib18](https://arxiv.org/html/2605.26730#bib.bib18))\] 则模拟专家评审员缓慢、深思熟虑的思考过程。另一条互补路线侧重于优化生成流程本身:Reviewer2 \[9 ([https://arxiv.org/html/2605.26730#bib.bib16](https://arxiv.org/html/2605.26730#bib.bib16))\] 训练了一个两阶段模型,先预测评审方面,然后在此基础上进行条件生成;SEA \[38 ([https://arxiv.org/html/2605.26730#bib.bib15](https://arxiv.org/html/2605.26730#bib.bib15))\] 在微调专用评估和分析模块之前,先对异质评审数据进行标准化处理。多智能体协作提供了另一个角度:CycleReviewer \[35 ([https://arxiv.org/html/2605.26730#bib.bib27](https://arxiv.org/html/2605.26730#bib.bib27))\] 将研究智能体与评审智能体配对,形成一个迭代的偏好训练循环。尽管这些系统展示了令人印象深刻的语言流畅性,但它们相应的评估协议主要依赖于通用的 n-gram 指标或对整篇评审进行整体评分的单一 LLM-as-a-judge 评估。虽然有些工作评估了多个标准,但这些宏观层面的评估在结构上无法捕捉批评意见的细粒度逻辑:它们无法验证单个主张是否有充分的前提支持,也无法将新颖性断言与检索到的先前文献进行交叉验证。

##### **AI 生成评审的评估。** 评估 AI 生成的评审与生成评审本身是不同的挑战。早期工作依赖于词汇重叠指标——ROUGE \[18 ([https://arxiv.org/html/2605.26730#bib.bib29](https://arxiv.org/html/2605.26730#bib.bib29))\] 和 BLEU \[28 ([https://arxiv.org/html/2605.26730#bib.bib30](https://arxiv.org/html/2605.26730#bib.bib30))\]——这些指标奖励与参考评审的表面相似性,但对于科学推理质量和事实正确性却视而不见 \[22 ([https://arxiv.org/html/2605.26730#bib.bib8](https://arxiv.org/html/2605.26730#bib.bib8))\]。Liang 等人 \[17 ([https://arxiv.org/html/2605.26730#bib.bib3](https://arxiv.org/html/2605.26730#bib.bib3))\] 通过测量 LLM 和人类反馈之间逐点的重叠,超越了表面指标,发现了相当的覆盖范围,但在方法深度上存在系统性差距。LLM-as-judge 范式 \[19 ([https://arxiv.org/html/2605.26730#bib.bib28](https://arxiv.org/html/2605.26730#bib.bib28)), 42 ([https://arxiv.org/html/2605.26730#bib.bib6](https://arxiv.org/html/2605.26730#bib.bib6))\] 提供了更丰富的评估,但也引入了有据可查的偏差——位置偏差 \[41 ([https://arxiv.org/html/2605.26730#bib.bib31](https://arxiv.org/html/2605.26730#bib.bib31))\]、冗长性偏差 \[31 ([https://arxiv.org/html/2605.26730#bib.bib32](https://arxiv.org/html/2605.26730#bib.bib32))\] 和自我提升偏差 \[23 ([https://arxiv.org/html/2605.26730#bib.bib33](https://arxiv.org/html/2605.26730#bib.bib33))\]——当目标不是语言流畅性而是科学严谨性时,这些偏差尤其成问题。ReviewEval \[10 ([https://arxiv.org/html/2605.26730#bib.bib34](https://arxiv.org/html/2605.26730#bib.bib34))\] 是最结构化的先前框架,定义了六个评估维度,包括分析深度、建设性和指南遵循度;然而,它依赖端到端的 LLM 标准提示来分配分数,并且基准测试仅涵盖 16 篇论文和三个评审系统。DeepReview-Bench 引入了大规模评估集(例如,1,000+ 个样本),但其范围主要限于单一会议(ICLR)。RottenReviews \[8 ([https://arxiv.org/html/2605.26730#bib.bib35](https://arxiv.org/html/2605.26730#bib.bib35))\] 以及 Shine 等人 \[32 ([https://arxiv.org/html/2605.26730#bib.bib36](https://arxiv.org/html/2605.26730#bib.bib36))\] 的焦点层级框架研究了 LLM 评审中的失败模式和分布偏差,但两者均未提供可复用的、逐评审的评分协议。Dycke 和 Gurevych \[7 ([https://arxiv.org/html/2605.26730#bib.bib50](https://arxiv.org/html/2605.26730#bib.bib50))\] 则专注于推理中的缺陷。**PRISM** 与所有先前框架的不同之处在于,它为每个维度部署了专用的、可验证的流水线——用于分析深度的论点挖掘、用于新颖性验证的检索增强式断言验证、用于缺陷识别的共识加权评分、用于优先级排序的严重性拆解,以及用于建设性的语义规则匹配——而不是依赖于标准提示的 LLM 判断。此外,PRISM 对五个领先的自动化评审系统在跨越五个会议年份 (ICLR 2024–2026, ICML 2025, 以及 NeurIPS 2025) 的 1,000 篇不同分层语料库上进行基准测试,并且每个流水线都经过严格的操作化,而非表面评估。

## 3. PRISM 框架

**PRISM** 通过四个独立的流水线评估评审,这些流水线针对科学论述中 LLM 的特定失败模式而设计(图 2 ([https://arxiv.org/html/2605.26730#S3.F2](https://arxiv.org/html/2605.26730#S3.F2)))。我们的框架不是要求 LLM 法官给出一个整体评分——这有将风格流畅性与科学严谨性混淆的风险——而是将评估分解为结构化的证据提取任务:LLM 识别和分类离散的证据单元,而最终分数则通过分析计算得出。这种方法确保了评估的可追溯性,并允许对指标公式进行精确控制。后续章节(§3.1 ([https://arxiv.org/html/2605.26730#S3.SS1](https://arxiv.org/html/2605.26730#S3.SS1))–3.4 ([https://arxiv.org/html/2605.26730#S3.SS4](https://arxiv.org/html/2605.26730#S3.SS4)))将详细介绍每个维度的计算公式和工作流程。

(参见图注)

**图 2:PRISM 评估流水线综合概览。** 该框架通过初始的数据分割单元处理同行评审和手稿文本,以提取结构化元素。核心评估随后分布在四个模块化的 LLM 驱动流水线中,这些流水线在章节 3.1 ([https://arxiv.org/html/2605.26730#S3.SS1](https://arxiv.org/html/2605.26730#S3.SS1)) 到 3.4 ([https://arxiv.org/html/2605.26730#S3.SS4](https://arxiv.org/html/2605.26730#S3.SS4)) 中介绍。这些模块输出四个不同的定量指标,构成最终的评估档案。

### 3.1 分析深度

高质量的评审不仅在于有批判性的主张,还在于支持这些主张的实质性证据 \[11 ([https://arxiv.org/html/2605.26730#bib.bib7](https://arxiv.org/html/2605.26730#bib.bib7))\]。我们将 **分析深度 (DoA)** 定义为评审员用客观、有充分依据的前提来证实其判断的程度:浅显的评审依赖于笼统的断言,而有力的批评则为每个论点提供证据。

**流水线。** 我们提取核心评审部分(总结、优势、劣势)并将其拆分为论点性话语单元 (ADU) \[29 ([https://arxiv.org/html/2605.26730#bib.bib43](https://arxiv.org/html/2605.26730#bib.bib43))\]。每个 ADU 沿两个轴进行分类:(i) **论点角色**——**主张**(一个有争议的点或结论)或**前提**(支持性证据)——以及 (ii) **方面主题**(新颖性、方法论、实验或清晰度)。然后评估已识别前提的**依据层级** \(g(p) \in \{0, 1, 2\}\):0 级(模糊/通用)、1 级(内部——直接引用手稿)、或 2 级(外部——引用更广泛的科学文献)。

**得分公式。** 令 \(A\) 为所有 ADU 的集合,\(P \subseteq A\) 为分类为前提的子集,\(g_{\max}=2\) 为最大依据层级。我们定义 **前提占比 (Premise Ratio)**...

相似文章

PRL-Bench:评估大语言模型在尖端物理研究中能力的全面基准

Hugging Face Daily Papers

PRL-Bench是一个全面基准,用于评估大语言模型在尖端物理研究中的能力,基于从五个物理子领域精选的100篇《物理评论快报》论文构建。该基准揭示了当前大语言模型性能的重大差距(最佳得分低于50%),旨在测试端到端研究流程、复杂推理和自主探索。

PRISM:探究大语言模型幻觉中的推理、指令与源记忆

arXiv cs.CL

研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。

Review Arcade:论LLM评审的人类对齐与可游戏性

Hugging Face Daily Papers

本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。

Review Arcade:论LLM评审的人类对齐性与可操控性

arXiv cs.AI

本文通过实验评估了LLM生成的科学论文评审与人工评审之间的对齐程度,发现对齐有限且变化较大。研究还表明,作者可以通过迭代修改论文来“操控”LLM评审以提高分数,多达35%的论文的总体分数出现了统计显著提升。