基于LLM的科学同行评审:方法、基准与可靠性挑战
摘要
本综述从系统层面对基于LLM的科学同行评审进行了分析,涵盖方法、基准以及包括提示注入和数据投毒等稳健性风险在内的可靠性挑战。
arXiv:2606.25057v1 公告类型:新
摘要:科学投稿的快速增长已将传统同行评审推向其可扩展性的极限,促使人们探索将大型语言模型(LLMs)作为智能自动化评估助手。尽管近期研究表明LLMs能够生成流畅的评审意见并近似审稿人评分,但其作为决策支持系统的可靠性、稳健性和安全性仍未被充分理解。本综述从系统层面分析了基于LLM的科学同行评审,重点关注两个核心评估功能:评审意见生成和评分预测。我们提出了建模方法的结构化分类(包括基于提示、监督、检索增强和对齐优化的方法),并综合了现有基准的实证发现。我们分析了限制当前评估实践的 dataset 约束、评估缺陷和领域集中偏差。除了性能指标,我们识别了新兴的稳健性风险,包括提示注入、数据投毒、检索漏洞和奖励攻击,这些风险使自动评审流程面临战略操纵。从数据挖掘的角度,我们概述了在建模主观分歧和跨领域泛化方面的关键开放挑战。通过将自动化同行评审重新定义为高风险、多目标决策问题,本综述为开发稳健、透明和可信的AI辅助科学评估系统提供了路线图。
查看缓存全文
缓存时间: 2026/06/25 05:09
# 基于LLM的科学同行评审:方法、基准与可靠性挑战 来源:https://arxiv.org/html/2606.25057 \correspondingauthor Thi Huyen Nguyen 和 Zahra Ahmadi0000\-0003\-1110\-4756 (https://orcid.org/0000-0003-1110-4756) 布伦瑞克工业大学与汉诺威医学院彼得·L·赖歇茨医学信息学研究所 下萨克森州医学人工智能与因果方法中心 (CAIMed) 德国汉诺威 [email protected] (https://arxiv.org/html/2606.25057v1/mailto:[email protected]) (2026年6月23日) ###### 摘要。科学投稿数量的快速增长使传统同行评审面临可扩展性的极限,从而推动了将大型语言模型(LLM)作为智能自动化评估助手的探索。尽管近期研究表明LLM能够生成流畅的评阅意见并近似评阅人打分,但作为决策支持系统,其可靠性、鲁棒性和安全性仍未得到充分理解。本综述对基于LLM的科学同行评审进行系统级分析,重点关注两大核心评估功能:评阅意见生成和分数预测。我们提出了一个结构化的建模方法分类体系(包括基于提示、监督、检索增强和对齐优化的方法),并综合了现有基准中的实证发现。我们分析了制约当前评估实践的数据集约束、评估缺陷和领域集中偏差。除了性能指标,我们还识别了新兴的鲁棒性风险,包括提示注入、数据投毒、检索漏洞和奖励黑客行为,这些风险使自动评审流程面临策略性操纵的威胁。从数据挖掘的角度,我们概述了在主观分歧建模和跨领域泛化方面存在的关键开放性挑战。通过将自动同行评审重新定义为一个高风险、多目标的决策问题,本综述为开发鲁棒、透明且可信赖的AI辅助科学评估系统提供了路线图。††copyright:acmlicensed††journalyear:2026††doi:XXXXXXX.XXXXXXX††conference:请从权利确认邮件中填写正确的会议标题;2026年6月;纽约州伍德斯托克††isbn:978-1-4503-XXXX-X/2018/06## 1. 引言 同行评审是学术出版的主要质量控制机制,但其有效性日益受到审稿人队伍无法与投稿量同步增长的限制。审稿人需要提供结构化的评阅意见和量化建议,以评估投稿作品的新颖性、合理性、重要性和更广泛的贡献。然而,随着投稿量的增长,这种以人为中心的评估过程正面临审稿人短缺、主观判断、时间压缩和可扩展性有限等日益严峻的压力。这些压力因科学成果的快速增长而被放大。据估计,科学出版物大约每十年翻一番,而同期全球科学家数量仅增长21% (Künzli et al., 2022 (https://arxiv.org/html/2606.25057#bib.bib23))。Paper Copilot (Paper Copilot, 2026 (https://arxiv.org/html/2606.25057#bib.bib98)) 统计的数据显示,ICLR、NeurIPS 和 ICML 等顶级计算机科学会议在五年内(2021-2025年)的年投稿量都翻了一番或更多,如图1 (https://arxiv.org/html/2606.25057#S1.F1) 所示。随着审稿人工作量增加,评估时间线往往缩短,可能导致评阅深度、评分校准和评审可靠性的波动。这些挑战激发了人们对AI辅助同行评审系统日益增长的兴趣。 参见图注 图1. 三个计算机科学会议的年投稿量。 参见图注 图2. 同行评审流程。 早期工作应用自然语言处理(NLP)技术 (Price and Flach, 2017 (https://arxiv.org/html/2606.25057#bib.bib1); Li et al., 2019 (https://arxiv.org/html/2606.25057#bib.bib3); Wang and Tan, 2020 (https://arxiv.org/html/2606.25057#bib.bib2); Weng et al., 2025 (https://arxiv.org/html/2606.25057#bib.bib4)) 来支持或自动化评审流程的特定阶段。随着 GPT-4 (Achiam et al., 2023 (https://arxiv.org/html/2606.25057#bib.bib5))、LLaMA (Touvron et al., 2023 (https://arxiv.org/html/2606.25057#bib.bib6)) 和 Gemini (Team et al., 2023 (https://arxiv.org/html/2606.25057#bib.bib7)) 等LLM的出现,自动同行评审已从基于特征的预测和有限的摘要转向完整的评审生成和分数估计。近期研究 (Yu et al., 2024a (https://arxiv.org/html/2606.25057#bib.bib10); Idahl and Ahmadi, 2025 (https://arxiv.org/html/2606.25057#bib.bib11)) 表明,LLM能够生成流畅的、类似审稿人的评阅意见并近似人类评分模式。因此,基于LLM的系统越来越多地被研究用于自动化同行评审报告的两个基本组成部分:(1) 文本评阅意见生成和 (2) 定量分数预测。这两个部分是编辑和程序委员会决策的核心。评阅意见阐述了对稿件优缺点的结构化评估,而分数则将这些评估转化为可量化的建议。自动化这些评估功能可能将同行评审的部分环节推向更可扩展和数据驱动的决策流程。同时,这种自动化也引发了关于可靠性、偏差、校准和安全性的基本问题。 尽管对LLM辅助审阅的兴趣迅速增长,但现有的综述 (Kuznetsov et al., 2024 (https://arxiv.org/html/2606.25057#bib.bib9); Zhuang et al., 2025 (https://arxiv.org/html/2606.25057#bib.bib8); Luo et al., 2025 (https://arxiv.org/html/2606.25057#bib.bib24)) 并未对自动评阅意见生成和分数预测提供有重点的系统性分析。Kuznetsov 等人 (Kuznetsov et al., 2024 (https://arxiv.org/html/2606.25057#bib.bib9)) 提供了关于AI在同行评审不同阶段(涵盖评估过程前、中、后的活动)辅助作用的高层概述。Luo 等人 (Luo et al., 2025 (https://arxiv.org/html/2606.25057#bib.bib24)) 更广泛地调查了LLM在科学研究中的应用,其中同行评审仅作为众多任务之一被简要讨论。Zhuang 等人 (Zhuang et al., 2025 (https://arxiv.org/html/2606.25057#bib.bib8)) 则更直接地关注自动学术评审及相关数据集,强调了LLM在缓解技术瓶颈方面的潜力。然而,这些综述既未提供评阅意见生成和分数预测方法论的结构化分类,也未深入分析评估局限性和鲁棒性问题。 相比之下,本综述特别关注基于LLM的科学评阅意见生成和分数预测,将其作为同行评审报告的核心评估组成部分。我们将现有工作组织成一个结构化的建模方法分类体系,综合不同研究的实证发现,审视数据集和评估挑战,并分析自动评分流程中的新兴风险。通过将评阅意见生成和分数预测视为决策关键任务,我们提供了一个系统级视角,补充了关于AI辅助同行评审和LLM用于科学工作流程的更广泛综述。具体而言,我们旨在回答四个关键问题: 1. (1) 基于LLM的分数预测相对于人类审稿人有多可靠? 2. (2) LLM能在多大程度上生成实质性的科学评阅意见? 3. (3) 现有系统在当前数据和评估限制下有多鲁棒? 4. (4) 为确保可靠和安全的部署,需要解决哪些挑战? 从建模角度来看,自动同行评审可以被理解为一个在噪声监督下的高风险、多目标决策问题。由于审稿人之间的分歧、接收偏差以及不同会议和学科间的分布变化,同行评审数据集包含不一致的决策信号。因此,我们将基于LLM的同行评审不仅视为一个文本生成问题,也视为一个结构化的数据挖掘问题,涉及质量、公平性、校准、不确定性和鲁棒性之间的权衡。 ## 2. 科学同行评审 同行评审过程通过领域专家的评估来评价科学稿件。每份投稿通常分配给一位或多位审稿人,他们从清晰度、技术正确性、新颖性和潜在影响等多个方面进行评估。审稿人通常受会议特定模板的指导,要求提供摘要、优缺点、给作者的问题以及初步建议(如接收或拒稿)。高质量的评审既支持编辑决策,也有助于稿件的改进;例如,91%的研究人员报告称同行评审改进了他们最近的出版物 (Mulligan et al., 2013 (https://arxiv.org/html/2606.25057#bib.bib13))。 科学同行评审可以抽象为一个评估决策流程,如图2 (https://arxiv.org/html/2606.25057#S1.F2) 所示。尽管不同学科和出版机构的程序各有不同,但大多数同行评审系统产生两个核心输出:结构化的文本评阅意见和定量分数分配。文本评阅意见从清晰度、新颖性、技术质量和重要性等维度描述稿件的优缺点,而评分部分则将这些定性判断转化为可操作的信号,包括特定维度的分数、总体推荐分数、接收/拒稿决定以及审稿人置信度评级。 从计算角度来看,评阅意见生成和分数预测可以被表述为相关的建模任务。令 $x$ 表示稿件的表示。评阅意见函数可以视为一个条件生成映射:$f_c(x) \rightarrow y_{critique}$。同时,评分函数对应一个回归或分类映射:$f_s(x) \rightarrow y_{score}$,其中 $y_{critique}$ 和 $y_{score}$ 分别表示结构化的评估反馈和数值评估。从机器学习角度看,这两个函数都在弱监督和标签不确定性下运行。审稿人分数不是确定性的真实标签;相反,它们是受主观解释、审稿人专业知识和会议特定标准影响的随机实现。因此,目标不是单一的“正确”分数,而是由审稿人专业知识、会议规范和不确定性共同塑造的一个可能判断的分布。 然而,同行评审在几个重要方面不同于标准的监督学习设置。首先,评估本质上是多维度的。新颖性、技术合理性、清晰度和影响力等标准在不同会议中可能有不同的权重,并且可能随时间演变。其次,审稿人之间的分歧很常见。评估同一份稿件的多位审稿人经常产生不同的评阅意见并给出显著不同的分数。这种可变性引发了对预测目标的基本问题:自动化系统应该预测单个审稿人分数、聚合分数还是最终的编辑决定?第三,预测错误的后果很严重。如图2 (https://arxiv.org/html/2606.25057#S1.F2) 所示,评阅意见和评分在决策过程中扮演核心角色。此阶段的错误或偏差可能直接传播到编辑聚合和最终的出版结果中。因此,分析用于评阅意见生成和分数预测的自动化系统不仅需要仔细关注生成质量,还需要关注可靠性、校准、鲁棒性和安全性。这些特性使得自动同行评审比流畅的文本生成或分数近似要复杂得多。可靠的系统必须保持评阅意见内容与数值推荐之间的一致性,表征由审稿人变异性引起的不确定性,并在领域转换和潜在的对抗性操纵下保持鲁棒。这些结构性特征促使了以下章节中对基于LLM的评阅意见生成和分数预测系统的系统性分析。 ## 3. LLM作为审稿人 参见图注 图3. 按年份检测为LLM生成的评审比例。 参见图注 图4. 自动同行评审生成的分类体系,按不同方面分类。 在大型语言模型出现之前,自动同行评审的研究主要集中在分数预测和有限的摘要上,而不是完整的评阅意见生成 (Kang et al., 2018 (https://arxiv.org/html/2606.25057#bib.bib27); Stappen et al., 2020 (https://arxiv.org/html/2606.25057#bib.bib31); Dycke et al., 2023 (https://arxiv.org/html/2606.25057#bib.bib28))。从论文特征预测数值建议被认为比生成结构化的评估反馈更易处理,因为后者需要领域知识、上下文理解和连贯推理。早期的监督方法 (Yuan et al., 2022 (https://arxiv.org/html/2606.25057#bib.bib16); Lin et al., 2023 (https://arxiv.org/html/2606.25057#bib.bib29); Yuan and Liu, 2022 (https://arxiv.org/html/2606.25057#bib.bib60)) 试图直接从稿件表示生成评审文本,但生成的评审往往浅显、零散或模板化。这些局限性反映了将同行评审建模为以判断为导向的推理而非表面文本生成的困难。 LLM的快速发展极大地改变了这一格局。近期研究 (Latona et al., 2024 (https://arxiv.org/html/2606.25057#bib.bib54); Yu et al., 2024c (https://arxiv.org/html/2606.25057#bib.bib15)) 表明,使用LLM撰写评审的趋势日益增长。自ChatGPT (OpenAI, 2023 (https://arxiv.org/html/2606.25057#bib.bib14)) 出现以来,被标记为AI生成的ICLR评审比例急剧上升 (Yu et al., 2024c (https://arxiv.org/html/2606.25057#bib.bib15)),如图3 (https://arxiv.org/html/2606.25057#S3.F3) 所示。至少有15.8%的ICLR 2024评审被检测为使用AI辅助编写 (Latona et al., 2024 (https://arxiv.org/html/2606.25057#bib.bib54))。然而,由于AI文本检测器并不完美,这些估计应被视为AI使用的大致指标,而非确定性测量。 AI生成的评审可能在多个维度上提供价值 (Tyser et al., 2024 (https://arxiv.org/html/2606.25057#bib.bib20))。对于作者而言,它们可以在投稿前提供早期、可操作的反馈,并支持稿件修改。对于审稿人而言,它们可以作为提高评审质量的参考资料。对于期刊和会议而言,此类工具可以支持质量控制,并可能加速同行评审工作流程的某些部分。此外,AI生成的评估可能最终支持阅读优先级排序,尽管其识别高质量论文的可靠性仍不确定。 由于在大规模多样化语料库上进行了预训练,LLM在长文本生成、指令跟随和推理式提示方面表现出强大能力。基于LLM的系统通常将同行评审表述为一个通用的文本生成任务:给定一份稿件,生成完整的评审报告。在许多此类系统中,评阅意见生成和分数预测并非被明确建模为独立功能。相反,模型直接生成可能包含隐式或显式评分的自由格式评审文本。
相似文章
PRISM:评估LLM审稿人的多维度基准
介绍PRISM,一个用于评估基于大语言模型的同行评审员的多维度基准,涵盖分析深度、新颖性评估、缺陷识别和建设性。研究结果表明,大语言模型在单个维度上能与人类评审员匹敌甚至超越,但缺乏跨所有维度的平衡表现,因此最适合作为人类评审的补充工具。
是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?
本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。
论LLM作为裁判在科学新颖性评估中的局限性
本文介绍了RQ-Bench,一个用于评估LLM判断科学研究问题新颖性的基准。研究发现,LLM裁判一致认为生成的问题比人类专家认为的更新颖,这引发了对使用LLM进行科学新颖性评估可靠性的担忧。
Review Arcade:论LLM评审的人类对齐性与可操控性
本文通过实验评估了LLM生成的科学论文评审与人工评审之间的对齐程度,发现对齐有限且变化较大。研究还表明,作者可以通过迭代修改论文来“操控”LLM评审以提高分数,多达35%的论文的总体分数出现了统计显著提升。
Review Arcade:论LLM评审的人类对齐与可游戏性
本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。