Review Arcade:论LLM评审的人类对齐性与可操控性

arXiv cs.AI 论文

摘要

本文通过实验评估了LLM生成的科学论文评审与人工评审之间的对齐程度,发现对齐有限且变化较大。研究还表明,作者可以通过迭代修改论文来“操控”LLM评审以提高分数,多达35%的论文的总体分数出现了统计显著提升。

arXiv:2605.28897v1 公告类型:新 摘要:LLM生成的科学论文评审正获得广泛关注,甚至被主要会议正式试点。我们必须假设,不仅审稿人使用LLM辅助,作者也在提交前利用LLM修改论文。本研究基于2025年ACL滚动评审(ARR)的论文进行实证实验,从作者和审稿人两个角度评估LLM评审。首先,我们发现LLM评审与人工评审的对齐程度有限。在最佳情况下,对齐尚可。然而,我们也发现LLM与人类的对齐在不同提示和模型间差异显著。最后,我们研究了作者采用迭代草稿-修改工作流根据LLM评审改进投稿的场景。我们发现,这种对LLM评审的“操控”在特定场景下有效,可导致多达35%的论文总体分数出现统计显著提升。我们已公开代码:https://github.com/uhh-hcds/reviewarcade。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:11

# 论大语言模型评审的人类对齐性与可作弊性  
来源:https://arxiv.org/html/2605.28897  

Hans Ole Hatzel¹\*, Sebastian Steindl³\*, Jan Strich¹,²\*  
¹汉堡大学语言技术组,德国  
²汉堡大学计算与数据科学中心 (HCDS),德国  
³OTH Amberg-Weiden,德国  
\*同等贡献,顺序由抛硬币决定。  
联系方式:\{名\}.\{姓\}@uni-hamburg.de, [email protected]  

###### 摘要  
大语言模型(LLM)生成的科学论文评审正获得大量关注,甚至被主要会议正式试点。我们不得不假设,不仅审稿人使用LLM辅助,作者也在提交前使用LLM修改论文。在本研究中,我们对2025年ACL滚动评审(ARR)的论文进行实证实验,从作者和审稿人的双重视角评估LLM评审。首先,我们发现LLM评审与人类评审的对齐程度有限。在最佳情况下,对齐程度尚可。然而,我们也发现LLM-人类对齐性在不同提示词和模型间差异显著。最后,我们研究了作者根据LLM评审采用迭代草稿-修订流程改进投稿的场景。我们发现这种对LLM评审的"作弊"在特定情况下是有效的,导致多达35%的论文整体分数出现统计显著提升。我们公开了代码¹¹¹GitHub仓库 (https://github.com/uhh-hcds/reviewarcade)。  

![[未加标题图片]](https://arxiv.org/html/2605.28897v1/fig/emoji.png)  

**Review Arcade: 论大语言模型评审的人类对齐性与可作弊性**  
Hans Ole Hatzel¹\*, Sebastian Steindl³\*, Jan Strich¹,²\*  
¹汉堡大学语言技术组,德国  
²汉堡大学计算与数据科学中心 (HCDS),德国  
³OTH Amberg-Weiden,德国  
\*同等贡献,顺序由抛硬币决定。  
联系方式:\{名\}.\{姓\}@uni-hamburg.de, [email protected]  

## 1 引言  
大语言模型(LLM)在学术写作中变得无处不在。它们不仅是纠正语法和句法的强大工具,还可以作为手稿的即时反馈来源Kobak等人 (2025) (https://arxiv.org/html/2605.28897#bib.bib18); Wu等人 (2026) (https://arxiv.org/html/2605.28897#bib.bib27)。因此,作者更可能使用LLM修改论文。与此同时,LLM评审正被研究作为减轻由于投稿量激增导致的同行评审系统过载的一种可能方式。Wei等人 (2025) (https://arxiv.org/html/2605.28897#bib.bib26); Choi等人 (2026) (https://arxiv.org/html/2605.28897#bib.bib7)。除了未来可能的官方实践外,当前研究表明LLM在同行评审过程中已被使用。Liang等人 (2024) (https://arxiv.org/html/2605.28897#bib.bib19) 确定,在他们分析的大多数会议和期刊中,7-15%的评审显示出超出简单语法纠正的AI使用。鉴于此,作者可能假设自己的投稿可能会被LLM评审,从而有动力相应优化投稿。因此,当前局面可能最终导致投稿和评审都严重依赖LLM(图1 (https://arxiv.org/html/2605.28897#S1.F1))。在这种背景下,我们应当考虑古德哈特定律Goodhart (1975) (https://arxiv.org/html/2605.28897#bib.bib13): "当一个指标成为目标时,它就不再是一个好的指标。" Strathern (1997) (https://arxiv.org/html/2605.28897#bib.bib24)。应用于此处,一旦作者专门针对LLM评审优化论文,它们可能不再可靠地反映论文质量,即使最初如此。  

参见图注  
图1:如果作者和审稿人都依赖LLM,同行评审过程的可视化。  

在本文中,我们针对ACL 2025的984份真实ARR投稿,研究了LLM评审与人类评审的对齐性。我们在多个模型(开放权重和专有模型)、提示词和运行次数下进行了评估。此外,我们模拟了一个迭代投稿改进(ISI)工作流,其中作者根据LLM评审优化投稿。我们受三个研究问题(RQs)的指导:  
- • **LLM评审有效性 (RQ1)**:LLM能否生成与人类评审足够对齐的评审?  
- • **LLM评审稳定性 (RQ2)**:对于给定的投稿,LLM评审在不同模型、提示词和重复运行之间是否一致?  
- • **LLM评审作弊 (RQ3)**:能否通过由LLM评审指导的自动化迭代编辑来"作弊"LLM评审,旨在提高评审分数?  

我们的主要贡献是:(i) 首次对ARR投稿的LLM评审进行大规模实证评估,(ii) 研究自动化论文编辑方案作为对自动化评审的对抗性攻击,(iii) 基于已有文献构建此类编辑的分类体系。  

## 2 背景与相关工作  
**自动化同行评审**。自动化同行评审的方法及对LLM评审的分析正日益受到关注,研究人员对语言模型在该任务上进行基准测试,并提出系统以提升性能并探索LLM评审的特性。LLM时代的一个早期例子是Zhou等人 (2024) (https://arxiv.org/html/2605.28897#bib.bib29),他们系统评估了LLM在同行评审任务上的表现。此后,多位作者提出了使用思考过程或基于智能体的方法进行改进Jin等人 (2024) (https://arxiv.org/html/2605.28897#bib.bib16); Zhu等人 (2025) (https://arxiv.org/html/2605.28897#bib.bib30); Idahl和Ahmadi (2025) (https://arxiv.org/html/2605.28897#bib.bib15); Bougie和Watanabe (2025) (https://arxiv.org/html/2605.28897#bib.bib6); Sahu等人 (2025) (https://arxiv.org/html/2605.28897#bib.bib22)。在实际应用方面,Biswas等人 (2026) (https://arxiv.org/html/2605.28897#bib.bib4) 最近在AAAI会议上大规模评估了LLM审稿人,发现作者和其他审稿人都对其评价良好。如果认为人类评审应被视为黄金标准,那么LLM评审可用性的主要指标之一就是它们与人类评审的对齐程度。Biswas等人 (2026) (https://arxiv.org/html/2605.28897#bib.bib4) 的调查报告显示LLM评审受到好评的一个原因可能是人类评审质量的高方差。  

**人类评审的可靠性**。目前已有少量考虑人类评审可靠性的工作。值得注意的是,录用决定通常不是由简单的分数阈值决定;相反,元审稿人和程序主席会考虑许多因素,例如评审分数的异常值及其理由,或者特定轨道的竞争论文数量Cicchetti (1991) (https://arxiv.org/html/2605.28897#bib.bib8)。NeurIPS会议进行了一项模拟整个决策过程的录用实验Beygelzimer等人 (2021) (https://arxiv.org/html/2605.28897#bib.bib3), 2023 (https://arxiv.org/html/2605.28897#bib.bib2),发现大约一半被一个委员会录用的论文被另一个委员会拒绝。相反,他们发现一篇论文在被第一个委员会拒绝后,大约有15%的机会被录用。就评审分数而言,偏差更容易量化,因为同一篇论文通常有多个独立评审。Baumann等人 (2026) (https://arxiv.org/html/2605.28897#bib.bib1) 报告人类评审员之间的皮尔逊相关系数为0.14,而Cortes和Lawrence (2021) (https://arxiv.org/html/2605.28897#bib.bib34) 在使用高斯模型校准跨审稿人量表解释后,发现其数据中的皮尔逊相关系数为0.55。  

**同行评审数据集**。PeerRead Kang等人 (2018) (https://arxiv.org/html/2605.28897#bib.bib17) 是最早的同行评审数据集之一。他们从arXiv收集可能被拒的论文,同时依赖来自评审平台(包括OpenReview)的已录用论文评审。许多数据集主要从已录用论文招募评审,从而引入了偏差。在更近期的例子中,NLPeer Dycke等人 (2023) (https://arxiv.org/html/2605.28897#bib.bib11) 采用了清晰的数据收集方案,要求审稿人和作者都同意参与 Dycke等人 (2022) (https://arxiv.org/html/2605.28897#bib.bib12)。  

**自动化评审的指标**。有许多指标用于衡量自动化评审的质量。先前的工作使用了例如准确度和相关性度量Zhou等人 (2024) (https://arxiv.org/html/2605.28897#bib.bib29); Idahl和Ahmadi (2025) (https://arxiv.org/html/2605.28897#bib.bib15)、AUC、FPR和FNR Lu等人 (2026) (https://arxiv.org/html/2605.28897#bib.bib20)、以及MAE Zhu等人 (2025) (https://arxiv.org/html/2605.28897#bib.bib30)。在本文中,我们报告MAE和皮尔逊相关系数,以及一个测量语义重叠的LLM评判,作为衡量LLM-人类对齐的主要指标。此外,我们区分了最佳匹配和整体相关性:对于最佳匹配,我们仅计算与最佳匹配评审(基于总体分数Overall)的相关性。  

**同期工作**。Kim等人 (2026) (https://arxiv.org/html/2605.28897#bib.bib37) 进行了评审质量的人类评估,其中专家从三个维度评估人类和LLM生成的评审。他们发现LLM生成的评审在感知质量上可以超越人类评审,但仍表现出系统性局限。在一篇相关的立场论文中,Baumann等人 (2026) (https://arxiv.org/html/2605.28897#bib.bib1) 表明**论文清洗**(即迭代提示LLM根据LLM生成的评审改进稿件)可以显著提高评审分数。尽管其框架被表述为仅引起肤浅的、修饰性的编辑,但其提示策略并未强制执行此类约束,反而可能鼓励实质性的修订。受此启发,我们在迭代环境中对论文清洗进行了更原则性的评估,并使用分类体系进一步量化LLM引起的语义变化。  

## 3 方法  
如今,真实世界的审稿人经常使用现成模型来辅助评审 (Liang等人,2024 (https://arxiv.org/html/2605.28897#bib.bib19)),而官方使用则旨在通过离线使用开放权重模型或API设置实现零数据保留。我们的设置旨在与同行评审背景下LLM的这种真实世界使用方式保持一致。因此,我们同时使用开放权重和封闭权重模型进行评估。然而,我们没有采用复杂的智能体工作流,这可能会提高单个评审的质量。  

### 3.1 问题陈述  
我们的工作主要关注使用带有指令ρ的LLM M来为投稿 s 生成评审 r:  
r = f(M, ρ, s)。 (1)  
然后,我们通过使用评估函数 h(r̂, r) 计算其与真实人类评审 r̂ 的对齐性来评估 r 的质量。具体而言,h(r̂, r) 可以实现为对预测分数的相关性测量,或者实现为一个 LLM 评判 J,该评判衡量在 r 和 r̂ 中识别的 s 的优点和缺点之间的内容相似性。  
此外,我们考虑作者通过基于 LLM 评审迭代调整其投稿 s 来进行优化的场景:  
s^(i+1) = μ(s^i, f(M', ρ', s^i))。 (2)  
我们测试完全自动化的场景,其中 μ 也是对 LLM 的一次调用,被提示更新投稿以回应评审。  

### 3.2 自动化评审框架  
在本工作中,我们希望评估 LLM 评审是否与人类评审紧密对齐 (RQ1),以及 LLM 评审在不同模型和提示词之间是否一致 (RQ2)。为此,我们设计了五个评审提示词,它们逐渐针对特定的 ARR 评审数据集进行定制:  
- • **simple**:一个最简提示,仅要求评审并指定输出格式。  
- • **default**:由作者起草,指定目标会议和接受率。  
- • **ai_generated**:由LLM生成的提示词,用于评审顶级机器学习会议的投稿。  
- • **acl**:从ai_generated改编而来,包含来自ARR的具体指南。  
- • **acl_senior**:与acl相同,但采用资深专家审稿人的人设。  

所有提示词的完整列表见附录F (https://arxiv.org/html/2605.28897#A6)。  

### 3.3 迭代投稿改进  
参见图注  
图2:ISI流程被迭代地用于改进论文草稿。  

针对 RQ3,我们考虑了不同风格的迭代投稿改进(ISI)。纯粹为了针对自动化评审而优化投稿,就是我们所说的"作弊"LLM评审。ISI描述了如图2 (https://arxiv.org/html/2605.28897#S3.F2) 所示的迭代循环,其中作者使用LLM为其投稿 s^i 生成评审 r,并利用此评审来指导编辑函数 μ 以改进其投稿,从而创建 s^(i+1)。我们对 ISI 应用十次迭代。由于无法完美预测接受/拒绝决定,我们并不尝试预测论文是否会被接受或拒绝,而是专注于整体分数(Overall score)的提升。具体而言,我们关注三种设置:**constrained**、**default**、**adversarial**²²²所有提示词见附录F (https://arxiv.org/html/2605.28897#A6)。在**constrained**设置中,作者禁止实质性更改,只允许回应评审进行表面的、修饰性的编辑。这测试了 Baumann 等人 (2026) (https://arxiv.org/html/2605.28897#bib.bib1) 的"论文清洗"是否能将LLM评审建议从拒稿转变为接受。然而,他们的提示词并未严格强制执行仅限修饰性的编辑,甚至可能鼓励更基础性的改变。因此,在我们的**default**设置中,我们使用的提示词深受 Baumann 等人 (2026) (https://arxiv.org/html/2605.28897#bib.bib1) 使用的编辑提示词的启发,但移除了可能导致非修饰性更改的指令。我们称之为**default**,因为它既不禁止也不主动允许深层次更改。最后,在**adversarial**设置中,我们模拟了一位积极鼓励编辑以不惜一切代价让论文被接受的作者,即使这意味着例如捏造结果。  

### 3.4 编辑分类体系  
为了更好地理解为了在LLM评审中提高分数而执行了哪种类型的编辑,我们引入了一个论文编辑分类体系。我们的分类体系基于 Yang 等人 (2017) (https://arxiv.org/html/2605.28897#bib.bib36) 的工作,他们为维基百科上的编辑类型提出了一个分类体系。我们调整他们的分类体系以适应ARR投稿的论文编辑场景。该分类体系在附录中的表3 (https://arxiv.org/html/2605.28897#A1.T3) 中呈现。对于**constrained**和**default**编辑设置,我们使用相同的允许编辑类型集合。这些编辑类型侧重于保持投稿内容不变,不需要新的实验,例如简化或澄清。对于**adversarial**设置,我们添加了另一组编辑类型,这些类型侧重于"作弊"LLM评审,例如虚构证据和捏造更好的结果。  

## 4 实验设置  
### 4.1 数据集与预处理  
在ARR(主要的ACL评审平台)中,审稿人在四个类别中分配9分制评分(1到5分,步长0.5分):Soundness、Excitement、Reproducibility和Overall。在领域主席撰写总结这些内容的元评审之前,对评审和作者回复进行讨论。最终的接受决定由程序委员会基于评审和元评审做出。我们仅使用Overall分数,因为它是最具代表性的指标。

相似文章

Review Arcade:论LLM评审的人类对齐与可游戏性

Hugging Face Daily Papers

本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。

LLM-as-Judge的几何学:为何LLM间共识并非人类对齐

arXiv cs.CL

本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致,但与人类仅弱相关,发现LLM间共识在主观评分标准上反映的是坍塌子空间,而非真正的人类对齐。基于人类数据的后验校准提高了对齐,但即使经过校准的LLM也未达到人类的可靠性。

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

PRISM:评估LLM审稿人的多维度基准

arXiv cs.CL

介绍PRISM,一个用于评估基于大语言模型的同行评审员的多维度基准,涵盖分析深度、新颖性评估、缺陷识别和建设性。研究结果表明,大语言模型在单个维度上能与人类评审员匹敌甚至超越,但缺乏跨所有维度的平衡表现,因此最适合作为人类评审的补充工具。