对AI辅助同行评议的操纵给科学界带来新风险

arXiv cs.CL 论文

摘要

一项新研究表明,AI辅助的同行评审易通过廉价手段被操控——仅需对论文摘要进行表面改写,即可显著提高AI生成的评审分数,并可能使人类编辑决策产生偏差,凸显了建立防护措施的必要性。

arXiv:2606.10159v1 公告类型:新论文 摘要:人工智能正越来越多地用于支持科学同行评审,包括稿件筛选、审稿人辅助以及编辑分类等环节。尽管此类系统有望减轻审稿人负担并加速出版流程,但其对策略性操纵的鲁棒性仍知之甚少。本文表明,AI中介的同行评审容易受到一种简单且低成本的操纵手段的影响:对论文摘要进行表面改写。在不改变底层科学内容和沟通方式,甚至在不了解评审模型的情况下,对抗性重写的摘要能显著提升AI评审结果。我们在不同学科和发表场所均观察到这一现象,涉及人类撰写和AI生成的论文。我们最强的攻击实现了约38%的攻击成功率,使Gemini 3 Flash审稿人的接受评分提升+1.31分,GPT 5.4 Mini审稿人的评分提升+0.88分(10分制)。当原始AI评审建议为“拒绝”时,成功率超过50%。这种效应不仅体现在整体分数的膨胀上,还提高了评审信心以及在核心科学标准(如严谨性、重要性和贡献感)上的评分。该攻击具有可行性,针对一篇10页的AI会议投稿仅需约5分钟和1美元,且很难与普通的科学编辑行为区分开。被膨胀的AI评审结果可能影响下游的人类决策,使编辑推荐从拒绝转向接受。这些发现揭示了AI辅助科学评估中的一个普遍漏洞:当AI生成的评审影响编辑决策时,作者可能更倾向于优化稿件以迎合AI判断而非科学价值。我们的结果表明,在高风险的同行评审中,不应将AI工具视为中立的评估者,而需进行系统的鲁棒性测试、设立透明的防护措施并进行严格的人工监督。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:10

# 利用人工智能辅助同行评审对科学界构成新风险
来源:https://arxiv.org/html/2606.10159
林丽¹,齐张¹,Xander Davies¹,邱佳宁²,Yarin Gal¹
¹牛津大学应用数学与理论物理实验室
²MBZUAI

###### 摘要

人工智能正越来越多地被用于支持科学同行评审,从稿件筛选、摘要总结,到审稿人辅助和编辑分类。尽管这类系统有望减轻审稿人负担并加快出版速度,但其对策略性操纵的鲁棒性仍知之甚少。本文表明,人工智能辅助的同行评审容易受到一种简单且低成本的操纵形式的影响:对稿件摘要的表面性改写。在不改变论文的底层科学内容和表述,甚至不了解评审模型的情况下,对抗性重写的摘要能显著改善AI生成的评审结果。我们在来自不同学科和出版场所的论文中,以及人类撰写的论文和AI生成的论文中都观察到了这一点。我们最强的攻击达到了约38%的攻击成功率,将Gemini 3 Flash审稿人的接受评分提高+1.31,将GPT 5.4 Mini审稿人的接受评分提高+0.88(以10分制计)。当原始AI审稿建议“拒绝”时,成功率上升至超过50%。这种效应不仅限于总体分数的膨胀,还进一步提高了AI审稿的置信度,并改善了核心科学标准(如合理性、重要性和感知贡献)的评分。该攻击具有实用性,仅需约5分钟和1美元即可完成一篇10页的AI会议论文,且难以与普通的科学编辑区分开来。膨胀的AI评审结果可能影响下游的人类决策,将一些编辑建议从拒绝转向接受。这些发现揭示了AI辅助科学评估中的普遍脆弱性:当AI生成的评估影响编辑决策时,作者可能会被激励去优化稿件以迎合AI判断,而非追求科学价值。我们的结果表明,在高风险的同行评审中,不应未经系统性鲁棒性测试、透明保障措施和仔细的人工监督就将AI工具视为中立的评估者。

## 1 引言

参见图注图1:主要AI会议的投稿数量。

科学同行评审的完整性依赖于这样一个前提:对稿件的评估应基于其证据质量、合理性、推理、贡献和表述,而非表面的语言特征。然而,这一前提正面临越来越大的压力。在整个科学领域,提交的研究数量快速增长,而合格审稿人的数量并未同步扩大(图1 (https://arxiv.org/html/2606.10159#S1.F1))。期刊和会议现在面临着越来越严重的延误、审稿人疲劳和审稿质量参差不齐的问题,这给学术评估的可持续性带来了结构性挑战[7 (https://arxiv.org/html/2606.10159#bib.bib333),24 (https://arxiv.org/html/2606.10159#bib.bib1768),20 (https://arxiv.org/html/2606.10159#bib.bib1433)]。

参见图注图2:通过摘要改写攻击来操纵AI同行评审的说明,以及各种改写策略的示例。a, 我们的方法仅迭代改写论文的摘要,保留稿件其余部分不变,优化其以提高AI审稿人给出的接受评分。b, 原始摘要以及通过保留原意、夸大和重写攻击策略生成的三个改写版本。原始摘要的论文在GPT 5.4 Mini中的建议是“边缘拒绝”,而所有三个改写版本在同一个AI审稿人那里都得到了“边缘接受”的建议。有关攻击和改写策略的更多详情请参见第2节 (https://arxiv.org/html/2606.10159#S2)。

因此,人工智能已成为应对系统压力的有吸引力的回应。大型语言模型(LLMs)可以总结稿件、识别相关的先前工作、辅助技术检查、起草评审报告并支持编辑分类。在筛选任务中,早期研究报告称人类工作量大幅减少,包括在标题和摘要评审期间减少33%至93%[11 (https://arxiv.org/html/2606.10159#bib.bib3622)]。最近,涵盖AI会议、自然系列期刊和多个科学学科的研究[23 (https://arxiv.org/html/2606.10159#bib.bib3618),33 (https://arxiv.org/html/2606.10159#bib.bib3617),5 (https://arxiv.org/html/2606.10159#bib.bib233)]发现,研究人员不仅认为AI生成的评审有用,而且在某些方面甚至比人类评审更受欢迎,特别是在技术准确性和识别可操作改进方面。这些能力鼓励了这样一种观点,即AI系统可以使同行评审更快、更具可扩展性且更一致,同时可能提高科学评估的质量,尤其是在面临高投稿量或审稿人严重短缺的领域[22 (https://arxiv.org/html/2606.10159#bib.bib1734),28 (https://arxiv.org/html/2606.10159#bib.bib2081)]。

这种转变已经在进行中。一些科学场所已开始正式将AI生成的评估或总结纳入其评审流程[1 (https://arxiv.org/html/2606.10159#bib.bib3624)],而另一些场所则允许审稿人使用LLM来理解投稿、比较相关工作或润色评审文本[17 (https://arxiv.org/html/2606.10159#bib.bib3626)]。在医学和健康出版领域,已经开始探索结合人类与AI的评审流程,以加速编辑决策[27 (https://arxiv.org/html/2606.10159#bib.bib3638)]。更广泛地说,调查和观察性研究表明,许多审稿人已经在非正式地使用AI工具(有时甚至不公开)来协助评审过程的某些部分[32 (https://arxiv.org/html/2606.10159#bib.bib2436),28 (https://arxiv.org/html/2606.10159#bib.bib2081),30 (https://arxiv.org/html/2606.10159#bib.bib3625)]。更多详情请参见附录A (https://arxiv.org/html/2606.10159#A1)。因此,AI介导的评审不再仅仅是计算机科学领域的一种推测性可能性;它正成为过滤、优先排序和合法化科学主张的基础设施的一部分。

在同行评审中采用AI引发了一个紧迫的问题:这些系统对作者的策略性操纵是否鲁棒?现有的争论主要集中在显性的不当行为形式上,例如嵌入在手稿中的隐藏提示,指示AI审稿人提供有利评价[15 (https://arxiv.org/html/2606.10159#bib.bib908),8 (https://arxiv.org/html/2606.10159#bib.bib533),34 (https://arxiv.org/html/2606.10159#bib.bib3539),14 (https://arxiv.org/html/2606.10159#bib.bib899)]。最近,研究[3 (https://arxiv.org/html/2606.10159#bib.bib182)]表明,LLM可用于根据AI审稿人的反馈修改稿件,例如明确解决已识别的弱点,从而改善后续的评审分数。这些攻击令人不安,但它们类似于明目张胆的篡改:通常是可检测的,可以通过政策禁止,并可以通过文件检查、披露规则和制裁来处理。一个更微妙且可能更普遍的风险是,作者可能能够影响AI审稿人,而无需隐藏指令或改变底层科学内容。

在本文中,我们展示了这种风险是真实存在的。我们引入了一种迭代优化攻击(图2 (https://arxiv.org/html/2606.10159#S1.F2)a),通过改写论文摘要来抬高AI评审结果,并展示了三种不同的改写策略:重写、保留原意和夸大(图2 (https://arxiv.org/html/2606.10159#S1.F2)b)。我们在100篇涵盖包括AI、医学等多个学科的论文上评估了该攻击,这些论文来自AI会议和Nature Communications期刊,包括人类撰写和AI生成的稿件。

我们发现,AI审稿人对稿件摘要的表面性改写高度敏感。仅改写摘要——全文的一小部分(每篇论文约占总token数的3.5%),且不改变底层的实验、分析或结论——就能显著抬高AI评审评估。我们最强的攻击达到了约38%的攻击成功率,将Gemini 3 Flash审稿人的接受评分提高+1.31,将GPT 5.4 Mini审稿人的接受评分提高+0.88(以10分制计)。当原始AI审稿建议“拒绝”时,成功率上升至超过50%。即使在不知道目标模型或评审提示的情况下也可以进行这种操纵,使其在黑盒设置中也可行。这种效果不仅仅是“偶然改进”:改写后的提交在多次AI评审中获得更为一致的推荐,并且对核心科学标准(包括合理性、重要性和感知贡献)的评估得到改善。即使保留原意的攻击无法改进对结果贡献或表述的评估(图3 (https://arxiv.org/html/2606.10159#S1.F3)中给出了一个定性示例),我们仍然观察到了这一点。

这种脆弱性也具有实用性。对于所测试的模型,生成一个AI优化的摘要仅需大约5分钟和1美元(针对一篇10页的AI会议论文)。与明显的提示注入攻击不同,这种改写可能看起来与普通科学编辑无异,因此难以检测或制裁。膨胀的AI评审结果可能影响下游的人类决策。特别是,有利的AI生成的评估可能使领域主席的推荐产生偏差,并在某些情况下将决策从拒绝转向接受。

这些发现揭示了AI介导的科学评估中的普遍脆弱性。随着AI系统嵌入同行评审、编辑分类和研究评估中,它们可能为作者创造新的激励,使其优化稿件以适应机器判断而非科学价值。由此产生的风险并不仅限于人工智能研究,也不限于任何一个场所或学科。它关乎学术交流的未来治理:如果AI工具被用于帮助决定哪些主张进入科学记录,那么它们对低成本语言操纵的敏感性就成为了科学诚信的问题。我们的结果表明,在将AI辅助的同行评审用于高风险的编辑决策之前,应谨慎部署,并配备透明的保障措施和系统的鲁棒性评估。

参见图注图3:某选定论文在攻击前后的评审比较。接受评分从3(拒绝)增加到6(边缘接受),同时伴随更强有力的优点评论、更少的弱点评论,以及合理性和贡献得分更高。评审模型为Gemini 3 Flash。由于篇幅原因,摘要和问题部分的内容被省略。

## 2 方法

### 2.1 威胁模型

我们将同行评审过程形式化为一个评估函数,将稿件映射为一个标量价值分数。令X\\mathcal\{X\}表示所有可能的可变长度token序列(稿件)的离散空间。我们假设一个“真实”评估器V:X→RV:\\mathcal\{X\}\\rightarrow\\mathbb\{R\}(代表专家且负责任的人类审稿人的共识)和一个AI审稿人fθ:X→Rf\_\{\\theta\}:\\mathcal\{X\}\\rightarrow\\mathbb\{R\},旨在近似VV。

对手(作者)试图通过从初始草稿xorix\_\{\\text\{ori\}\}改写稿件xadvx\_\{\\text\{adv\}\}来最大化AI审稿人的评分fθ\(x\)f\_\{\\theta\}\(x\):

xadv=argmaxx′∈N\(xori\)fθ\(x′\)。x\_\{\\text\{adv\}\}=\\operatorname\*\{argmax\}\_\{x^\{\\prime\}\\in\\mathcal\{N\}\(x\_\{\\text\{ori\}\}\)\}f\_\{\\theta\}\(x^\{\\prime\}\)。\(1\)

邻域N\(xori\)\\mathcal\{N\}\(x\_\{\\text\{ori\}\}\)由**价值不变语义偏差**和**流畅性**的交集定义。

**价值不变语义偏差。** 我们定义允许的语义偏差不是通过语言距离,而是通过真实评估的不变性。可接受集Cinv\\mathcal\{C\}\_\{\\text\{inv\}\}包含所有对人类审稿人而言语义变化被视为可忽略的稿件:

Cinv=\{x′∈X∣\|V\(x′\)−V\(x\)\|≤ε\},\\mathcal\{C\}\_\{\\text\{inv\}\}=\\\{x^\{\\prime\}\\in\\mathcal\{X\}\\mid\|V\(x^\{\\prime\}\)\-V\(x\)\|\\leq\\epsilon\\\},\(2\)

其中ε\\epsilon是一个容忍参数,捕获人类同行评审中的固有噪声。关键的是,在此集合内,我们假设存在语义内容不同但专家认为其科学价值大致相当的稿件。

这一约束的动机在于,至少在短期内,稿件将继续与AI驱动的同行评审系统一起由人类专家评审。强制执行这一条件可确保任何改写不会对人类的评估分数V\(x\)V\(x\)产生负面影响。

**流畅性约束。** 改写后的稿件应在统计上与有效的科学写作无法区分,以避免启发式或自动化检测。一种便捷的公式使用科学文本语言模型PsciP\_\{\\text\{sci\}\}下序列的指数平均负对数似然(即困惑度),如下所示:

Cfl=\{x′∈X∣exp−1\|x′\|∑t=1\|x′\|log⁡Psci\(xt′\|x<t′\)≤λ\},\\mathcal\{C\}\_\{\\text\{fl\}\}=\\\{x^\{\\prime\}\\in\\mathcal\{X\}\\mid\\exp\{\-\\frac\{1\}\{\|x^\{\\prime\}\|\}\\sum\_\{t=1\}^\{\|x^\{\\prime\}\|\}\\log P\_\{\\text\{sci\}\}\(x^\{\\prime\}\_\{t\}\|x^\{\\prime\}\_\{<t\}\)\}\\leq\\lambda\\\},\(3\)

其中λ\\lambda是控制可接受流畅度程度的阈值。在实践中,PsciP\_\{\\text\{sci\}\}通常不是作为专门的科学语言模型实例化的,而是为了方便起见,使用一个通用的大型语言模型,该模型已在科学和非科学文本的混合上训练,并被广泛用于写作辅助和评估。

重要的是,这里的“有效科学写作”既包括人类撰写的写作,也包括AI辅助的写作。包含后者反映了使用AI工具起草和润色稿件的广泛采用。因此,此约束的目标不是区分AI撰写的内容和人类撰写的内容,而是确保对抗性优化的稿件与标准科学写作实践无法区分,不会被视为异常或操纵性内容。

**敏感性不匹配。** AI评审系统的脆弱性源于敏感性不匹配。尽管人类函数VV在Cinv\\mathcal\{C\}\_\{inv\}上(根据定义)是不变的,但AI函数fθf\_\{\\theta\}并非如此。对手通过找到一个变化δ\\delta来利用这一点,该变化沿着人类评估者的“盲区”移动x′x^\{\\prime\}(保持VV不变),同时沿着AI评估者的梯度爬升:

∃x′∈\(Cinv∩Cfl\)s\.t\.\\displaystyle\\exists\\,x^\{\\prime\}\\in\(\\mathcal\{C\}\_\{\\text\{inv\}\}\\cap\\mathcal\{C\}\_\{\\text\{fl\}\}\)\\quad\\text\{s\.t\.\}fθ\(x′\)≫fθ\(x\),V\(x′\)≈V\(x\)\\displaystyle f\_\{\\theta\}\(x^\{\\prime\}\)\\gg f\_\{\\theta\}\(x\),V\(x^\{\\prime\}\)\\approx V\(x\)\(4\)

这意味着fθf\_\{\\theta\}正在优先考虑与科学价值VV无相关性的风格特征。

### 2.2 价值不变改写攻击

我们实例化上述威胁模型u

相似文章

无需隐藏提示!仅通过呈现层面的修改即可操纵AI同行评审

arXiv cs.CL

本论文证明,仅通过修改呈现层面的内容(如摘要、框架和叙述)而不改变任何科学证据,就能操纵AI同行评审,攻击成功率达75.1%。作者提出了对抗性重构——一种闭环攻击方法,利用AI评审者倾向于被印象打动而非被说服的特点,并发布了一个用于测试鲁棒性的基准。

AI认知风险:新兴机制与证据 [R]

Reddit r/MachineLearning

一篇由30位专家合著的新论文探讨了来自人工智能的认知风险—即对我们形成准确信念和良好推理能力的威胁—包括说服、认知卸载和反馈循环等机制,并概述了减轻这些风险的方向。