AI审稿人能看清全貌吗?多模态同行评审的攻击与防御

arXiv cs.CL 论文

摘要

本文介绍了PaperGuard,这是一个用于评估和防御多模态AI同行评审系统对抗性攻击的基准,涵盖多个科学领域的文本和图像攻击。

arXiv:2606.12716v1 公告类型: 新 摘要: 将大语言模型(LLMs)和多模态大语言模型(MLLMs)整合到科学同行评审流程中,引入了对抗性操纵的新重大风险——尤其是考虑到科学论文的多模态特性,其中图表(而非仅文本)传达了核心证据。这造成了显著的差距:目前关于AI同行评审鲁棒性的研究绝大多数仅局限于文本。此外,该问题与标准越狱截然不同,因为同行评审攻击旨在引发特定领域的目标性故障(例如“提高分数”),而非一般性安全策略违规,且对此尚无实用防御措施。为解决这一问题,我们提出了PaperGuard,这是首个专门设计用于系统评估和防御AI生成的同行评审免受这些特定领域跨模态攻击的全面基准。我们的框架基于三大支柱:(1)一个覆盖多个科学领域的新多模态同行评审数据集;(2)一套统一的攻击方案,包括黑盒提示注入和白盒扰动,专门针对文本(GCG)和图像(PGD)设计;(3)一种实用防御方法——受学术论文长上下文挑战启发——利用基于分块的嵌入搜索高效定位并缓解有害指令。我们在多个最先进模型上进行的广泛实验证实,AI评审者普遍存在漏洞。PaperGuard建立了必要的基准、协议和可操作的防御策略,为开创可信、抗攻击的AI辅助学术评审奠定了基础。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:50

# 1 引言 来源: https://arxiv.org/html/2606.12716 marginparsep 已被修改。topmargin 已被修改。marginparpush 已被修改。页面布局违反了 ICML 样式。请不要更改页面布局,或包含像 geometry、savetrees 或 fullpage 这样的包,这些包会为您更改布局。我们无法可靠地撤消对样式的任意更改。请移除有问题的包或改变布局的命令,然后重试。 ![[未标题图片]](https://arxiv.org/html/2606.12716v1/logo/paperguard.png)AI评审者能看到全局吗?攻击与防御多模态同行评审  
Xinyu Zhao∗¹  Rana Muhammad Shahroz Khan∗¹  Zhen Xu¹  Zhen Tan²  Tianlong Chen¹🖂  
{}^{1\, \textrm{\Letter}} ¹{}^{1\,} 北卡罗来纳大学教堂山分校 ²{}^{2\,} 亚利桑那州立大学  
∗同等贡献  🖂{}^{ \textrm{\Letter}} 通讯作者  

**伦理与负责任使用。** 本文中发布的攻击旨在用于基准测试AI评审者的稳健性并开发针对它们的防御措施。数据集、注入提示和代码仅供研究使用,不得用于实际的同行评审实践。

**摘要**  
将大语言模型(LLMs)和多模态大语言模型(MLLMs)整合到科学同行评审流程中,引入了新颖且重大的对抗性操纵风险,尤其是考虑到科学论文的多模态特性——其中图形(而不仅仅是文本)传达核心证据。这造成了一个显著空白:当前关于AI同行评审的稳健性研究绝大多数仅局限于文本。此外,该问题与标准越狱攻击不同,因为同行评审攻击旨在诱导特定领域的、有针对性的失败(例如,“提高这个分数”),而非违反通用安全策略,对此尚无实际防御措施。为了解决这个问题,我们引入了**PaperGuard**,这是第一个旨在系统评估和防御针对这些领域特定、跨模态攻击的AI生成同行评审的综合基准。我们的框架建立在三个支柱上:(1)一个涵盖多个科学领域的新多模态同行评审数据集;(2)一套统一的攻击方法,包括黑盒提示注入和白盒扰动,专门针对文本(GCG)和图形(PGD)设计;以及(3)一种实用的防御方法,受学术论文长上下文挑战的启发,使用基于分块的嵌入搜索来高效定位并减轻有害指令。我们在最先进模型上进行的大量实验证实,AI评审者普遍存在脆弱性。**PaperGuard**建立了必要的基础基准、协议和可操作防御,为开创可信、抗攻击的AI辅助学术评审奠定了基础。  

项目页面:https://paper-guard.github.io/  

00footnotetext: 🖂{}^{ \textrm{\Letter}} 通讯作者:[email protected]  

### 1. 引言  

参考标题  

图1:在数据集 \( \mathcal{D}_{pro} \) 和 \( \mathcal{D}_{real} \) 上,三种防御机制(困惑度检测、扰动、以及LLM作为裁判)下的效果分析。括号内的数值表示相对于无防御基线的性能下降(Δ)。下划线值表示每列中最佳稳健性(最低下降)。  

科学同行评审在确保研究质量和维护学术交流的完整性方面起着至关重要的作用。近年来,大语言模型(LLMs)和多模态大语言模型(MLLMs)已开始协助同行评审工作,生成评估意见、总结贡献并支持编辑决策(zhou2024llm; du2024llms; liuReviewerGPTExploratoryStudy2023)。此外,正在从辅助向主动参与同行评审转变。主要会议,如AAAI、ICML、NeurIPS(aaai2026review),现在正在正式将AI生成的评审整合到其初始评审流程中。虽然这一举措解决了管理投稿规模的关键问题,但同时它也增加了风险。随着AI模型成为学术出版的正式守门人,其可靠性和对操纵的稳健性不再仅仅是学术问题,而是当下亟需关注的事项。  

虽然AI生成的评审提高了可及性和效率,但它们也暴露了一个更广泛且基本未被解决的可靠性风险。当前关于自动化或LLM辅助同行评审的研究(kuznetsov2024can; du2024llms; zhouLLMReliableReviewer2024; gao2025mmreview)主要关注良性输入下的评审质量改进。这种对评审效用的关注完全忽视了安全性,留下了一个关键问题未得到解答:这些AI评审系统在对抗性操纵下表现如何?正如我们在图1(https://arxiv.org/html/2606.12716#S1.F1)中所展示的,这种脆弱性非常现实:常见的攻击模式(涵盖文本注入和图像扰动)可以显著扭曲不同模型的评审分数。此外,LLMs对基于文本的攻击的普遍脆弱性已经得到充分证实(gao2018black; jin2020bert; yao2024survey; lin2025breaking)。在不了解新颖攻击面的情况下,将这些模型应用于科学评审这一高风险、长上下文的领域,将造成重大且直接的脆弱性。  

尽管存在这种明确而现实的威胁,但仍然存在**显著空白**。我们认为现有工作在三个关键方面未能解决这一挑战:  

- **(差距1)** 现有的稳健性研究绝大多数集中在纯文本攻击上(zhuangLargeLanguageModels2025; lin2025breaking),忽视了核心方法和结果呈现的视觉模态。  
- **(差距2)** AI评审安全性与标准越狱或其他安全攻击不同。同行评审攻击的目标不是让模型违反通用安全策略(例如,“不要说有害内容”),而是诱导**特定领域的、有针对性的失败**(例如,“忽略这个特定缺陷”或“为这个方法提高分数”)。这需要一类不同的攻击,能够操纵模型的细致、特定领域推理,而不仅仅是其安全对齐。  
- **(差距3)** 针对这一威胁,尚无实际防御措施。抵御这些攻击具有独特的难度。与通用安全违规不同,对抗性指令是嵌入在长文档中的微妙、特定领域操纵,这可能会使简单的“提示审核”或“越狱检测”过滤器失效。  

为弥补这一差距,我们引入了**PaperGuard**,这是第一个旨在系统评估和防御AI生成同行评审免受对抗性操纵的综合基准。我们的框架建立在三个支柱上:❶ 一个来自AI/ML研究及更广泛科学领域的新多模态同行评审数据集,通过解析论文提取关键图形(例如方法、结果)构建;❷ 一套统一的对抗性攻击方法,统一了黑盒提示注入与基于白盒梯度的文本(GCG)和图像(PGD)扰动;以及❸ 一个实用、轻量级的防御框架。我们特别提出了一种**基于分块的嵌入相似性搜索**防御方法,针对该问题的长上下文特性量身定制。该方法不是扫描整个文档,而是将论文分解为语义连贯的块(文本段落、图形),并将其嵌入与已知攻击模式的数据库进行比较。这种“分块”方法计算效率高,且能有效定位嵌入全文档噪声中容易丢失的可疑指令。  

我们在开源和商业LLM/MLLM上进行了大量实验,证明对抗性脆弱性广泛存在。通过建立这一基础基准、透明协议和可操作防御,**PaperGuard**提供了开创可信AI辅助学术评审所需的关键工具。  

**总结**,我们做出以下贡献:  
⋆ 我们建立了**PaperGuard**作为第一个标准化框架,用于评估AI生成科学评审在多模态对抗性操纵下的稳健性。  
⋆ 我们统一了黑盒(提示注入)和白盒(文本的GCG、图像的PGD)攻击,以揭示并系统测量现有LLM和MLLM中的跨模态脆弱性。  
⋆ 我们在最先进模型上进行了大量实验,揭示了广泛的脆弱性,并确认了需要稳健的安全防护。黑盒提示注入对强大的专有模型实现了高达80%的攻击成功率(ASR),导致分数大幅膨胀。同样,白盒视觉攻击使分数最多提高+14.11点,证实了仅靠文本防护是不够的。  
⋆ 我们提出了一种轻量级且实用的基于分块的嵌入搜索防御方法,能有效检测恶意注入,同时产生零误报案例,使其成为避免惩罚良性作者的实用解决方案。  

### 2. 相关工作  

#### 2.1 用于同行评审自动化的LLMs  

自动化同行评审的研究经历了几个阶段。早期工作侧重于预评审筛选工具,例如用于检查是否符合期刊政策、抄袭检测或统计错误检查(kilicoglu2018automatic; riedel2020oddpub; zhang2010crosscheck; nuijten2016prevalence; checco2021ai)。虽然这些工具有效提高了编辑效率,但仅限于表面检查。向基于NLP的评审生成的转变,反映了超越基于规则的检查、逼近人类判断的努力(kuznetsov2024can; nikiforovskaya2020automatic; yuan2022can)。然而,这些方法仍然受限于领域特定性和生成评估的可靠性。  

强大LLMs的出现引入了一种新范式。最近的研究表明,LLMs可以分析复杂的学术文本,生成连贯的反馈,甚至协助元评审决策(du2024llms; lu2024ai; zhuangLargeLanguageModels2025)。这引发了对LLMs作为共同评审者或助手的研究热潮(liuReviewerGPTExploratoryStudy2023; robertsonGPT4SlightlyHelpful2023; zhouLLMReliableReviewer2024; liangCanLargeLanguage2023)。然而,这些研究也突显了显著局限性:即使是像GPT-4o这样的最先进模型,在评审质量上也往往无法达到人类期望,缺乏提供深刻批评所需的深度领域专业知识(zhouLLMReliableReviewer2024)。为了解决这一质量差距,研究人员专注于在评审数据集上微调模型(kangDatasetPeerReviews2018; yuanCanWeAutomate2021; shenMReDMetaReviewDataset2022; dyckeNLPeerUnifiedResource2023; gaoReviewer2OptimizingReview2024)或使用多智能体生成更全面的反馈(darcyMARGMultiAgentReview2024; tanPeerReviewMultiTurn2024)。  

参考标题  

图2:我们提出的**PaperGuard**框架的整体流程。该框架首先处理来自多个平台的不同论文,然后制定旨在误导AI评审者的跨模态攻击任务(例如,提示注入、图像扰动),最后提出防御策略(例如,LLM作为裁判、基于分块的嵌入搜索)来检测和减轻这些攻击。  

#### 2.2 基准测试AI辅助评审质量  

随着LLMs越来越融入学术工作流程,对标准化评估的需求变得至关重要。早期评估依赖于传统NLP指标,如ROUGE(linROUGEPackageAutomatic2004)或BERTScore(zhangBERTScoreEvaluatingText2020)来衡量与人类评审的相似度(shenMReDMetaReviewDataset2022; yu2024automated; gaoReviewer2OptimizingReview2024; tanPeerReviewMultiTurn2024; gaoReviewAgentsBridgingGap2025)。最近,采用了LLM作为裁判的范式来评估其他模型生成的评审质量(robertsonGPT4SlightlyHelpful2023; zhouLLMReliableReviewer2024; gaoReviewAgentsBridgingGap2025)。为了创建更严格、更全面的评估,提出了综合性基准。一个显著的例子是MMReview(gao2025mmreview),它引入了一个大规模、多学科、多模态的LLM同行评审基准。MMReview通过评估模型在13个不同任务(如逐步评审生成和人类偏好对齐)上的表现(涵盖文本和图形),为评估评审质量提供了关键框架。然而,这些基准是在假设良性输入的前提下设计用于评估质量和人类对齐的。它们没有解决安全性或可靠性的关键问题。这留下了显著空白:虽然我们开始了解MLLMs评审论文的能力,但其安全水平仍未知,尤其是在面对对抗性操纵时。  

#### 2.3 AI同行评审中的对抗性脆弱性  

LLMs的可靠性是一个已知问题,尤其是它们容易受到对抗性攻击的影响,这种攻击通过微妙修改输入内容来误导模型。这一威胁在文本领域已有充分记录,涵盖字符级操作(gao2018black; ebrahimi-etal-2018-hotflip; belinkov2017synthetic)、词级同义词替换(jin2020bert; li2020bert; maheshwary2021generating)和句子级改写(qi2021mind; qi2021hidden)。这些攻击并非仅仅是理论上的。正如yao2024survey和kumar2024adversarial所强调的,数据投毒和提示注入等威胁是实际关注点。这些脆弱性由于模型固有的行为弱点(如位置和冗长性偏差(liu2024lost; saito2023verbosity)或自我增强偏差(zheng2023judging))而加剧,这些弱点使评估复杂化,并使模型易受操纵。在同行评审这一高风险应用中,robertson2023gpt4观察到GPT-4难以应对微妙操纵,而raina2024llm表明对抗性攻击可以显著提高评估分数,引发了对公平性的严重关切。这种脆弱性本身已成为一个专门的研究领域。例如,《Breaking the Reviewer》(lin2025breaking)对LLM评审者针对文本对抗性攻击的稳健性进行了全面调查。这项工作表明,LLMs极易受到简单文本操作的影响,这可能会扭曲其评估并损害评审过程。虽然这一系列研究为文本稳健性提供了坚实基础,但它从根本上忽视了科学出版物的多模态特性。在许多学科中,论文的核心主张和结果都呈现在图形、表格和图表中。这些视觉元素构成了一个强大且尚未被探索的攻击向量。据我们所知,尚无现有工作系统地对AI评审者的多模态对抗性脆弱性进行基准测试。  

### 3. 威胁模型与问题形式化  

在本节中,我们正式定义**PaperGuard**的威胁模型。我们首先概述多模态同行评审系统的设置,然后详述对手的能力,最后形式化对手的具体目标,这些目标与标准越狱攻击不同。  

#### 3.1 系统与场景定义  

我们考虑一个多模态大语言模型(MLLM)\( M \),充当自动化同行评审者。MLLM的任务是基于给定的科学论文生成定性评审\( R \)和一组定量分数\( S \)。  

**系统输入:** 系统 \( M \) 接受三个输入:  
1. ❶ 评审提示 \( P_{rev} \):指示模型其角色、任务和输出格式的系统提示(例如,“你是一个有帮助的评审者...”)  
2. ❷ 文本内容 \( T \):论文的全文。  
3. ❸ 视觉内容 \( V \):

相似文章

无需隐藏提示!仅通过呈现层面的修改即可操纵AI同行评审

arXiv cs.CL

本论文证明,仅通过修改呈现层面的内容(如摘要、框架和叙述)而不改变任何科学证据,就能操纵AI同行评审,攻击成功率达75.1%。作者提出了对抗性重构——一种闭环攻击方法,利用AI评审者倾向于被印象打动而非被说服的特点,并发布了一个用于测试鲁棒性的基准。

对AI辅助同行评议的操纵给科学界带来新风险

arXiv cs.CL

一项新研究表明,AI辅助的同行评审易通过廉价手段被操控——仅需对论文摘要进行表面改写,即可显著提高AI生成的评审分数,并可能使人类编辑决策产生偏差,凸显了建立防护措施的必要性。

评估先进AI的潜在网络安全威胁

Google DeepMind Blog

DeepMind发布了一个综合框架,用于评估先进AI模型的进攻性网络安全能力,分析了遍布20个国家的12000多次真实AI驱动的网络攻击,并创建了涵盖整个攻击链的50个挑战基准,帮助防御者优先配置安全资源。