无需隐藏提示!仅通过呈现层面的修改即可操纵AI同行评审
摘要
本论文证明,仅通过修改呈现层面的内容(如摘要、框架和叙述)而不改变任何科学证据,就能操纵AI同行评审,攻击成功率达75.1%。作者提出了对抗性重构——一种闭环攻击方法,利用AI评审者倾向于被印象打动而非被说服的特点,并发布了一个用于测试鲁棒性的基准。
arXiv:2606.13044v1 发布类型:新
摘要:随着AI生成的评审从实验工具走向同行评审基础设施,大多数鲁棒性问题都集中在显式攻击上,如隐藏指令和提示注入。我们研究了一种更困难且更具政策相关性的失败模式:无隐藏文本、无提示注入、且不改变方法、实验、图表、公式、证明或数值结果。攻击者仅修改呈现层面的内容,如摘要、贡献框架、相关工作、讨论和叙述结构。我们提出了对抗性重构(adversarial repackaging):一种闭环攻击方法,利用AI评审者的反馈来搜索呈现层面的修改,同时保持科学证据不变。在三个主流AI评审者上,对抗性重构实现了75.1%的攻击成功率和平均得分提升+1.21/10。该效果不能通过普通散文润色来解释。我们还揭示,改变评审者对论文解读方式的策略(如相关工作重新定位和分析性讨论扩展)显著优于表面编辑(如局部润色、表格格式化和算法框)。
我们的分析揭示了两个更深层次的结构性失败模式。首先,AI评审者更容易被印象打动而非被说服:突出优势可靠地提升感知价值,而试图消除弱点常常适得其反。其次,AI评审者可能混淆表面处理局限与真正解决局限,从而允许未改变的证据被重新解释为更强的科学贡献。这些结果表明,部署风险不仅在于恶意的隐藏指令,还在于论文呈现本身成为一种优化表面。我们发布了一个无污染的滚动基准和攻击框架,用于测试AI评审者在仅呈现层面编辑下是否仍锚定于科学内容。
查看缓存全文
缓存时间: 2026/06/12 08:51
# \faWandMagicSparkles 无需隐藏提示!仅凭表述修改即可欺骗AI同行评审
来源:https://arxiv.org/html/2606.13044
翟周邵¹,李俊博¹,于坚¹,孙逸凡²,赵铭洋¹,方金瑞¹,郭馨月¹,吴怡宁¹,胡旭³,罗逸夫⁴,刘强¹,王张扬¹
¹德克萨斯大学奥斯汀分校,²伊利诺伊大学厄巴纳-香槟分校,³德克萨斯大学达拉斯分校,⁴独立研究员
项目网站: https://xyimatvoid.github.io/ARGAR-Site/
###### 摘要
随着AI生成的评审从实验工具走向同行评审基础设施,大多数关于其鲁棒性的担忧主要集中在显式攻击上,如隐藏指令和提示注入。我们研究了一种更困难且更具政策相关性的失败模式:无需隐藏文本、无需提示注入、无需更改方法、实验、图表、方程、证明或数值结果。攻击者仅修改表述层面的内容,例如摘要、贡献定位、相关工作、讨论和叙事结构。我们引入**对抗性重包装**:一种闭环攻击,利用AI评审者的反馈,在固定科学证据不变的前提下搜索表述层面的修订。在三种主流AI评审系统上,对抗性重包装实现了75.1%的攻击成功率和平均+1.21/10的分数提升。这种效应无法用普通的润色来解释。我们还揭示,改变评审者解读论文方式的策略(如重新定位相关工作和扩展分析性讨论)显著优于表面编辑(如局部润色、表格格式化和算法框调整)。我们的分析揭示了两个更深层的结构性失败模式。第一,AI评审者更容易被打动而非被说服:突出优势能可靠地提升感知价值,而试图化解弱点则常常适得其反。第二,AI评审者可能混淆“表面处理了局限性”与“实际解决了局限性”,使得未改变的证据被重新解读为更强的科学贡献。这些结果表明,部署风险不仅来自恶意的隐藏指令,还来自论文表述本身成为一个可优化的攻击面。我们发布了一个无污染滚动的基准测试和攻击框架,用于测试AI评审者在仅表述修改的情况下是否仍能锚定于科学内容。
“我们保证本文未经对抗性重包装。任何与更清晰、定位更准确的版本的相似之处纯属巧合。☺ ——作者”
## 1 引言
科学同行评审是科学发现获得认可和可信度的基石。然而,投稿量的持续增长以及合格评审者的相对稀缺,正给这一体系带来前所未有的压力 [shah2022challenges, kim2025position, yang2025paper, lin2026stop]。在此背景下,大语言模型生成的评审因其低成本、高效率以及看似专业的输出,正迅速进入同行评审流程。AAAI 2026已在官方评审流程中试用LLM生成的评审;ICLR 2025部署了基于AI的评审反馈代理;主要AI会议也在不同程度地探索评审自动化 [biswas2026ai, thakkar2026large, liang2024monitoring, emi2025pangram]。这一趋势引发了一个关键问题:在将AI评审者部署用于科学评估之前,我们是否充分理解了其被操纵的风险?
请看图1:本文框架概览。左侧:我们提出对“仅表述层游戏评审”的抵抗能力作为AI评审自动化的必要条件,并将论文源划分为三个编辑区域以约束攻击范围。中间:对抗性重包装攻击系统通过闭环流水线迭代搜索能够改善评审结果的表述层编辑,同时保持科学内容不变。右侧:实验揭示了两个核心失败模式:优势-弱点不对称(更容易被打动而非被说服)和策略有效性梯度(叙事重构远优于表面润色)。
当前关于AI评审者鲁棒性的讨论主要集中于显式攻击,如提示注入和隐藏文本 [ye2024we],攻击者在论文中嵌入不可见指令以操纵评审输出。然而,这些攻击形式明显违反政策,已被大多数会议明确禁止,且一旦发现即遭拒稿。我们认为,一种更微妙且更具政策相关性的风险尚未得到足够关注:作者可以通过仅修改表述层面的内容(包括摘要、贡献陈述、相关工作、讨论和叙事结构)系统性地提升AI评审者的评分,同时保持方法、实验、图表、方程和数值结果不变。这些编辑是合法的、可见的,属于正常的学术写作实践,且不违反当前任何会议政策,因此比提示注入更难防范。基于这一观察,我们提出**对“仅表述层游戏评审”的抵抗能力**作为AI评审自动化的必要条件:当科学内容保持不变时,AI评审者的评分不应仅仅因为表述调整而系统性地变得更好。评审者当然可以认可更清晰的写作,但表述层面的优化不应被利用来系统性地夸大论文的感知科学价值。为了测试这一条件,我们引入**对抗性重包装**:利用AI评审者自身的反馈作为优化信号,我们在保持科学内容固定的前提下迭代搜索表述策略。我们的实验表明,当前的AI评审者未能满足这一条件。当AI评审者系统性地奖励表述优化而非科学贡献的真正提升时,这会激励作者从改进研究转向优化论文包装,从而在AI评审大规模部署时扭曲同行评审的激励机制。更令人担忧的是,这种脆弱性在多种主流评审者模型和评审模板中一致出现,表明它并非单个模型可修复的缺陷,而是当前AI评审者的结构性不足。
本文做出四项贡献:
1. 我们提出**对“仅表述层游戏评审”的抵抗能力**作为AI评审自动化的必要条件,并引入**对抗性重包装**作为这一条件的具体失败模式:在保持科学内容固定的前提下,对表述层编辑进行闭环迭代搜索,在三种主流模型和不同评审模板上实现了75.1%的攻击成功率和平均+1.21的分数提升(§5.1)。
2. 我们揭示了AI评审评估机制中的多维结构性缺陷,包括**优势-弱点不对称**(§5.2):通过突出优势来打动AI评审者比成功反驳批评更容易,后者甚至可能适得其反;以及**策略有效性梯度**(§5.3):不同表述策略在攻击效果上存在显著差异,表明这是一种系统性而非随机的脆弱性。
3. 我们构建了一个无污染的滚动数据集,包含近期未发表的arXiv预印本及其LaTeX源码和PDF,通过自动多阶段过滤流水线确保代表性覆盖并减少测试集污染,同时密切模拟真实的AI辅助同行评审工作流程(§4)。
4. 我们提出了一个对抗性重包装框架,结合了全论文表述层编辑、信号驱动的策略选择以及利用AI评审者反馈的闭环迭代优化(§3)。该框架与数据集共同构成了一个可重复使用的基准测试,用于检验AI评审系统的鲁棒性。
## 2 相关工作
**AI评审系统与评估。** 大量研究已经探索了使用LLM生成评审意见 [chang-etal-2025-treereview, idahl2024openreviewer, zeng2025reviewrl, wu2026aigoodpeerreviewer]。评估研究一致发现,AI评审表现出系统性分数膨胀、关注点趋同以及与人类评审者的一致性较低 [shin-etal-2025-mind, russo2025ai, akella2025prereviewpeerreviewpitfalls, li2025llm, li2025diagnosing, panickssery2024llm],并且AI生成的评审缺乏人类评审者中存在的视角多样性 [baumann2026stop, vasu2025justice]。这些研究描述了AI评审的质量局限性,但尚未系统测试AI评审分数是否可以通过表述层编辑进行操纵。
**提示注入与隐藏文本攻击。** 现有关于AI评审者鲁棒性的研究主要集中在显式攻击上:在论文中嵌入不可见指令以操纵评审输出 [ye2024we, zhou2025give, zhu2025your]。此类攻击已被大多数会议明确禁止,且一旦发现即遭拒稿。这些研究揭示了可修补的安全漏洞,而非AI评审评估机制本身的结构性缺陷。
**表面级文本扰动。** lin-etal-2025-breaking 将常规NLP对抗攻击(同义词替换、风格迁移等;jin2020bert)应用于AI评审场景,针对评审者关注的文档区域进行扰动,表明表面级文本修改可以有效提升分数。然而,这些攻击是非语义的扰动,仅表明分数可以被影响,而未能深入分析评估机制为何失效。
**论文重写与洗白。** 与本文最相关的工作涉及论文文本的语义级重写。kaneko2026paraphrasing 以评审分数作为反馈信号,迭代优化摘要释义,通过多轮搜索提升分数,但仅修改摘要,仅使用标量分数,且每篇论文需要超过两千次API调用,成本极高。baumann2026stop 提出**论文洗白**,证明零样本LLM完整重写论文可以在不违反会议政策的情况下提升AI评审分数,但无约束的全论文重写未能区分科学内容与表述,且分数提升有限。这两项工作仍停留在展示攻击可行性的层面,未分析攻击成功的底层机制 [jiang2025badscientist]。我们的对抗性重包装方法不仅在攻击效果上优于这些方法(75.1% ASR,+1.21平均分数提升),而且通过严格的表述层约束(科学内容固定)和闭环迭代优化,系统性地揭示了AI评审评估机制的结构性缺陷,包括优势-弱点不对称以及不同表述策略之间效果的显著差异。
## 3 方法
为了测试AI评审者是否满足§1中定义的鲁棒性条件,我们的对抗性重包装系统结合了三个关键设计选择:在科学内容保持约束下的全论文表述层编辑(§3.1)、带有最优版本追踪的闭环迭代优化(§3.2),以及从多样化策略池中进行信号驱动的策略选择(§3.2)。§3.3定义了在攻击过程中和最终评估中使用的评估协议。
### 3.1 威胁模型
攻击者在LaTeX源码层面操作:将源码 \(S\)(编译为PDF \(D\))编辑成修改版本 \(S'\)(编译为PDF \(D'\)),并将 \(D'\) 提交给AI评审者。攻击者以黑盒方式多次查询AI评审者,无法访问其内部提示或模型参数。攻击被限制在表述层编辑:攻击者可以改变论文的定位、组织和叙述方式,但必须保留其科学内容。我们将论文源划分为三个编辑区域。**自由区域**(叙事框架)包括摘要、引言、相关工作、讨论和结论;这些部分可以重写,但不得引入原论文未支持的科学主张。**受限区域**(技术阐述)包括方法描述和结果分析;这些部分可以改述或重新组织,但必须保留其事实内容。**固定区域**(科学证据)包括实验数据、表格、图表、方程、证明和数值结果;这些是不可更改的。这一划分遵循从框架到阐述再到证据的自然梯度,反映了“工作如何呈现”与“工作贡献什么”之间的区别。
令 \(\mathcal{C}(S)\) 表示所有保持科学内容的表述层修订集合。攻击者求解:
\[
\max_{S' \in \mathcal{C}(S)} \; \mathcal{J}\bigl(\mathcal{Y}(D,T),\; \mathcal{Y}(D',T)\bigr),
\tag{1}\]
其中 \(\mathcal{Y}(D,T)\) 表示论文 \(D\) 在评审模板 \(T\) 下的聚合评审结果(由 \(N\) 个独立评审组成),\(\mathcal{J}\) 度量原始评审与修改后评审在评分和内容维度上的有利性变化。由于评审者是黑盒随机系统,且编辑空间由离散的自然语言修改组成,我们通过§3.2中描述的迭代攻击系统来解决这一优化问题。
### 3.2 攻击系统
为了求解式 (1) 中的优化问题,我们设计了一个闭环迭代攻击系统(图1)。该系统将AI评审者视为黑盒反馈源,重复查询评审者,从评审中提取结构化信号,根据这些信号选择策略以执行表述层编辑,并仅保留能够改善评审结果的修订。
**多轮攻击循环。** 攻击首先生成原始PDF的 \(N\) 个独立评审,以建立基线评估。随后每一轮执行六个阶段:剖析 → 规划 → 编辑与编译 → 评审 → 评估 → 更新。系统维护一个当前最佳版本 \(S^\star\) 和一个持久历史 \(\mathcal{H}\),记录前几轮的评审者信号、所选策略、编辑计划和评估结果。每一轮基于当前最佳版本提出候选修订,而非盲目累积所有先前的编辑,从而使系统能够从失败的修改中恢复。
**信号驱动的策略选择。** 在剖析阶段,一个剖析子代理读取 \(N\) 个评审文本和论文源码,以提取结构化信号。每个信号对应一个在多轮评审中反复出现的评审者感知,并标注其频率和严重程度。在规划阶段,主代理将未解决的信号映射到预定义策略池中的策略:高严重性信号必须得到明确回应,已解决的信号不再处理。相似文章
对AI辅助同行评议的操纵给科学界带来新风险
一项新研究表明,AI辅助的同行评审易通过廉价手段被操控——仅需对论文摘要进行表面改写,即可显著提高AI生成的评审分数,并可能使人类编辑决策产生偏差,凸显了建立防护措施的必要性。
AI审稿人能看清全貌吗?多模态同行评审的攻击与防御
本文介绍了PaperGuard,这是一个用于评估和防御多模态AI同行评审系统对抗性攻击的基准,涵盖多个科学领域的文本和图像攻击。
在AI会议上改进有问题的同行评审系统的简单方案 [R]
一个通过在AI会议上将作者分成两半来修复互惠性评审、消除不公平拒绝动机的方案。
我让58个AI代理互相审查代码561次——发现它们的盲点
一个实验性竞技场,AI代理互相审查代码,揭示了双峰分数分布、对安全代码更严厉审查等模式。作者分享了114次提交、561次审查的发现。
关于AI评审员的局限与机遇:联合45位专家科学家评审Nature系列期刊论文的评审意见
一项研究评估了AI评审员(GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro)与45位人类专家评审员对Nature系列期刊论文的评审表现,发现AI评审员在综合评审质量上可以超越评分最高的人类评审员,尽管其准确性略低,但能提出更多重要问题。