Sem-Detect: 面向语义级别的AI生成同行评审检测方法

arXiv cs.CL 论文

摘要

Sem-Detect 提出了一种结合文本特征与声明级语义分析的方法,用于区分AI生成的同行评审与人类撰写的评审。在0.1%假阳性率下,其真阳性率相比基线提升了25.5%,并且表明经过大语言模型润色的人类评审仍保留独特的语义信号,仅有不到3.5%被误判为AI生成。

arXiv:2605.21713v1 公告类型: 新提交 摘要:如何区分一篇同行评审是由人类撰写还是由AI模型生成?我们认为,在此场景下,作者身份不应仅从评审的文本特征来归属,还应考虑其表达的想法、判断和声明。为此,我们提出了Sem-Detect,一种面向同行评审的作者身份检测方法,通过将文本特征与声明级语义分析相结合来实现这一原则。Sem-Detect将目标评审与同一篇论文的多篇AI生成评审进行比较,利用了不同AI模型倾向于在相似点上趋同,而人类评审者会引入更多独特和多样化的观察。因此,Sem-Detect能够区分完全由AI生成的评审与真实人类撰写的评审,包括那些经过大语言模型润色但仍反映人类判断的评审。在来自ICLR和NeurIPS会议的超过2万篇同行评审数据集中,Sem-Detect在二分类设置下,在0.1%假阳性率下的真阳性率相比最强基线提升了25.5%。此外,在三分类场景中,我们通过实验表明,大语言模型润色保留了人类评审的语义信号,使其与完全由AI生成的文本所呈现的模式保持区别;因此,仅有不到3.5%经过大语言模型润色的人类评审被误判为AI生成。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:43

# Sem-Detect: AI生成同行评审的语义级别检测
来源: https://arxiv.org/html/2605.21713

###### 摘要

我们如何区分一篇同行评审是由人类撰写还是由AI模型生成的?我们认为,在这种情况下,不应仅根据评审的文本特征来归因作者身份,还应考虑其表达的思想、判断和主张。为此,我们提出了Sem-Detect,一种用于同行评审的作者身份检测方法,该方法通过结合文本特征与主张级语义分析来操作这一原则。Sem-Detect将目标评审与同一论文的多篇AI生成评审进行比较,利用以下观察结果:不同的AI模型倾向于在相同点上收敛,而人类评审者则引入更多独特和多样的观点。因此,Sem-Detect能够区分完全由AI生成的评审和真实的人类撰写评审,包括那些经过LLM润色但仍反映人类判断的评审。在来自ICLR和NeurIPS会议的超过20,000篇同行评审数据集上,Sem-Detect在二分类设置的[email protected]% FPR上比最强基线提升了25.5%。此外,在三类场景中,我们实验表明LLM润色保留了人类评审的语义信号,这些信号与完全由AI生成的文本所展示的模式保持不同;因此,少于3.5%的LLM润色人类评审被误分类为AI生成。机器学习,ICML

## 1 引言

同行评审是科学进步的基础。当研究人员提交论文时,他们期望从领域专家那里获得实质性的反馈;这些反馈能够为未来的读者阐明工作,并指导作者加强其贡献。然而,随着大型语言模型(LLM)的快速发展,越来越多的证据表明AI生成的内容出现在同行评审中(Lianget al.,2024 (https://arxiv.org/html/2605.21713#bib.bib1);Zhouet al.,2025 (https://arxiv.org/html/2605.21713#bib.bib3))。这一趋势引发了一个严重担忧:作者可能不再知道他们所收到的反馈是否反映了真实的人类判断。

参见图注
图1:经典的AI文本检测器依赖文本特征来判断一篇评审是否由人类撰写。而Sem-Detect则通过利用所表达思想的语义内容来推断作者身份,从而区分完全由AI生成的评审与经过LLM润色的人类评审。

尽管研究社区的初步反应是严格的,例如ICML 2025禁止在评审过程中使用任何LLM(ICML Conference Chairs,2025 (https://arxiv.org/html/2605.21713#bib.bib4)),但此后出现了显著的政策转变。ICML 2026现在允许使用LLM辅助编辑和改善评审的清晰度(ICML Conference Chairs,2026 (https://arxiv.org/html/2605.21713#bib.bib5))。这一转变反映出一种认识:适当的界限不在于LLM是否接触了文本,而在于所表达的思想是源自人类还是机器。一位评审者先草拟评估,然后使用LLM改善其可读性,与那些提示LLM生成整篇评审的行为在性质上是不同的。然而,检测这种区别构成了现有方法难以应对的技术挑战(Fitzgibbonet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib33))。

当前AI文本检测的方法可以大致沿两个维度组织:(i) 旨在跨多个领域工作的通用方法,以及 (ii) 针对特定上下文(如同行评审)定制的领域特定方法。通用方法可以从零样本统计方法如FastDetectGPT(Baoet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib6))——该方法利用文本条件概率曲率来识别机器生成内容——到更复杂的技术如RADAR(Huet al.,2023 (https://arxiv.org/html/2605.21713#bib.bib7)),后者使用对抗训练以提高对基于LLM的改写的鲁棒性。然而,由于这些方法依赖表面层面的文本信号,当应用于同行评审领域时,它们难以区分经过LLM语言润色的人类判断与由LLM端到端生成的内容。

相比之下,领域特定方法利用任务特有的上下文信息。例如,Yuet al.(2026 (https://arxiv.org/html/2605.21713#bib.bib8))从研究论文生成合成AI评审,并训练Anchor模型,该模型嵌入整篇评审,并使用余弦相似度将其与参考AI评审进行比较以推断作者身份。然而,在全评审层面操作限制了可解释性,使得难以识别哪些主张推动了某个分类。

为了在现有方法优势的基础上解决这些局限性,我们提出了Sem-Detect。与通用方法类似,Sem-Detect从目标评审中提取文本特征,因为这些特征对于区分纯人类文本与完全AI生成的内容仍然至关重要。然而,受Anchor等领域特定方法的启发(Yuet al.,2026 (https://arxiv.org/html/2605.21713#bib.bib8)),Sem-Detect通过显式建模评审的语义内容超越了文本层面的分析。我们的方法不是嵌入整篇评审并整体比较,而是在主张层面操作:它将每个目标评审与同一论文的多篇AI生成评审配对,并以更细粒度测量语义相似性。这一设计利用了以下观察结果:不同的AI模型在评审同一篇论文时倾向于在相似点上收敛,而人类评审者会引入更多独特的判断。因此,我们不仅能够区分人类和AI的作者身份,还能识别出人类评估经过LLM润色的情况,并将这类评审作为单独类别处理,而不是将它们与完全AI生成的文本混合。

利用由ICLR和NeurIPS会议800篇论文构建的超过20,000篇评审(人类撰写、LLM润色和AI生成)语料库,我们训练和评估了Sem-Detect。收集至2022年的人类评审作为干净基线。为了评估在这些受控条件之外的鲁棒性,我们进一步对以下情况进行了评估:由未见过的模型和提示策略生成的AI评审;来自医学影像会议领域的跨领域评审;以及来自ICLR 2026的最新提交。我们的主要贡献如下:

- •我们发现同行评审中一个一致的模式:在评审同一篇论文时,AI生成的评审之间在主张层面的重叠程度高于人类撰写的评审,包括那些经过LLM润色的评审。
- •我们将这一见解操作化于Sem-Detect中,这是一个实用的检测框架,结合了文本特征与主张级语义分析,以区分人类撰写、LLM润色和完全AI生成的评审。
- •我们构建并发布了一个超过20,000篇同行评审的数据集,涵盖来自ICLR和NeurIPS(2022年之前)的人类撰写、AI生成和LLM润色变体,以及来自医学影像会议和ICLR 2026的额外评估数据。
- •实验表明,Sem-Detect在二分类检测的[email protected]% FPR上比最强基线提升了25.5%,且少于3.5%的LLM润色人类评审被误分类为AI生成。我们进一步验证了对未见模型、跨领域迁移和时间泛化的鲁棒性。

## 2 相关工作

检测机器生成文本已成为NLP社区的一个核心挑战,方法涵盖水印、零样本检测和监督分类(Jawaharet al.,2020 (https://arxiv.org/html/2605.21713#bib.bib42); Ghosalet al.,2023 (https://arxiv.org/html/2605.21713#bib.bib40); Wuet al.,2025 (https://arxiv.org/html/2605.21713#bib.bib11); Raoet al.,2025 (https://arxiv.org/html/2605.21713#bib.bib53))。我们将先前工作沿着两个维度组织:旨在广泛适用性的通用方法,以及针对同行评审的领域特定方法。

### 2.1 通用AI文本检测

##### 水印。
水印在文本生成过程中嵌入可检测的统计信号,一些方法对假阳性率提供了可证明的保证(Kirchenbaueret al.,2023 (https://arxiv.org/html/2605.21713#bib.bib34); Zhaoet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib41))。然而,水印需要对生成过程的控制,因此在源模型未知的设置中适用性有限。

##### 零样本方法。
零样本检测器无需任务特定训练数据,通过利用LLM输出的统计特性进行操作(Hanset al.,2024 (https://arxiv.org/html/2605.21713#bib.bib18))。DetectGPT(Mitchellet al.,2023 (https://arxiv.org/html/2605.21713#bib.bib2))引入了概率曲率的概念,观察到对LLM生成文本的扰动通常会降低其在源模型中的对数概率。相比之下,人类撰写的文本并不表现出同样的系统性行为。后续工作如Fast-DetectGPT(Baoet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib6))以更低的计算成本实现了相当的准确性。其他方法依赖于更简单的统计指标,包括困惑度(Gutiérrez Megíaset al.,2024 (https://arxiv.org/html/2605.21713#bib.bib49))和熵(Lavergneet al.,2008 (https://arxiv.org/html/2605.21713#bib.bib38))。

##### 训练好的检测器。
监督方法在人类和AI生成的文本上训练分类器。早期方法如对RoBERTa(Liuet al.,2019 (https://arxiv.org/html/2605.21713#bib.bib14))在检测数据集上进行微调(Zellerset al.,2019 (https://arxiv.org/html/2605.21713#bib.bib37); Solaimanet al.,2019 (https://arxiv.org/html/2605.21713#bib.bib39)),但这些方法通常对对抗场景(如基于LLM的改写)敏感。为了解决这一问题,近期工作如RADAR(Huet al.,2023 (https://arxiv.org/html/2605.21713#bib.bib7))在对抗框架中联合训练检测器和改写器,其中改写器学习生成规避性重写,而检测器则学习对其保持鲁棒。然而,即使鲁棒训练好的检测器也仅作用于目标文本,无法获取可能提供额外判别信号的上下文信息(例如,所评审的稿件)。

### 2.2 同行评审中的领域特定检测

虽然通用检测器仅关注目标文本,但同行评审方法可以利用评审与稿件之间的关系,以及评审写作的结构化特性。

##### 利用领域信号。
Lianget al.(2024 (https://arxiv.org/html/2605.21713#bib.bib1))通过跟踪ChatGPT(OpenAI,2022 (https://arxiv.org/html/2605.21713#bib.bib15))输出中形容词激增的现象,提供了同行评审中存在LLM生成内容的早期证据。在此基础上,Kumaret al.(2024 (https://arxiv.org/html/2605.21713#bib.bib12))引入的术语频率(TF)模型利用了AI生成文本中重复的令牌使用模式,并表明即使简单的领域定制信号也能胜过更通用的检测策略。

##### 基于稿件的检测。
Anchor(Yuet al.,2026 (https://arxiv.org/html/2605.21713#bib.bib8))将检测条件设置为所评审的论文。该方法为目标论文生成一个合成AI评审,并使用基于嵌入的余弦相似度将其与候选评审进行比较:与AI参考密切相似的评审被标记为机器生成。然而,Anchor在全评审层面操作,将整篇评审嵌入为单一向量,这限制了该方法从部分语义重叠与端到端AI作者身份中解耦的能力。在互补的方向上,Raoet al.(2025 (https://arxiv.org/html/2605.21713#bib.bib53))在提交的PDF中嵌入隐藏指令,诱导LLM在生成的评审中插入可检测的水印。然而,这需要会议级别的采纳,限制了实际部署。

##### 超越二分类检测。
最近,EditLens(Thaiet al.,2026 (https://arxiv.org/html/2605.21713#bib.bib9))重新定义了任务,超越二分类,以连续尺度量化AI编辑的程度。这代表了一个重要的概念转变,承认人类与AI作者身份之间的界限并非总是清晰的。然而,EditLens侧重于估计编辑强度,而非区分潜在思想的来源。因此,经过LLM完全润色的人类评审和AI生成的评审可能获得相似的分数,尽管它们代表了根本不同的作者身份场景。

### 2.3 语义比较的粒度

我们的方法受到检索文献中工作的启发,这些工作表明文本表示的粒度对下游性能有强烈影响。Dense X Retrieval(Chenet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib16))采用原子命题作为检索单元,确保每个表示对应一个单一的、语义独立的声明。类似地,LumberChunker(Duarteet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib17))表明,沿着语义边界分割文本比任意分块策略更有效。这些发现共同强调了一个共同原则:大型文档级表示混合了多个语义单元,这降低了基于相似性比较的精度。出于同样的原因,Sem-Detect在主张层面操作,使我们能够更好地隔离区分AI生成内容与人类撰写评审的语义模式。

## 3 Sem-Detect

参见图注
图2:Sem-Detect流水线。我们通过提示LLM从会议论文生成完全AI评审并对真实人类评审进行润色来构建数据集,创建三个类别。对于分类,每个目标评审(来自任何类别)与同一论文的多篇AI生成参考评审配对。我们从目标评审中提取文本特征,并从目标-参考比较中提取语义特征。这些组合特征训练一个LightGBM分类器,以区分人类撰写、LLM润色和完全AI生成的评审。

Sem-Detect解决了同行评审作者身份归属的问题,区分完全由人类撰写的评审、经LLM润色的人类评审以及端到端机器生成的评审。如图2所示,流水线包括两个主要阶段:(i) 构建涵盖这三个类别的同行评审数据集,以及 (ii) 从这些数据中提取文本和主张级语义特征,以训练检测模型。下面我们描述每个阶段的关键设计选择。附录A.1-A.5提供了更多细节。

### 3.1 训练数据构建

##### 人类评审。
我们从ICLR和NeurIPS 2021和2022年的会议中分别随机采样200篇论文,共计800篇论文。我们爬取每篇论文及其相关的OpenReview¹¹¹https://openreview.net/上的评审,获取每篇论文的匿名提交版本,以确保与评审者撰写时所看到的内容一致。我们总共获得3,065篇人类撰写的评审。

##### 完全AI生成的评审。
使用这些采样论文,我们

相似文章

基础模型被AI检测器视为人类

arXiv cs.CL

这篇论文揭示,GPTZero和Pangram等商用AI检测器将基础语言模型生成的文本判定为几乎完全是人类撰写,而经过指令微调的模型输出则被标记为AI生成。作者提出了HIP,一种与检测器无关的迭代改写流程,能在保持语义的同时提升文本的类人性。

AI生成文本检测中语言特征的系统性分析:跨领域与跨模型研究

arXiv cs.CL

一项大规模实证研究对284个语言特征在27个大语言模型和10个文本领域中的表现进行了分析,以评估哪些特征能够可靠地检测AI生成文本。研究发现,词汇丰富度指标是跨领域和跨模型最稳健的信号,而许多其他已提出的指标则高度依赖具体上下文。