Sem-Detect: 面向语义级别的AI生成同行评审检测方法

arXiv cs.CL 2026/05/22 04:00 论文

ai-detection peer-review semantic-analysis authorship-attribution nlp machine-learning

摘要

Sem-Detect 提出了一种结合文本特征与声明级语义分析的方法，用于区分AI生成的同行评审与人类撰写的评审。在0.1%假阳性率下，其真阳性率相比基线提升了25.5%，并且表明经过大语言模型润色的人类评审仍保留独特的语义信号，仅有不到3.5%被误判为AI生成。

arXiv:2605.21713v1 公告类型: 新提交摘要：如何区分一篇同行评审是由人类撰写还是由AI模型生成？我们认为，在此场景下，作者身份不应仅从评审的文本特征来归属，还应考虑其表达的想法、判断和声明。为此，我们提出了Sem-Detect，一种面向同行评审的作者身份检测方法，通过将文本特征与声明级语义分析相结合来实现这一原则。Sem-Detect将目标评审与同一篇论文的多篇AI生成评审进行比较，利用了不同AI模型倾向于在相似点上趋同，而人类评审者会引入更多独特和多样化的观察。因此，Sem-Detect能够区分完全由AI生成的评审与真实人类撰写的评审，包括那些经过大语言模型润色但仍反映人类判断的评审。在来自ICLR和NeurIPS会议的超过2万篇同行评审数据集中，Sem-Detect在二分类设置下，在0.1%假阳性率下的真阳性率相比最强基线提升了25.5%。此外，在三分类场景中，我们通过实验表明，大语言模型润色保留了人类评审的语义信号，使其与完全由AI生成的文本所呈现的模式保持区别；因此，仅有不到3.5%经过大语言模型润色的人类评审被误判为AI生成。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:43

# Sem-Detect: AI生成同行评审的语义级别检测
来源: https://arxiv.org/html/2605.21713

###### 摘要

我们如何区分一篇同行评审是由人类撰写还是由AI模型生成的？我们认为，在这种情况下，不应仅根据评审的文本特征来归因作者身份，还应考虑其表达的思想、判断和主张。为此，我们提出了Sem-Detect，一种用于同行评审的作者身份检测方法，该方法通过结合文本特征与主张级语义分析来操作这一原则。Sem-Detect将目标评审与同一论文的多篇AI生成评审进行比较，利用以下观察结果：不同的AI模型倾向于在相同点上收敛，而人类评审者则引入更多独特和多样的观点。因此，Sem-Detect能够区分完全由AI生成的评审和真实的人类撰写评审，包括那些经过LLM润色但仍反映人类判断的评审。在来自ICLR和NeurIPS会议的超过20,000篇同行评审数据集上，Sem-Detect在二分类设置的[email protected]% FPR上比最强基线提升了25.5%。此外，在三类场景中，我们实验表明LLM润色保留了人类评审的语义信号，这些信号与完全由AI生成的文本所展示的模式保持不同；因此，少于3.5%的LLM润色人类评审被误分类为AI生成。机器学习，ICML

## 1 引言

同行评审是科学进步的基础。当研究人员提交论文时，他们期望从领域专家那里获得实质性的反馈；这些反馈能够为未来的读者阐明工作，并指导作者加强其贡献。然而，随着大型语言模型（LLM）的快速发展，越来越多的证据表明AI生成的内容出现在同行评审中（Lianget al.,2024 (https://arxiv.org/html/2605.21713#bib.bib1)；Zhouet al.,2025 (https://arxiv.org/html/2605.21713#bib.bib3)）。这一趋势引发了一个严重担忧：作者可能不再知道他们所收到的反馈是否反映了真实的人类判断。

参见图注
图1：经典的AI文本检测器依赖文本特征来判断一篇评审是否由人类撰写。而Sem-Detect则通过利用所表达思想的语义内容来推断作者身份，从而区分完全由AI生成的评审与经过LLM润色的人类评审。

尽管研究社区的初步反应是严格的，例如ICML 2025禁止在评审过程中使用任何LLM（ICML Conference Chairs,2025 (https://arxiv.org/html/2605.21713#bib.bib4)），但此后出现了显著的政策转变。ICML 2026现在允许使用LLM辅助编辑和改善评审的清晰度（ICML Conference Chairs,2026 (https://arxiv.org/html/2605.21713#bib.bib5)）。这一转变反映出一种认识：适当的界限不在于LLM是否接触了文本，而在于所表达的思想是源自人类还是机器。一位评审者先草拟评估，然后使用LLM改善其可读性，与那些提示LLM生成整篇评审的行为在性质上是不同的。然而，检测这种区别构成了现有方法难以应对的技术挑战（Fitzgibbonet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib33)）。

当前AI文本检测的方法可以大致沿两个维度组织：(i) 旨在跨多个领域工作的通用方法，以及 (ii) 针对特定上下文（如同行评审）定制的领域特定方法。通用方法可以从零样本统计方法如FastDetectGPT（Baoet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib6)）——该方法利用文本条件概率曲率来识别机器生成内容——到更复杂的技术如RADAR（Huet al.,2023 (https://arxiv.org/html/2605.21713#bib.bib7)），后者使用对抗训练以提高对基于LLM的改写的鲁棒性。然而，由于这些方法依赖表面层面的文本信号，当应用于同行评审领域时，它们难以区分经过LLM语言润色的人类判断与由LLM端到端生成的内容。

相比之下，领域特定方法利用任务特有的上下文信息。例如，Yuet al.（2026 (https://arxiv.org/html/2605.21713#bib.bib8)）从研究论文生成合成AI评审，并训练Anchor模型，该模型嵌入整篇评审，并使用余弦相似度将其与参考AI评审进行比较以推断作者身份。然而，在全评审层面操作限制了可解释性，使得难以识别哪些主张推动了某个分类。

为了在现有方法优势的基础上解决这些局限性，我们提出了Sem-Detect。与通用方法类似，Sem-Detect从目标评审中提取文本特征，因为这些特征对于区分纯人类文本与完全AI生成的内容仍然至关重要。然而，受Anchor等领域特定方法的启发（Yuet al.,2026 (https://arxiv.org/html/2605.21713#bib.bib8)），Sem-Detect通过显式建模评审的语义内容超越了文本层面的分析。我们的方法不是嵌入整篇评审并整体比较，而是在主张层面操作：它将每个目标评审与同一论文的多篇AI生成评审配对，并以更细粒度测量语义相似性。这一设计利用了以下观察结果：不同的AI模型在评审同一篇论文时倾向于在相似点上收敛，而人类评审者会引入更多独特的判断。因此，我们不仅能够区分人类和AI的作者身份，还能识别出人类评估经过LLM润色的情况，并将这类评审作为单独类别处理，而不是将它们与完全AI生成的文本混合。

利用由ICLR和NeurIPS会议800篇论文构建的超过20,000篇评审（人类撰写、LLM润色和AI生成）语料库，我们训练和评估了Sem-Detect。收集至2022年的人类评审作为干净基线。为了评估在这些受控条件之外的鲁棒性，我们进一步对以下情况进行了评估：由未见过的模型和提示策略生成的AI评审；来自医学影像会议领域的跨领域评审；以及来自ICLR 2026的最新提交。我们的主要贡献如下：

- •我们发现同行评审中一个一致的模式：在评审同一篇论文时，AI生成的评审之间在主张层面的重叠程度高于人类撰写的评审，包括那些经过LLM润色的评审。
- •我们将这一见解操作化于Sem-Detect中，这是一个实用的检测框架，结合了文本特征与主张级语义分析，以区分人类撰写、LLM润色和完全AI生成的评审。
- •我们构建并发布了一个超过20,000篇同行评审的数据集，涵盖来自ICLR和NeurIPS（2022年之前）的人类撰写、AI生成和LLM润色变体，以及来自医学影像会议和ICLR 2026的额外评估数据。
- •实验表明，Sem-Detect在二分类检测的[email protected]% FPR上比最强基线提升了25.5%，且少于3.5%的LLM润色人类评审被误分类为AI生成。我们进一步验证了对未见模型、跨领域迁移和时间泛化的鲁棒性。

## 2 相关工作

检测机器生成文本已成为NLP社区的一个核心挑战，方法涵盖水印、零样本检测和监督分类（Jawaharet al.,2020 (https://arxiv.org/html/2605.21713#bib.bib42); Ghosalet al.,2023 (https://arxiv.org/html/2605.21713#bib.bib40); Wuet al.,2025 (https://arxiv.org/html/2605.21713#bib.bib11); Raoet al.,2025 (https://arxiv.org/html/2605.21713#bib.bib53)）。我们将先前工作沿着两个维度组织：旨在广泛适用性的通用方法，以及针对同行评审的领域特定方法。

### 2.1 通用AI文本检测

##### 水印。
水印在文本生成过程中嵌入可检测的统计信号，一些方法对假阳性率提供了可证明的保证（Kirchenbaueret al.,2023 (https://arxiv.org/html/2605.21713#bib.bib34); Zhaoet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib41)）。然而，水印需要对生成过程的控制，因此在源模型未知的设置中适用性有限。

##### 零样本方法。
零样本检测器无需任务特定训练数据，通过利用LLM输出的统计特性进行操作（Hanset al.,2024 (https://arxiv.org/html/2605.21713#bib.bib18)）。DetectGPT（Mitchellet al.,2023 (https://arxiv.org/html/2605.21713#bib.bib2)）引入了概率曲率的概念，观察到对LLM生成文本的扰动通常会降低其在源模型中的对数概率。相比之下，人类撰写的文本并不表现出同样的系统性行为。后续工作如Fast-DetectGPT（Baoet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib6)）以更低的计算成本实现了相当的准确性。其他方法依赖于更简单的统计指标，包括困惑度（Gutiérrez Megíaset al.,2024 (https://arxiv.org/html/2605.21713#bib.bib49)）和熵（Lavergneet al.,2008 (https://arxiv.org/html/2605.21713#bib.bib38)）。

##### 训练好的检测器。
监督方法在人类和AI生成的文本上训练分类器。早期方法如对RoBERTa（Liuet al.,2019 (https://arxiv.org/html/2605.21713#bib.bib14)）在检测数据集上进行微调（Zellerset al.,2019 (https://arxiv.org/html/2605.21713#bib.bib37); Solaimanet al.,2019 (https://arxiv.org/html/2605.21713#bib.bib39)），但这些方法通常对对抗场景（如基于LLM的改写）敏感。为了解决这一问题，近期工作如RADAR（Huet al.,2023 (https://arxiv.org/html/2605.21713#bib.bib7)）在对抗框架中联合训练检测器和改写器，其中改写器学习生成规避性重写，而检测器则学习对其保持鲁棒。然而，即使鲁棒训练好的检测器也仅作用于目标文本，无法获取可能提供额外判别信号的上下文信息（例如，所评审的稿件）。

### 2.2 同行评审中的领域特定检测

虽然通用检测器仅关注目标文本，但同行评审方法可以利用评审与稿件之间的关系，以及评审写作的结构化特性。

##### 利用领域信号。
Lianget al.（2024 (https://arxiv.org/html/2605.21713#bib.bib1)）通过跟踪ChatGPT（OpenAI,2022 (https://arxiv.org/html/2605.21713#bib.bib15)）输出中形容词激增的现象，提供了同行评审中存在LLM生成内容的早期证据。在此基础上，Kumaret al.（2024 (https://arxiv.org/html/2605.21713#bib.bib12)）引入的术语频率（TF）模型利用了AI生成文本中重复的令牌使用模式，并表明即使简单的领域定制信号也能胜过更通用的检测策略。

##### 基于稿件的检测。
Anchor（Yuet al.,2026 (https://arxiv.org/html/2605.21713#bib.bib8)）将检测条件设置为所评审的论文。该方法为目标论文生成一个合成AI评审，并使用基于嵌入的余弦相似度将其与候选评审进行比较：与AI参考密切相似的评审被标记为机器生成。然而，Anchor在全评审层面操作，将整篇评审嵌入为单一向量，这限制了该方法从部分语义重叠与端到端AI作者身份中解耦的能力。在互补的方向上，Raoet al.（2025 (https://arxiv.org/html/2605.21713#bib.bib53)）在提交的PDF中嵌入隐藏指令，诱导LLM在生成的评审中插入可检测的水印。然而，这需要会议级别的采纳，限制了实际部署。

##### 超越二分类检测。
最近，EditLens（Thaiet al.,2026 (https://arxiv.org/html/2605.21713#bib.bib9)）重新定义了任务，超越二分类，以连续尺度量化AI编辑的程度。这代表了一个重要的概念转变，承认人类与AI作者身份之间的界限并非总是清晰的。然而，EditLens侧重于估计编辑强度，而非区分潜在思想的来源。因此，经过LLM完全润色的人类评审和AI生成的评审可能获得相似的分数，尽管它们代表了根本不同的作者身份场景。

### 2.3 语义比较的粒度

我们的方法受到检索文献中工作的启发，这些工作表明文本表示的粒度对下游性能有强烈影响。Dense X Retrieval（Chenet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib16)）采用原子命题作为检索单元，确保每个表示对应一个单一的、语义独立的声明。类似地，LumberChunker（Duarteet al.,2024 (https://arxiv.org/html/2605.21713#bib.bib17)）表明，沿着语义边界分割文本比任意分块策略更有效。这些发现共同强调了一个共同原则：大型文档级表示混合了多个语义单元，这降低了基于相似性比较的精度。出于同样的原因，Sem-Detect在主张层面操作，使我们能够更好地隔离区分AI生成内容与人类撰写评审的语义模式。

## 3 Sem-Detect

参见图注
图2：Sem-Detect流水线。我们通过提示LLM从会议论文生成完全AI评审并对真实人类评审进行润色来构建数据集，创建三个类别。对于分类，每个目标评审（来自任何类别）与同一论文的多篇AI生成参考评审配对。我们从目标评审中提取文本特征，并从目标-参考比较中提取语义特征。这些组合特征训练一个LightGBM分类器，以区分人类撰写、LLM润色和完全AI生成的评审。

Sem-Detect解决了同行评审作者身份归属的问题，区分完全由人类撰写的评审、经LLM润色的人类评审以及端到端机器生成的评审。如图2所示，流水线包括两个主要阶段：(i) 构建涵盖这三个类别的同行评审数据集，以及 (ii) 从这些数据中提取文本和主张级语义特征，以训练检测模型。下面我们描述每个阶段的关键设计选择。附录A.1-A.5提供了更多细节。

### 3.1 训练数据构建

##### 人类评审。
我们从ICLR和NeurIPS 2021和2022年的会议中分别随机采样200篇论文，共计800篇论文。我们爬取每篇论文及其相关的OpenReview¹¹¹https://openreview.net/上的评审，获取每篇论文的匿名提交版本，以确保与评审者撰写时所看到的内容一致。我们总共获得3,065篇人类撰写的评审。

##### 完全AI生成的评审。
使用这些采样论文，我们

Sem-Detect: 面向语义级别的AI生成同行评审检测方法

相似文章

基础模型被AI检测器视为人类

TADDLE: 一种用于检测有缺陷的LLM生成同行评审的工具增强代理

AI生成文本检测中语言特征的系统性分析：跨领域与跨模型研究

SynCred-Bench: AI生成视觉虚假信息中合成可信度的基准测试

这是一个AI胡说检测器：我每天使用它，它能捕捉到你独自发现不了的问题

提交意见反馈