各类AI生成文本检测方法在面对释义攻击时的鲁棒性

arXiv cs.LG 2026/05/15 04:00 论文

ai-text-detection paraphrasing-attack llm robustness machine-generated-text detection-methods

摘要

本文研究了AI生成文本检测方法（微调后的RoBERTa、Binoculars、文本特征分析及其集成方法）在面对释义攻击时的鲁棒性。研究发现，包含Binoculars的集成方法效果最强，但在攻击中损失也最大，揭示了性能与鲁棒性之间的二分法。

arXiv:2605.14240v1 公告类型: 新摘要: 近期大规模涌现的LLM给处理其后果（如抄袭或互联网虚假信息传播）留下了开放空间。再加上AI检测绕过工具的兴起，对可靠的机器生成文本检测的需求日益增长。我们研究了多种机器生成文本检测方法在面对释义攻击时的鲁棒性，评估了三种方法：微调后的RoBERTa、Binoculars和文本特征分析，以及它们基于随机森林分类器的集成方法。我们发现，包含Binoculars的集成方法效果最强，但在攻击中损失也最大。本文展示了AI文本检测领域中性能与鲁棒性之间的二分法，这使得当前对最先进技术可靠性的认知变得复杂。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:28

# 不同AI生成文本检测方法对释义攻击的鲁棒性  
来源：https://arxiv.org/html/2605.14240  
Inessa Verbitsky 西北大学 美国伊利诺伊州埃文斯顿 [email protected]  

###### 摘要  

近年来LLM的大规模涌现带来了诸多后果，如抄袭或互联网上虚假信息的传播，而应对这些后果的空间仍待填补。随着AI检测器绕过工具的出现，对可靠的机器生成文本检测的需求日益增长。我们研究了多种机器生成文本检测方法对释义攻击的鲁棒性，评估了三种方法：微调后的RoBERTa、Binoculars以及文本特征分析，并采用随机森林分类器对其集成方法进行了评估。我们发现，包含Binoculars的集成方法效果最好，但在攻击中性能损失也最为显著。本文揭示了AI文本检测领域性能与鲁棒性之间的二分性，这使当前对最先进技术可靠性的认知更加复杂化。  

---

不同AI生成文本检测方法对释义攻击的鲁棒性  

Andrii Shportko 西北大学 美国伊利诺伊州埃文斯顿 [email protected]  
Inessa Verbitsky 西北大学 美国伊利诺伊州埃文斯顿 [email protected]  

## 1 引言  

若不加约束，LLM的广泛使用可能带来风险，后果包括学术不端以及社交媒体上假新闻的传播。Elali与Rachid（2023 (https://arxiv.org/html/2605.14240#bib.bib3)）发现，AI聊天机器人能轻松生成看似真实的学术成果和精美的稿件，这些稿件甚至可能被会议接收并公开发表。由于科学研究（尤其是医学领域）常出现造假，这种可能性的出现开启了一个危险的竞技场（Phogat等人，2023 (https://arxiv.org/html/2605.14240#bib.bib4)）。研究发现，14%的科学家知道有同事伪造结果，而72%的科学家知道有同事从事可疑的研究实践（Fanelli，2009 (https://arxiv.org/html/2605.14240#bib.bib15)）。更多关于AI被用于互联网假新闻传播的事件详见伦理声明。  

尤其令人担忧的是，人类在手动检测AI生成文本方面表现不佳。具体而言，人类的表现仅略优于随机分类（Wu等人，2024 (https://arxiv.org/html/2605.14240#bib.bib5)）。事实上，在一项涉及130多名受试者的研究中，Kumar与Mindzak（2024 (https://arxiv.org/html/2605.14240#bib.bib6)）发现，参与者正确识别AI生成文本的准确率仅为24%。关于AI在学术界的使用，Gao等人（2022 (https://arxiv.org/html/2605.14240#bib.bib14)）进行了一项实验，要求参与者判断学术论文摘要是由ChatGPT还是人类所写。结果显示，仅68%的AI检测摘要被正确分类。这一先例有力地说明了精确自动化AI文本检测机制的必要性。  

随着ZeroGPT、DetectGPT和Quillbot等免费网站的兴起，绕过这些技术的攻击手段也随之发展。常用的方法包括自动释义工具、提示工程以及向AI生成文本中刻意添加错误（Perkins等人，2024 (https://arxiv.org/html/2605.14240#bib.bib12)）。已有研究普遍表明，这些方法会降低检测工具的有效性；但我们旨在对主流AI检测方法在绕过攻击下的表现进行更全面的分析。本文我们将聚焦于释义攻击。  

当前最先进的检测器可分为两类：基于训练的机制和无需训练的机制（Wang等人，2025 (https://arxiv.org/html/2605.14240#bib.bib17)）。大多数无需训练的方法依赖于统计特征分析，通常关注困惑度、对数概率和n-gram（Chakraborty等人，2023 (https://arxiv.org/html/2605.14240#bib.bib13)）。尽管基于训练的模型一直处于领先地位，但最近开发的Binoculars方法在零样本场景中表现突出，在多个指标上优于其他方法（Hans等人，2024 (https://arxiv.org/html/2605.14240#bib.bib16)）。该方法将在相关工作部分进一步展开。基于训练的方法主要依赖Transformer模型，尤其是RoBERTa（Liu等人，2019 (https://arxiv.org/html/2605.14240#bib.bib11)），这是一种基于掩码的模型，易于针对文本分类等下游任务进行微调。  

我们堆叠用于开发自身模型的方法包括Binoculars、RoBERTa和文本特征分析，选择这些方法是因为它们在基准测试中表现领先（详见相关工作）。  

## 2 相关工作  

### 2.1 Binoculars  

Binoculars方法依赖于两个密切相关的LLM的计算。相比其他最先进方法，其显著优势在于无需使用待测LLM的训练数据。这一点很重要，因为Binoculars仍然能够超越所有检测ChatGPT的开源模型。由于其他检测器依赖于预训练模型（后续再用这些模型进行测试），其结果在面对多个AI模型时难以泛化。而Binoculars方法能在多种数据集上取得高性能，这些数据集包含来自不同LLM来源的文本。此外，Binoculars解决了所谓的“水豚问题”（Capybara Problem），即LLM由于使用了高困惑度的提示而生成高困惑度文本的现象。其他依赖原始困惑度的模型在这种情况下会失效。Binoculars的准确率超过90%，假阳性率为0.01%，使用的数据集包括写作提示、新闻和学生作文（Verma等人，2024 (https://arxiv.org/html/2605.14240#bib.bib2)）。  

### 2.2 文本特征  

Muñoz-Ortiz等人（2024 (https://arxiv.org/html/2605.14240#bib.bib10)）分析了人类与LLM文本的语言模式，以确定哪些特征能提供最鲁棒的检测机制。他们使用来自Llama和Falcon 7-b等六个不同LLM的广泛数据，发现人类写作的句子长度分布比AI更不均匀。这一结论得到了Desaire等人（2023 (https://arxiv.org/html/2605.14240#bib.bib9)）的支持，他们发现句子长度的标准差是文本分类的重要标识符。作为我们使用的五个文本特征之一，我们因此引入了句子长度的标准差。  

### 2.3 集成方法  

Abburi等人（2023 (https://arxiv.org/html/2605.14240#bib.bib8)）分析了集成方法在文本分类中的成功应用。他们的集成方案堆叠了DeBERTa、RoBERTa和xLM-RoBERTa，并对每个模型进行了针对性的微调。他们发现，该方法在自动化文本识别共享任务的英语任务中排名第五，在多语言任务中排名第一。  

事实上，集成方法在COLING 2025 GenAI文本检测研讨会的第一项任务中被广泛使用，我们使用的训练和评估数据集正是来自该任务（Wang等人，2025 (https://arxiv.org/html/2605.14240#bib.bib17)）。Mobin与Islam（2025 (https://arxiv.org/html/2605.14240#bib.bib7)）的方法在参赛者中排名第四，其依赖将RoBERTa-base与其他预训练Transformer模型进行集成。我们的方法论也依赖于RoBERTa，但如前述理由，我们将其与Binoculars和文本特征分析集成。  

### 2.4 绕过攻击  

参见图注  
图1：我们的模型流程  

最主流的依赖于Transformer微调的AI文本检测模型已经过绕过攻击测试，并证明能较好地抵御攻击。Krishna等人（2023 (https://arxiv.org/html/2605.14240#bib.bib1)）提供了一个关键基线，他们证明受控释义能在保持语义完整性的前提下显著削弱AI生成文本检测器的性能。他们的工作通过DIPPER模型表明，即使是最小程度的释义——改变措辞和句子结构——也能大幅降低检测准确率。  

一些常见的AI检测器在使用绕过方法时准确率下降了约17%（Perkins等人，2024 (https://arxiv.org/html/2605.14240#bib.bib12)）。然而，一些较新开发的模型专门设计用于抵御此类攻击，例如RADAR模型（Hu等人，2023 (https://arxiv.org/html/2605.14240#bib.bib18)），它通过释义方案训练检测器，相比之前的方法额外提高了超过31.64%的准确率。但Binoculars方法尚未经过绕过攻击测试，因此其总体有效性尚不明确。本文将对这一关切进行探讨。  

## 3 数据与方法  

为了追踪机器生成文本检测的进展，我们使用了“检测AI生成内容 @COLING 2025 任务1：二分类机器生成文本检测”竞赛的材料（Wang等人，2025 (https://arxiv.org/html/2605.14240#bib.bib17)）。该竞赛是先前研究过的多个数据集的聚合，例如M4GT。以下章节的实验基于最终排行榜使用的测试数据集。所有模型均使用训练数据集，详见附录A.0.1。  

首先，我们选择针对AI文本检测微调RoBERTa，因为微调能显著提升模型理解细微语言差异的能力。本质上，我们添加了一个大小为2的最终层用于二分类。这也是机器生成文本检测中经过充分验证的方法（Liu等人，2019 (https://arxiv.org/html/2605.14240#bib.bib11)）。我们在研讨会提供的训练集子集（12k条）上进行了微调。超参数为：学习率=2e-5，批次大小=16，轮数=4，训练规模=20,000，训练/测试划分比例为0.8。  

其次，我们还测试了Binoculars方法，该方法在多种LLM测试中取得高准确率和低假阳性率，且不依赖训练数据。Binoculars使用两个密切相关的LLM——‘tiiuae/falcon-7b’和‘tiiuae/falcon-7b-instruct’——来计算交叉困惑度，即利用一个LLM生成文本的对数困惑度和另一个LLM的下一个词元预测来计算困惑度。  

第三，我们测量了与AI检测相关的若干文档指标。我们选择了5个文本标记：平均词长、词汇多样性、标点频率（Corizzo与Leal-Arenas，2023 (https://arxiv.org/html/2605.14240#bib.bib19)）、句子长度的标准差以及停用词比例（Gryka等人，2024 (https://arxiv.org/html/2605.14240#bib.bib20)）。特征的选择基于随机森林的熵值。  

我们将每种方法提取的特征组合成一个向量（每个文本样本对应一个向量），然后将其输入作为元学习器的随机森林模型。该向量包括微调后RoBERTa模型的预测概率和预测标签、Binoculars的交叉困惑度分数，以及我们选择的五个文档指标（图1 (https://arxiv.org/html/2605.14240#S2.F1)）。在以下章节中，我们将展示7种不同模型堆叠方式的性能。  

由于资源有限，我们从评估数据集中手动选取了201条带有AI标签的样本，将其输入高性能AI文本检测绕过程序GPTinf。我们将这些释义后的样本与评估数据集中随机选取的201条人类写作文本拼接在一起。GPTinf声称能绕过所有AI检测器，包括Turnitin AI检测器、GPTZero、ZeroGPT和GPTRadar。该数据集现已发布在HuggingFace上，地址为‘antebe1/paraphrased_AI_text’。  

尽管GPTInf使用的算法未公开，但其网站声明其工作原理是对输入文本进行释义——去除常见措辞，通过改变用词、语法和词序来多样化句子结构（9 (https://arxiv.org/html/2605.14240#bib.bib21)）。为了计算整个数据集上F1分数的置信区间，我们采用了自助法（从73k中抽取9000个样本）。为了验证测试模块之间的差异是否显著，我们进行了21对McNemar统计检验（表3 (https://arxiv.org/html/2605.14240#A1.T3)）。使用Bonferroni校正后，α=0.1对应的显著性水平为0.0048。  

## 4 结果  

### 4.1 Binoculars  

#### 4.1.1 观察结果  

为快速测试，所有Binoculars测试均在数据集的开发测试集划分上运行。  

参见图注  
图2：Binoculars结果  
参见图注  
图3：上下文窗口为512（无量化）时的Binoculars分数  

#### 4.1.2 上下文窗口效应  

我们观察到，随着上下文窗口增大，信息增益增加。然而，信息增益在大约256-512个词元后出现平台期。Jensen-Shannon散度分数（图3 (https://arxiv.org/html/2605.14240#S4.F3)，见附录A.0.2），用于衡量概率分布间的相似性，从上下文窗口大小为32时的0.0373显著提升至上下文窗口大小为512时的0.2843。JS分数凸显了随着上下文窗口增大，人类撰写文本与AI生成文本之间的差异效果。  

Binoculars分数分析揭示了人类与AI生成文本之间的明显区分。人类撰写内容的得分中位数最高，约为1.0（图2 (https://arxiv.org/html/2605.14240#S4.F2)），与Binoculars论文预测一致，且具有显著的方差和异常值。关键阈值0.901与原论文报告一致，可用作人类与AI生成内容之间的判别器。  

### 4.2 模块集成比较  

三个不同的模块可产生7种不同的组合方式（图4 (https://arxiv.org/html/2605.14240#S4.F4)）。  

参见图注  
图4：攻击前F1分数  

包含所有模块（文本特征、RoBERTa和Binoculars）的集成方法取得了最高的F1分数，为80.61%。其次性能最佳的是文本特征与Binoculars的组合。尽管将文本特征与RoBERTa结合，或将RoBERTa与Binoculars结合也能提升性能（相比单个特征），但不如全面集成。值得注意的是，单个特征集（如仅文本特征、仅RoBERTa或仅Binoculars）的F1分数低于任何组合（如表1 (https://arxiv.org/html/2605.14240#S4.T1)所示）。  

### 4.3 释义攻击  

参见图注  
图5：攻击后F1分数  

在单个模型中，RoBERTa对释义攻击表现出最高的鲁棒性，性能几乎无下降（表1 (https://arxiv.org/html/2605.14240#S4.T1)）。相比之下，Binoculars方法最为脆弱，性能显著下降0.196。  

有趣的是，文本特征方法在面对释义样本时也几乎无性能下降。集成文本特征、RoBERTa和Binoculars的方法最初取得了最高的F1分数0.8061，但在面对释义样本时性能出现显著下降，d

各类AI生成文本检测方法在面对释义攻击时的鲁棒性

相似文章

Counter Turing Test 的发现：AI生成文本检测

AI生成文本检测中语言特征的系统性分析：跨领域与跨模型研究

放大而非学习：微调后的AI文本检测器放大预训练方向

基础模型被AI检测器视为人类

聚光灯与盲区：机器生成文本检测的评估

提交意见反馈