各类AI生成文本检测方法在面对释义攻击时的鲁棒性

arXiv cs.LG 论文

摘要

本文研究了AI生成文本检测方法(微调后的RoBERTa、Binoculars、文本特征分析及其集成方法)在面对释义攻击时的鲁棒性。研究发现,包含Binoculars的集成方法效果最强,但在攻击中损失也最大,揭示了性能与鲁棒性之间的二分法。

arXiv:2605.14240v1 公告类型: 新 摘要: 近期大规模涌现的LLM给处理其后果(如抄袭或互联网虚假信息传播)留下了开放空间。再加上AI检测绕过工具的兴起,对可靠的机器生成文本检测的需求日益增长。我们研究了多种机器生成文本检测方法在面对释义攻击时的鲁棒性,评估了三种方法:微调后的RoBERTa、Binoculars和文本特征分析,以及它们基于随机森林分类器的集成方法。我们发现,包含Binoculars的集成方法效果最强,但在攻击中损失也最大。本文展示了AI文本检测领域中性能与鲁棒性之间的二分法,这使得当前对最先进技术可靠性的认知变得复杂。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:28

# 不同AI生成文本检测方法对释义攻击的鲁棒性  
来源:https://arxiv.org/html/2605.14240  
Inessa Verbitsky 西北大学 美国伊利诺伊州埃文斯顿 [email protected]  

###### 摘要  

近年来LLM的大规模涌现带来了诸多后果,如抄袭或互联网上虚假信息的传播,而应对这些后果的空间仍待填补。随着AI检测器绕过工具的出现,对可靠的机器生成文本检测的需求日益增长。我们研究了多种机器生成文本检测方法对释义攻击的鲁棒性,评估了三种方法:微调后的RoBERTa、Binoculars以及文本特征分析,并采用随机森林分类器对其集成方法进行了评估。我们发现,包含Binoculars的集成方法效果最好,但在攻击中性能损失也最为显著。本文揭示了AI文本检测领域性能与鲁棒性之间的二分性,这使当前对最先进技术可靠性的认知更加复杂化。  

---

不同AI生成文本检测方法对释义攻击的鲁棒性  

Andrii Shportko 西北大学 美国伊利诺伊州埃文斯顿 [email protected]  
Inessa Verbitsky 西北大学 美国伊利诺伊州埃文斯顿 [email protected]  

## 1 引言  

若不加约束,LLM的广泛使用可能带来风险,后果包括学术不端以及社交媒体上假新闻的传播。Elali与Rachid(2023 (https://arxiv.org/html/2605.14240#bib.bib3))发现,AI聊天机器人能轻松生成看似真实的学术成果和精美的稿件,这些稿件甚至可能被会议接收并公开发表。由于科学研究(尤其是医学领域)常出现造假,这种可能性的出现开启了一个危险的竞技场(Phogat等人,2023 (https://arxiv.org/html/2605.14240#bib.bib4))。研究发现,14%的科学家知道有同事伪造结果,而72%的科学家知道有同事从事可疑的研究实践(Fanelli,2009 (https://arxiv.org/html/2605.14240#bib.bib15))。更多关于AI被用于互联网假新闻传播的事件详见伦理声明。  

尤其令人担忧的是,人类在手动检测AI生成文本方面表现不佳。具体而言,人类的表现仅略优于随机分类(Wu等人,2024 (https://arxiv.org/html/2605.14240#bib.bib5))。事实上,在一项涉及130多名受试者的研究中,Kumar与Mindzak(2024 (https://arxiv.org/html/2605.14240#bib.bib6))发现,参与者正确识别AI生成文本的准确率仅为24%。关于AI在学术界的使用,Gao等人(2022 (https://arxiv.org/html/2605.14240#bib.bib14))进行了一项实验,要求参与者判断学术论文摘要是由ChatGPT还是人类所写。结果显示,仅68%的AI检测摘要被正确分类。这一先例有力地说明了精确自动化AI文本检测机制的必要性。  

随着ZeroGPT、DetectGPT和Quillbot等免费网站的兴起,绕过这些技术的攻击手段也随之发展。常用的方法包括自动释义工具、提示工程以及向AI生成文本中刻意添加错误(Perkins等人,2024 (https://arxiv.org/html/2605.14240#bib.bib12))。已有研究普遍表明,这些方法会降低检测工具的有效性;但我们旨在对主流AI检测方法在绕过攻击下的表现进行更全面的分析。本文我们将聚焦于释义攻击。  

当前最先进的检测器可分为两类:基于训练的机制和无需训练的机制(Wang等人,2025 (https://arxiv.org/html/2605.14240#bib.bib17))。大多数无需训练的方法依赖于统计特征分析,通常关注困惑度、对数概率和n-gram(Chakraborty等人,2023 (https://arxiv.org/html/2605.14240#bib.bib13))。尽管基于训练的模型一直处于领先地位,但最近开发的Binoculars方法在零样本场景中表现突出,在多个指标上优于其他方法(Hans等人,2024 (https://arxiv.org/html/2605.14240#bib.bib16))。该方法将在相关工作部分进一步展开。基于训练的方法主要依赖Transformer模型,尤其是RoBERTa(Liu等人,2019 (https://arxiv.org/html/2605.14240#bib.bib11)),这是一种基于掩码的模型,易于针对文本分类等下游任务进行微调。  

我们堆叠用于开发自身模型的方法包括Binoculars、RoBERTa和文本特征分析,选择这些方法是因为它们在基准测试中表现领先(详见相关工作)。  

## 2 相关工作  

### 2.1 Binoculars  

Binoculars方法依赖于两个密切相关的LLM的计算。相比其他最先进方法,其显著优势在于无需使用待测LLM的训练数据。这一点很重要,因为Binoculars仍然能够超越所有检测ChatGPT的开源模型。由于其他检测器依赖于预训练模型(后续再用这些模型进行测试),其结果在面对多个AI模型时难以泛化。而Binoculars方法能在多种数据集上取得高性能,这些数据集包含来自不同LLM来源的文本。此外,Binoculars解决了所谓的“水豚问题”(Capybara Problem),即LLM由于使用了高困惑度的提示而生成高困惑度文本的现象。其他依赖原始困惑度的模型在这种情况下会失效。Binoculars的准确率超过90%,假阳性率为0.01%,使用的数据集包括写作提示、新闻和学生作文(Verma等人,2024 (https://arxiv.org/html/2605.14240#bib.bib2))。  

### 2.2 文本特征  

Muñoz-Ortiz等人(2024 (https://arxiv.org/html/2605.14240#bib.bib10))分析了人类与LLM文本的语言模式,以确定哪些特征能提供最鲁棒的检测机制。他们使用来自Llama和Falcon 7-b等六个不同LLM的广泛数据,发现人类写作的句子长度分布比AI更不均匀。这一结论得到了Desaire等人(2023 (https://arxiv.org/html/2605.14240#bib.bib9))的支持,他们发现句子长度的标准差是文本分类的重要标识符。作为我们使用的五个文本特征之一,我们因此引入了句子长度的标准差。  

### 2.3 集成方法  

Abburi等人(2023 (https://arxiv.org/html/2605.14240#bib.bib8))分析了集成方法在文本分类中的成功应用。他们的集成方案堆叠了DeBERTa、RoBERTa和xLM-RoBERTa,并对每个模型进行了针对性的微调。他们发现,该方法在自动化文本识别共享任务的英语任务中排名第五,在多语言任务中排名第一。  

事实上,集成方法在COLING 2025 GenAI文本检测研讨会的第一项任务中被广泛使用,我们使用的训练和评估数据集正是来自该任务(Wang等人,2025 (https://arxiv.org/html/2605.14240#bib.bib17))。Mobin与Islam(2025 (https://arxiv.org/html/2605.14240#bib.bib7))的方法在参赛者中排名第四,其依赖将RoBERTa-base与其他预训练Transformer模型进行集成。我们的方法论也依赖于RoBERTa,但如前述理由,我们将其与Binoculars和文本特征分析集成。  

### 2.4 绕过攻击  

参见图注  
图1:我们的模型流程  

最主流的依赖于Transformer微调的AI文本检测模型已经过绕过攻击测试,并证明能较好地抵御攻击。Krishna等人(2023 (https://arxiv.org/html/2605.14240#bib.bib1))提供了一个关键基线,他们证明受控释义能在保持语义完整性的前提下显著削弱AI生成文本检测器的性能。他们的工作通过DIPPER模型表明,即使是最小程度的释义——改变措辞和句子结构——也能大幅降低检测准确率。  

一些常见的AI检测器在使用绕过方法时准确率下降了约17%(Perkins等人,2024 (https://arxiv.org/html/2605.14240#bib.bib12))。然而,一些较新开发的模型专门设计用于抵御此类攻击,例如RADAR模型(Hu等人,2023 (https://arxiv.org/html/2605.14240#bib.bib18)),它通过释义方案训练检测器,相比之前的方法额外提高了超过31.64%的准确率。但Binoculars方法尚未经过绕过攻击测试,因此其总体有效性尚不明确。本文将对这一关切进行探讨。  

## 3 数据与方法  

为了追踪机器生成文本检测的进展,我们使用了“检测AI生成内容 @COLING 2025 任务1:二分类机器生成文本检测”竞赛的材料(Wang等人,2025 (https://arxiv.org/html/2605.14240#bib.bib17))。该竞赛是先前研究过的多个数据集的聚合,例如M4GT。以下章节的实验基于最终排行榜使用的测试数据集。所有模型均使用训练数据集,详见附录A.0.1。  

首先,我们选择针对AI文本检测微调RoBERTa,因为微调能显著提升模型理解细微语言差异的能力。本质上,我们添加了一个大小为2的最终层用于二分类。这也是机器生成文本检测中经过充分验证的方法(Liu等人,2019 (https://arxiv.org/html/2605.14240#bib.bib11))。我们在研讨会提供的训练集子集(12k条)上进行了微调。超参数为:学习率=2e-5,批次大小=16,轮数=4,训练规模=20,000,训练/测试划分比例为0.8。  

其次,我们还测试了Binoculars方法,该方法在多种LLM测试中取得高准确率和低假阳性率,且不依赖训练数据。Binoculars使用两个密切相关的LLM——‘tiiuae/falcon-7b’和‘tiiuae/falcon-7b-instruct’——来计算交叉困惑度,即利用一个LLM生成文本的对数困惑度和另一个LLM的下一个词元预测来计算困惑度。  

第三,我们测量了与AI检测相关的若干文档指标。我们选择了5个文本标记:平均词长、词汇多样性、标点频率(Corizzo与Leal-Arenas,2023 (https://arxiv.org/html/2605.14240#bib.bib19))、句子长度的标准差以及停用词比例(Gryka等人,2024 (https://arxiv.org/html/2605.14240#bib.bib20))。特征的选择基于随机森林的熵值。  

我们将每种方法提取的特征组合成一个向量(每个文本样本对应一个向量),然后将其输入作为元学习器的随机森林模型。该向量包括微调后RoBERTa模型的预测概率和预测标签、Binoculars的交叉困惑度分数,以及我们选择的五个文档指标(图1 (https://arxiv.org/html/2605.14240#S2.F1))。在以下章节中,我们将展示7种不同模型堆叠方式的性能。  

由于资源有限,我们从评估数据集中手动选取了201条带有AI标签的样本,将其输入高性能AI文本检测绕过程序GPTinf。我们将这些释义后的样本与评估数据集中随机选取的201条人类写作文本拼接在一起。GPTinf声称能绕过所有AI检测器,包括Turnitin AI检测器、GPTZero、ZeroGPT和GPTRadar。该数据集现已发布在HuggingFace上,地址为‘antebe1/paraphrased_AI_text’。  

尽管GPTInf使用的算法未公开,但其网站声明其工作原理是对输入文本进行释义——去除常见措辞,通过改变用词、语法和词序来多样化句子结构(9 (https://arxiv.org/html/2605.14240#bib.bib21))。为了计算整个数据集上F1分数的置信区间,我们采用了自助法(从73k中抽取9000个样本)。为了验证测试模块之间的差异是否显著,我们进行了21对McNemar统计检验(表3 (https://arxiv.org/html/2605.14240#A1.T3))。使用Bonferroni校正后,α=0.1对应的显著性水平为0.0048。  

## 4 结果  

### 4.1 Binoculars  

#### 4.1.1 观察结果  

为快速测试,所有Binoculars测试均在数据集的开发测试集划分上运行。  

参见图注  
图2:Binoculars结果  
参见图注  
图3:上下文窗口为512(无量化)时的Binoculars分数  

#### 4.1.2 上下文窗口效应  

我们观察到,随着上下文窗口增大,信息增益增加。然而,信息增益在大约256-512个词元后出现平台期。Jensen-Shannon散度分数(图3 (https://arxiv.org/html/2605.14240#S4.F3),见附录A.0.2),用于衡量概率分布间的相似性,从上下文窗口大小为32时的0.0373显著提升至上下文窗口大小为512时的0.2843。JS分数凸显了随着上下文窗口增大,人类撰写文本与AI生成文本之间的差异效果。  

Binoculars分数分析揭示了人类与AI生成文本之间的明显区分。人类撰写内容的得分中位数最高,约为1.0(图2 (https://arxiv.org/html/2605.14240#S4.F2)),与Binoculars论文预测一致,且具有显著的方差和异常值。关键阈值0.901与原论文报告一致,可用作人类与AI生成内容之间的判别器。  

### 4.2 模块集成比较  

三个不同的模块可产生7种不同的组合方式(图4 (https://arxiv.org/html/2605.14240#S4.F4))。  

参见图注  
图4:攻击前F1分数  

包含所有模块(文本特征、RoBERTa和Binoculars)的集成方法取得了最高的F1分数,为80.61%。其次性能最佳的是文本特征与Binoculars的组合。尽管将文本特征与RoBERTa结合,或将RoBERTa与Binoculars结合也能提升性能(相比单个特征),但不如全面集成。值得注意的是,单个特征集(如仅文本特征、仅RoBERTa或仅Binoculars)的F1分数低于任何组合(如表1 (https://arxiv.org/html/2605.14240#S4.T1)所示)。  

### 4.3 释义攻击  

参见图注  
图5:攻击后F1分数  

在单个模型中,RoBERTa对释义攻击表现出最高的鲁棒性,性能几乎无下降(表1 (https://arxiv.org/html/2605.14240#S4.T1))。相比之下,Binoculars方法最为脆弱,性能显著下降0.196。  

有趣的是,文本特征方法在面对释义样本时也几乎无性能下降。集成文本特征、RoBERTa和Binoculars的方法最初取得了最高的F1分数0.8061,但在面对释义样本时性能出现显著下降,d

相似文章

Counter Turing Test 的发现:AI生成文本检测

arXiv cs.CL

本文介绍了 Counter Turing Test 共享任务在AI生成文本检测方面的发现,顶级系统在二分类任务中达到了完美表现,但在模型归因方面性能显著较低,突显了区分不同大语言模型输出的难度。

AI生成文本检测中语言特征的系统性分析:跨领域与跨模型研究

arXiv cs.CL

一项大规模实证研究对284个语言特征在27个大语言模型和10个文本领域中的表现进行了分析,以评估哪些特征能够可靠地检测AI生成文本。研究发现,词汇丰富度指标是跨领域和跨模型最稳健的信号,而许多其他已提出的指标则高度依赖具体上下文。

基础模型被AI检测器视为人类

arXiv cs.CL

这篇论文揭示,GPTZero和Pangram等商用AI检测器将基础语言模型生成的文本判定为几乎完全是人类撰写,而经过指令微调的模型输出则被标记为AI生成。作者提出了HIP,一种与检测器无关的迭代改写流程,能在保持语义的同时提升文本的类人性。

聚光灯与盲区:机器生成文本检测的评估

arXiv cs.CL

# 聚光灯与盲区:机器生成文本检测的评估 来源:[https://arxiv.org/html/2604.16607](https://arxiv.org/html/2604.16607) ###### 摘要 随着生成式语言模型的兴起,机器生成文本检测已成为一项关键挑战。尽管模型种类繁多,但不一致的数据集、评估指标和评估策略使得模型有效性的比较变得模糊。为此,我们从...