Counter Turing Test 的发现：AI生成文本检测

arXiv cs.CL 2026/05/21 04:00 论文

摘要

本文介绍了 Counter Turing Test 共享任务在AI生成文本检测方面的发现，顶级系统在二分类任务中达到了完美表现，但在模型归因方面性能显著较低，突显了区分不同大语言模型输出的难度。

arXiv:2605.20761v1 公告类型：新摘要：AI生成文本的快速普及给数字内容完整性带来了重大挑战。像 GPT-4、Claude 3.5 和 Llama 这样的先进生成模型能够生成高度连贯且类似人类的文本，使得区分人类撰写内容与AI生成内容变得越来越困难。尽管这些模型具有变革性的应用，但其滥用已引发对虚假信息、偏见叙事和安全威胁的担忧。本文对当前最先进的AI生成文本检测技术进行了全面分析，并通过 Counter Turing Test (CT2) 共享任务评估了其有效性。任务A（二分类）要求参与者区分人类撰写文本与AI生成文本，而任务B（模型归因）则侧重于识别生成给定文本的具体语言模型。结果显示，在二分类任务中表现出色，顶级系统的F1分数达到1.0000，但在模型归因任务中分数显著较低，最佳系统仅为0.9531，凸显了该任务的复杂性。表现最好的团队利用了微调后的Transformer模型、集成学习和混合检测方法，其中基于DeBERTa和BART的方法取得了强劲结果。然而，任务B中的较低分数强调了区分不同大语言模型输出的挑战，需要进一步研究对抗鲁棒性、特征提取和跨领域泛化。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:35

# 反图灵测试的发现：AI生成文本检测
来源：https://arxiv.org/html/2605.20761
\\copyrightclause

本文作者拥有该论文的版权。允许在知识共享署名4.0国际许可协议（CC BY 4.0）下使用。

\\conference

Defactify 4.0：多模态事实核查与AI生成文本检测，2025年3月，线上会议

[[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]]

Gurpreet Singh, Ashhar Aziz, Shashwat Bajpai, Nasrin Imanpour, Shwetangshu Biswas, Kapil Wanaskar, Parth Patwa, Subhankar Ghosh, Shreyas Dixit, Nilesh Ranjan Pal, Vipula Rawte, Ritvik Garimella, Amitava Das, Amit Sheth, Vasu Sharma, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Kalyani Government Engineering College, India, IIIT Guwahati, India, IIIT Delhi, India, BITS Pilani Hyderabad Campus, India, AI Institute, University of South Carolina, USA, National Institute of Technology Silchar, India, San José State University, USA, University of California Los Angeles, USA, Washington State University, USA, Vishwakarma Institute of Information Technology, India, Meta AI, USA, Amazon AI, USA, BITS Pilani, Goa

(2026)

###### 摘要

AI生成文本的迅速激增给维护数字内容的完整性带来了重大挑战。GPT-4、Claude 3.5和Llama等先进的生成模型能够生成高度连贯且类人的文本，使得区分人类撰写与AI生成的内容日益困难。尽管这些模型具有变革性的应用，但其滥用也引发了关于错误信息、偏见叙事和安全威胁的担忧。

本文对最先进的AI生成文本检测技术进行了全面分析，并通过"反图灵测试"（CT2）共享任务评估了其有效性。任务A（二分类）要求参与者区分人类撰写与AI生成的文本，而任务B（模型归因）则侧重于识别生成特定文本的具体语言模型。结果显示，二分类任务表现优异，最佳系统F1分数达到1.0000，但模型归因任务得分显著较低，最佳系统仅为0.9531，凸显了该任务的更高复杂性。

表现最佳的团队采用了微调转换器模型、集成学习和混合检测方法，其中基于DeBERTa和BART的方法取得了强劲结果。然而，任务B较低的得分强调了区分不同LLM输出的挑战，这需要在对抗鲁棒性、特征提取和跨域泛化方面进行进一步研究。

###### 关键词:

AI生成文本\sep检测技术\sep生成式AI\sep自然语言处理

## 1 引言

GPT-4[openai2023gpt4]、Claude[anthropic2024claude]和Llama[touvron2023llama]等生成式AI技术彻底革新了合成文本内容的创作。这些工具利用先进的神经架构生成高度连贯且上下文相关的文本，在内容创作、教育和客户服务等行业中实现了广泛应用。然而，这些工具的日益普及也带来了重大挑战，因为它们可能被滥用于传播虚假信息、生成垃圾邮件和操纵公众舆论[solaiman2019release,krishna2023deception]。

高调事件已表明AI生成文本对社会和经济的影响。例如，由语言模型创建的虚构新闻文章和社交媒体帖子操纵了政治叙事，传播了虚假信息，并影响了公众情绪。在2020年美国总统大选期间，人们担忧生成式AI被用于制造虚假政治内容，凸显了数字生态系统易受AI驱动虚假信息攻击的脆弱性。同样，AI生成的虚假科学论文也对学术诚信构成了挑战，引发了对已发表研究可靠性的质疑。

语言模型能力的指数级增长进一步加剧了问题。GPT-4和Claude 3.5等技术突破了语言流畅性和上下文理解的界限，使得使用传统检测方法区分AI生成与人类撰写的文本变得越来越困难。合成文本的激增引起了政策制定者和技术专家们的担忧。欧盟的一份报告指出，对在线虚假信息通知的响应率下降，反映了打击AI赋能错误信息日益严峻的挑战。

此外，AI生成文本的滥用不仅限于虚假信息。它还包括仇恨言论、网络钓鱼攻击以及生成带有偏见或有害的叙事。例如，语言模型可以被微调或提示以生成嵌入微妙偏见或宣扬分裂意识形态的内容。这些场景凸显了开发稳健检测机制以应对生成式AI技术滥用的紧迫性。

本文通过分析最先进的方法、识别差距并提出一个全面的评估框架，专注于推进AI生成文本的检测技术。基于Defactify研讨会系列[roy-2025-defactify-overview-text]的见解——该系列已成为解决多模态事实核查挑战的领先论坛——本研究旨在弥合学术研究与实践应用之间的鸿沟。通过应对这些挑战，我们力求为开发可扩展、可靠的检测系统做出贡献，以维护数字生态系统的完整性。

## 2 相关工作

大型语言模型（LLM）的演进要求发展稳健的方法来区分人类与AI生成的内容。本节回顾现有的数据集和检测方法。

统计与零样本检测器：近年来，研究人员正在探索无需标记训练数据即可识别AI文本内在特征的方法。DetectGPT[mitchell2023detectgptzeroshotmachinegeneratedtext]利用LLM对数概率曲面的负曲率，通过概率差异识别机器生成的文本。类似地，GLTR[gehrmann2019gltrstatisticaldetectionvisualization]提供了一套统计工具，如词排名和熵分析，以提高人类检测率。最近的进展包括DNA-GPT[zhang2023dnagptgeneralizedpretrainedtool]，它分析文本"再生"过程中的N-gram发散；以及Binoculars[hans2024spottingllmsbinocularszeroshot]，它基于两个相关语言模型之间的对比计算得分以识别合成信号。

监督分类器与架构演进：该方法涉及在人类和AI生成文本的精选数据上训练神经判别器。早期的工作，如Grover[zellers2020defendingneuralfakenews]，表明最佳生成器往往也是自身输出的最有效判别器。Ippolito等人[ippolito2020automaticdetectiongeneratedtext]的研究探讨了各种解码策略（如核采样）如何产生机器可检测的线索（或统计伪影），即使这些策略成功欺骗了人类评估者。Ghostbuster[verma2024ghostbusterdetectingtextghostwritten]利用在较弱语言模型提取的特征上训练的线性分类器进行黑盒检测。其他研究也利用了语言特征（如语言查询与词计数）进行作者归因[uchendu-etal-2020-authorship]。

对抗性规避与主动防御：随着检测器的演进，绕过它们的方法也在发展。Raidar[mao2024raidargenerativeaidetection]探讨了检测器对抗基于改写识别的对抗性操作的鲁棒性。虽然释义仍是对检测器准确性的重大威胁，但研究表明语义检索和缓存API输出可作为有效防御[krishna2023paraphrasingevadesdetectorsaigenerated]。为了提供更确定的验证，水印框架（如Kirchenbauer等人[kirchenbauer2024watermarklargelanguagemodels]提出的"红名单"和"绿名单"逻辑偏置）将不可见信号嵌入LLM输出。相反，像PIFE[teja2025modelingattackdetectingaigenerated]这样的框架旨在进行扰动不变特征工程，以在字符级或词级攻击下保持检测准确性。

## 3 任务详情

我们使用[roy2025comprehensivedatasethumanvs]中提供的数据集进行AI生成文本检测。该数据集包含来自不同领域的50,000个样本，确保了风格、主题和复杂性的多样性。

### 3.1 数据

数据集[roy2025comprehensivedatasethumanvs]包含50,000个样本，结构包括人类撰写的故事以及来自六个现代LLM的并行生成文本。每个条目都附有带注释的元数据，详细说明了源模型、输入提示和相关语言特征。这种结构允许进行全面分析和模型特定评估。这些LLM包括：Gemma-2-9、Mistral-7B、Qwen-2-72B、LLaMA-8B、Yi-Large、GPT-4o。数据集被分割为训练集、验证集和测试集，大小分别为51,247、10,983和10,963。

### 3.2 任务

- •任务A：二分类 参与者需要判断给定的文本样本是由AI生成还是人类撰写。
- •任务B：模型归因 在任务A的基础上，该任务要求参与者识别生成给定文本样本的具体语言模型。参与者将获得AI生成的样本，并需预测是哪个LLM生成了该文本。

### 3.3 评估

比赛中的表现使用F1分数进行评估。对于任务A，我们报告加权F1分数，该分数通过按每个类别的支持度加权平均其F1分数来考虑标签不平衡。对于任务B，我们使用宏观F1分数，该分数通过计算每类F1分数的未加权平均值来平等对待所有类别，从而强调区分不同模型生成输出的独特模式的能力。

### 3.4 基线

我们实现了受Raidar方法[mao2024raidargenerativeaidetection]启发的基线，该方法通过改写检测机器生成的内容。其关键思想是，LLM在改写AI生成的文本时往往比改写人类撰写的文本进行更少的编辑。如图3.4 (https://arxiv.org/html/2605.20761#S3.SS4) 所示，使用固定的改写模型（GPT-3.5-Turbo）对输入文本进行改写，并计算原始文本与改写文本之间的Levenshtein编辑距离。预测与改写产生最小编辑距离的模型为生成器。如果所有编辑距离都超过预定义阈值（选择为训练样本中最大编辑距离的中位数），则输入被分类为人类撰写。

我们在三种阈值策略下评估基线，如表1 (https://arxiv.org/html/2605.20761#S3.T1) 所示。中位数阈值与上述方法相匹配，被用作比赛排行榜的官方基线，在任务A上达到加权F1分数0.5300，在任务B上达到宏观F1分数0.0504。

| 阈值策略 | 任务A（加权F1） | 任务B（宏观F1） |
|---|---|---|
| F1优化 | 0.8400 | 0.0863 |
| 最大编辑距离 | 0.8457 | 0.0872 |
| 中位数编辑距离 | 0.5300 | 0.0504 |

表1：基于Raidar改写方法在不同阈值策略下的基线F1分数。

![[未配图]](https://arxiv.org/html/2605.20761v1/x1.png)
\\captionof{figure}

Raidar概念示意图。给定一个新闻数据文本和一个LLM生成的文本，同一个LLM被要求改写输入同时保持原意。人类撰写文本的改写经历了更多的字符级编辑（以红色/黄色高亮），而LLM生成文本的改写则基本保持不变。

## 4 参赛系统

比赛网页上有超过52次注册，最终有11个团队提交了排行榜结果，其中7个团队提交了论文。

第一个参赛团队是Sarang[trivedi2025sarang]。他们提出了一种基于微调DeBERTa[he2021debertadecodingenhancedbertdisentangled]的方法，在任务A和任务B中均获得第一名。他们的方法包括在一个嘈杂数据集上训练DeBERTa模型集成，并结合数据增强技术以提高模型的鲁棒性和泛化能力。

Dakiet[duong2025scalableframeworkclassifyingaigenerated]团队引入了一个可扩展框架，集成了感知哈希、相似度测量和伪标签。他们的方法使用BART[lewis2019bartdenoisingsequencetosequencepretraining]Large作为骨干模型，在任务A中排名第二，在任务B中排名第三。

Tesla团队采用了丰富特征的方法，提取了风格、语言复杂度、偏见、主观性和情感等特征，以及TF-IDF unigram和bigram表示。他们使用XGBoost[Chen_2016]模型，获得了较高的F1分数，在任务A中排名第三，在任务B中排名第二。

SKDU[malviya2025skdu]团队探索了一种流水线方法，利用受RAIDAR启发的改写特征和NELA工具包的内容特征进行特征提取。他们的实验表明，NELA特征优于RAIDAR[mao2024raidargenerativeaidetection]特征，而XGBoost被证明是最有效的分类器。

Drocks[abburi2025ai]团队为每个任务开发了两种神经架构：优化模型和简化变体。他们的优化模型在任务A中排名第五，而简化版本在任务B中排名第五。该方法通过RoBERTa、BiLSTM和E5嵌入[wang2024textembeddingsweaklysupervisedcontrastive]（完整架构）增强了一个可泛化的神经模型。为降低复杂度，优化架构将BiLSTM词元级特征替换为文体学特征。对于多类分类，简单架构将E5嵌入和11个文体学特征与梯度提升分类器相结合。

AI_Blues[guggilla2025ai]团队采用了一种基于微调的策略，同时使用了大型语言模型和转换器编码器。他们微调了GPT-4o-mini、LLaMA-3 8B[grattafiori2024llama3herdmodels]和BERT[devlin2019bertpretrainingdeepbidirectional]用于任务A和任务B，对LLM采用了任务特定的提示，对BERT采用了监督训练。他们的结果表明，在人类与AI区分方面表现强劲，GPT-4o-mini在任务A中表现出色，而BERT在任务B中表现更佳。

Osint[agrahari2025tracing]团队提出了COT_Finetuned，一个集成了思维链（CoT）[wei2023chainofthoughtpr]的双任务框架。

Counter Turing Test 的发现：AI生成文本检测

相似文章

AI生成文本检测中语言特征的系统性分析：跨领域与跨模型研究

展示而非告知：可解释的AI生成文本检测

人们能在75%的情况下检测出AI生成的文本

基础模型被AI检测器视为人类

AEyeDE：一种基于注意力归因的AI生成文本检测框架

提交意见反馈