聚光灯与盲区：机器生成文本检测的评估

arXiv cs.CL 2026/04/21 04:00 论文

machine-generated-text ai-detection evaluation llm deepfake-text benchmarking nlp

摘要

# 聚光灯与盲区：机器生成文本检测的评估来源：[https://arxiv.org/html/2604.16607](https://arxiv.org/html/2604.16607) ###### 摘要随着生成式语言模型的兴起，机器生成文本检测已成为一项关键挑战。尽管模型种类繁多，但不一致的数据集、评估指标和评估策略使得模型有效性的比较变得模糊。为此，我们从...

arXiv:2604.16607v1 公告类型：新发布摘要：随着生成式语言模型的兴起，机器生成文本检测已成为一项关键挑战。尽管现有模型种类繁多，但不一致的数据集、评估指标和评估策略使得模型之间的有效性难以进行比较。为解决这一问题，我们在七个英文文本测试集和三个创意人工写作数据集上，对来自六个不同系统的 15 种检测模型以及七种经过训练的模型进行了评估。我们提供了关于模型性能、训练与评估数据的影响以及关键指标作用的实证分析。研究结果表明，没有任何单一系统在各个方面都表现卓越，几乎所有系统在特定任务中都具备有效性，且模型性能的呈现方式与数据集和指标的选择密切相关。我们发现，基于不同数据集和指标，模型的排名存在较高方差，且在高风险领域的全新人工撰写文本上整体表现不佳。综合各数据集和指标的结果表明，那些通常被默认或忽视的方法论选择，对于清晰、准确地反映模型性能至关重要。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 07:03

# 聚光灯与盲区：评估机器生成文本检测
Source: https://arxiv.org/html/2604.16607

###### 摘要

随着生成式语言模型的兴起，机器生成文本检测已成为一项关键挑战。市面上模型种类繁多，但不一致的训练数据集、评估指标和评估策略使得比较模型效果变得困难。为解决这一问题，我们在七个英语文本测试集和三个创意人工撰写数据集上，评估了来自六个不同系统的15种检测模型变体，以及七种训练模型。我们对模型性能、训练和评估数据的影响，以及关键指标的影响进行了实证分析。我们发现，没有任何一个系统能在所有领域表现出色，但几乎所有模型在特定任务中都有效，且模型性能的呈现与数据集和指标的选择密切相关。基于不同数据集和指标，模型排名的方差很大，而在高风险领域的新型人工撰写文本上，整体表现较差。跨数据集和指标的评估表明，一些常被假设或忽视的方法学选择对于清晰准确地反映模型性能至关重要。

Keywords: machine-generated text detection, deepfake detection, evaluation, metrics

**作者**：Kevin Stowe, Kailash Patil (**Pindrop**) \{kevin.stowe, kpatil\}@pindrop.com | 摘要内容

## 1. 引言

近年来，能够生成逼真视频、音频和文本的生成系统取得了显著进步。虽然这些技术带来了巨大益处，但也给内容来源验证带来了严峻挑战。特别是区分机器生成文本和人类撰写文本变得日益重要。因此，关于机器生成文本检测¹的研究——识别并溯源由生成系统产生的内容——迅速增长。

¹ 术语说明：我们倾向于使用“machine-generated”（机器生成）而非“deepfake”（深度伪造），因为可能不存在欺骗意图。这也与所使用的数据集表述保持一致。

机器生成文本检测在教育、媒体和安全等领域都至关重要，应用场景包括缓解垃圾信息、抄袭、欺诈、宣传等问题[Rosca 等人 (2025) (https://arxiv.org/html/2604.16607#bib.bib36); Lee 等人 (2023) (https://arxiv.org/html/2604.16607#bib.bib59); Saravani 等人 (2021) (https://arxiv.org/html/2604.16607#bib.bib35)]。现代大型语言模型（LLMs）带来了独特挑战，因为即使人类也难以检测出机器生成的文本[Lee 等人 (2025) (https://arxiv.org/html/2604.16607#bib.bib70); Uchendu 等人 (2023) (https://arxiv.org/html/2604.16607#bib.bib60)]。目前的评估实践不一致，数据集、指标和方法论差异显著，且这些方法学选择背后的理由往往不清楚。尽管已有研究探讨了数据和指标的影响[Pudasaini 等人 (2025) (https://arxiv.org/html/2604.16607#bib.bib67); Bhattacharjee 等人 (2024) (https://arxiv.org/html/2604.16607#bib.bib69); Zhang 等人 (2023) (https://arxiv.org/html/2604.16607#bib.bib68)]，但这些工作的范围受限于模型、数据集、指标和分析深度。

为弥补这一空白，我们考察了六个系统中的15种检测变体，以及预训练 Transformer 和基于特征模型的性能。我们的研究深入探究了通常被忽视的数据集和指标属性，从而揭示了模型性能和发展中的关键问题。我们的分析主要在两个领域得出发现：

- **数据**：模型性能因评估数据而异：在四个数据集上，F1 分数范围约为 0 到 0.982，几乎所有模型都在某些数据集上表现良好，而在其他数据集上表现较弱（第4节 (https://arxiv.org/html/2604.16607#S4)）。关于训练，在域内数据上进行微调得到的模型优于零样本和外部分类公共训练的模型，但对于某些数据集，域外训练反而能取得更好结果（第4.1节 (https://arxiv.org/html/2604.16607#S4.SS1)）。在三个新型人工撰写数据集上，除三个变体外，所有模型在一个或多个数据集上的错误率均不低于 15%，而错误率较低的模型也在所有数据集上表现出低召回率。这凸显了现实部署中的潜在风险（第4.2节 (https://arxiv.org/html/2604.16607#S4.SS2)）。
- **指标**：指标可能被操纵以歪曲模型性能：常用的指标如 F1 分数、接收者操作特征曲线下的面积（AUROC）以及假正率为 1% 时的真正例率（TPR@FPR 1%）会根据评估集的标签分布呈现出不同的模式，而这些分布通常是不平衡的（第5.1节 (https://arxiv.org/html/2604.16607#S5.SS1)）。在八个常用指标下，15个模型的排名方差在 0.77 到 15.25 之间变化，且分类阈值的选择对结果有显著影响（第5.2节 (https://arxiv.org/html/2604.16607#S5.SS2)）。

我们最后分析了可能导致模型表现差异的潜在原因，包括输入长度、标点符号、重复模式和困惑度。我们的分析揭示了任务中常被忽视的数据集和指标相关方面。我们确立了使用多种合理设定的指标和数据集进行评估的必要性，因为错误的设置可能会掩盖误差并导致对模型性能的误解。

## 2. 系统

| 类型 | 模型/变体 | 评估数据 | 关键性能 |
|---|---|---|---|
| **零样本模型** | Binoculars | Hans et al. (2024) 提出的 Falcon | Verma et al. (2024), Lian et al. (2023), custom | TPR-FPR: 0.76–0.98, F1: 0.985–0.994 |
| | Fast-DetectGPT (fdg) | Bao et al. (2024) 提出的 gpt-neo | Custom | AUROC: 0.9754–0.9984 |
| | gpt-j / falcon-7b | ZippyThinker (2023) | Variousᵃ | AUROC: 0.76–0.82 |
| **训练模型** | RADAR | Hu et al. (2023) 提出的 Base | Custom | AUROC: 0.763–0.955 |
| | BiScope | Guo et al. (2024a) 提出的 Arxiv | Custom | F1: 0.5456–1.0<br>Yelp Essay Creative |
| | DeTeCtive | Guo et al. (2024b) 提出的 MAGE (Deepfake) | MAGE (Deepfake)<br>TuringBench / M4 / TuringBench / OUTFOXOUTFOX | F1: 0.8260–0.9974 |
| **预训练 Transformer**ᵇ | DistilBERT | distilbert-base-cased | N/A | N/A |
| | BERT | bert-base-cased | N/A | N/A |
| | RoBERTa | roberta-base | N/A | N/A |
| | Longformer | longformer-base-4096 | N/A | N/A |
| | DeBERTa | deberta-v3-base | N/A | N/A |
| **基于特征** | mcgovern | Word, part-of-speech, character n-grams | MAGE (Deepfake) / M4 | AUROC: 0.943–0.996<br>F1: 0.947–0.987<br>OUTFOX / Ghostbuster |
| | stylo | Linguistic / stylometric | N/A | N/A |

ᵃ 此系统未明确指定单一数据源。<br>
ᵇ 尽管先前工作包含 Transformer 微调，但在数据集、指标或性能上尚未达成共识。<br>
ᶜ 该系统独立于任何特定的先前工作进行实现。

**表 1**: 评估模型及变体的总结。我们报告了主要使用的数据集和指标，以及给定系统在关键指标上的取值范围。我们汇编了一个多样化的当代机器生成文本检测系统集合，包括零样本和公开训练模型、预训练 Transformer 以及基于特征的方法。表 1 (https://arxiv.org/html/2604.16607#S2.T1) 总结了所选模型变体，详细说明了其原始评估数据、指标及报告的性能。我们的目标是通过严格的评估和分析来探索数据集和指标的影响（正如 Wu et al.(2025) (https://arxiv.org/html/2604.16607#bib.bib57) 所做的那样）；我们通过纳入更多模型以及对性能和指标/数据集关联性的更深入分析，在此基础上推进了前人工作。

### 2.1. 公开模型
我们探索了公开的零样本和训练模型。我们重点关注满足三个关键标准的检测模型：(1) 具有时效性（2023年及以后），(2) 完全开源（便于透明化和定制化），(3) 免费使用（排除依赖 OpenAI 等专有 API 的系统，因其会产生额外费用和要求）。我们优先考虑透明、易于实现且运营成本最低的系统。这些系统均报告了强劲的性能，在许多各自的数据集上 F1/AUROC 得分超过 0.95。

### 2.2. 预训练 Transformer
在我们的评估中，包括了五种不同规模和配置的基于 Transformer 架构的微调：DistilBERT (Shah et al.(2023) (https://arxiv.org/html/2604.16607#bib.bib12)), BERT (Devlin et al.(2019) (https://arxiv.org/html/2604.16607#bib.bib30)), RoBERTa (Zheng et al.(2021) (https://arxiv.org/html/2604.16607#bib.bib31)), Longformer (Beltagy et al.(2020) (https://arxiv.org/html/2604.16607#bib.bib34)) 和 DeBERTa (He et al.(2021) (https://arxiv.org/html/2604.16607#bib.bib54))。值得注意的是，先前的研究表明 RoBERTa 和 Longformer 在机器生成检测方面特别有效 [Mozilla (2025) (https://arxiv.org/html/2604.16607#bib.bib26); Li et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib28); Pu et al.(2023) (https://arxiv.org/html/2604.16607#bib.bib11)]。我们在一个共享数据集上对这些模型进行微调和评估，以便与上述方法进行直接比较。

### 2.3. 基于特征的模型
基于特征的模型已在机器生成文本检测中展现出显著效果，利用了不同 LLM 特有的语言和风格学模式 [McGovern et al.(2025) (https://arxiv.org/html/2604.16607#bib.bib5); Muñoz-Ortiz et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib64)]。我们实现了两种变体：(1) 基于 McGovern et al.(2025) (https://arxiv.org/html/2604.16607#bib.bib5) 工作的基于特征分类器（mcgovern），它结合词、词性和字符 n-gram，使用梯度提升分类器进行训练；(2) 一系列从 Almazrouei et al.(2023) (https://arxiv.org/html/2604.16607#bib.bib6) 改编的语言和风格学特征（stylo）。该模型结合语言和风格学特征来训练集成分类器²。
² 所有系统的实现细节见附录B (https://arxiv.org/html/2604.16607#A2)。

### 2.4. 其他模型
我们旨在根据上述标准建立一个多样化的模型集，但目前还有其他可用模型。其中一些因针对特定生成模型（如 GPT）或数据集而被排除 [Venkatraman et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib22); Koike et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib27); Wu et al.(2023) (https://arxiv.org/html/2604.16607#bib.bib45); Yang et al.(2023) (https://arxiv.org/html/2604.16607#bib.bib20); Gehrmann et al.(2019) (https://arxiv.org/html/2604.16607#bib.bib21)]。另一些则建立在已不可用或需要受限访问权限的 OpenAI 免费模型之上 [Bao et al.(2025) (https://arxiv.org/html/2604.16607#bib.bib49); Verma et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib1); Mao et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib48)]：我们将评估范围限制在仅限免费和开源的模型。出于类似原因，我们也排除了许多商业系统以及专有模型固有的不透明性。

## 3. 数据

为确保标准化且稳健的评估，我们建立了一个统一的数据集，包含源自四个基准数据集的七个测试集：

![参考图注](placeholder_caption)
**图 1**: 各模型在每个数据集上的 F1 和 AUC（标有 x）。对于预训练 Transformer，其在相应数据集的域内训练数据上进行训练。

#### MAGE (即 Deepfake) [Li et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib28)]
该数据集包含 44.7 万个人类和 AI 生成的文本样本，涵盖多种模型和方法。我们提取了三个测试集：(1) 从完整数据集中抽取的 1 万个类别平衡样本（mage）；(2)-(3) 两个“更广泛”的测试集，分别用于域外文本（mage-ood）和域外改写文本（mage-ood-para）。

#### RAID [Dugan et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib2)]
RAID 语料库包含 1100 万篇人类撰写和机器生成的文本，其中包含旨在规避检测系统的对抗性示例。我们从 RAID 训练分区中提取了一个 1 万样本的类别平衡子集（raid），因为官方测试集标签为排行榜目的而暂不外泄。

#### H3C+ 语料库 [Sue et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib52)]
该语料库扩展了 H3C 语料库 [Guo et al.(2023) (https://arxiv.org/html/2604.16607#bib.bib51)]，加入了语义不变扰动，已被证明更难检测。我们使用了他们的两个英语测试集，分别从问答（h3c+ qa）和语义不变性（h3c+ si）的英文分区中抽样 1 万个类别平衡文本。

#### M4GT-Bench [Wang et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib53)]
这是一个多语言、多领域的语料库，涵盖几种生成方法。我们从其测试集的英文分区中提取了 1 万个类别平衡的文本（m4gt）。

选择这些数据集是因为：(1) 公开可用，(2) 模型和领域多样化，(3) 通用性强。它们各自包含大量用于生成的模型、不同的领域以及不同风格的文本。还有许多其他高质量数据集可用 [Wu et al.(2025) (https://arxiv.org/html/2604.16607#bib.bib57); Koike et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib27); Verma et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib1); Liu et al.(2024) (https://arxiv.org/html/2604.16607#bib.bib55); Lian et al.(2023) (https://arxiv.org/html/2604.16607#bib.bib50); Uchendu et al.(2021) (https://arxiv.org/html/2604.16607#bib.bib56); 详见 Gritsai et al.(2025) (https://arxiv.org/html/2604.16607#bib.bib66) 关于当前数据集概览及检测面临的挑战]。我们的目标并非针对所有数据集全面评估模型，而是突显代表性数据集之间的性能差异。

我们在所有七个测试集上进行了全面评估，包括对合并数据集（all）的综合分析。一些公开模型（例如 DeTeCtive (MAGE)）是在这些资源的其它分区上训练的：在评估前，我们已确保训练数据与我们的评估集之间无重叠。对于我们的训练，我们通过从各自的训练分区随机抽样，为每个数据集创建 1 万文本的训练集，并确保与评估数据无重叠。

## 4. 实验

我们在上述每个数据集上评估每个系统。为进行比较，我们包含一个平凡基线系统（All positive），它将每个样本的得分分配为 1（机器生成）³。³数据集之间关于哪一类是机器生成的标记法存在差异；我们确保所有数据集和模型均规范化为将 1 设为机器生成类。对于初步评估，我们使用 F1 分数（threshold = 0.5）和 AUROC；更多关于指标的讨论见第5节 (https://arxiv.org/html/2604.16607#S5)。结果

相似文章

对数似然、辛普森悖论与机器生成文本的检测

arXiv cs.CL

本文通过指出基于似然的机器生成文本检测器在 token 分数聚合中存在的辛普森悖论，解决了此类检测器性能下降的问题。本文提出了一种学习到的局部校准步骤，显著提升了各种模型和数据集上的检测性能。

GPT-2: 1.5B 版本发布

OpenAI Blog

OpenAI 发布了 GPT-2 1.5B 参数模型，附带了人类对可信度感知的分析、通过在极端意识形态微调进行滥用的潜在风险，以及检测合成文本的挑战。检测模型达到约 95% 的准确率，但在实际部署中需要配套方法。

AI编写的评论帮助人类发现缺陷

OpenAI Blog

# AI编写的评论帮助人类发现缺陷来源：[https://openai.com/index/critiques/](https://openai.com/index/critiques/) 我们希望确保未来执行极困难任务的AI系统始终与人类意图保持一致。[Many⁠](https://openai.com/index/learning-to-summarize-with-human-feedback/)[previous⁠\(opens in a new window\)](https://arxiv.org/abs/2204.05862)[works⁠\(opens in a new window\)](https://www.deepmind.com/publications/gophercite-teaching-language-models-to-suppo

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

arXiv cs.CL

提出了 LiSCP，一种轻量级的风格一致性分析方法，旨在鲁棒性地检测大语言模型（LLM）生成的文本内容，重点关注在对抗性操纵下特征的稳定性。在域内和跨域检测中取得了优异的性能，并具有显著的鲁棒性。

用于识别AI生成文本的新型分类器

OpenAI Blog

# 用于识别AI生成文本的新型分类器来源：[https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/](https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/) 我们认识到，在教育工作者中，识别AI生成的文本一直是一个重要的讨论话题，同样重要的是认识到AI文本分类器在课堂中的局限性和影响。我们开发了一个[初步资源⁠\(在新窗口中打开\)](ht

相似文章

对数似然、辛普森悖论与机器生成文本的检测

GPT-2: 1.5B 版本发布

AI编写的评论帮助人类发现缺陷

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

用于识别AI生成文本的新型分类器

提交意见反馈