基于多视图高斯过程的非参数机器文本检测

arXiv cs.LG 2026/06/15 04:00 论文

摘要

本文提出了一种非参数多视图高斯过程框架，用于检测机器生成的文本，该框架对诸如释义等对抗性操作具有鲁棒性。通过结合互补特征并提供校准的不确定性，它在保留攻击上优于现有检测器。

arXiv:2606.14060v1 公告类型：新摘要：对抗性条件（如释义和有针对性的风格迁移）会严重降低机器文本检测器的准确性。然而，文档携带多种互补信号（例如，风格特征、似然度和排序特征、以及结构特征），抑制其中一种信号的攻击可能使其他信号保持完整。虽然参数化分类器在充分监督下可以学会组合这些特征，但当分布发生偏移（例如，新型攻击或未见过的语言模型）时，分类器容易做出自信但错误的预测。为了解决这个问题，我们提出了一个多视图、非参数检测框架，该框架从同一文档中提取互补的特征视图，并通过高斯过程集成聚合每个视图的证据。通过跨视图聚合证据，攻击者必须同时击败多个独立的检测轴，从而显著提高逃避成本。高斯过程公式还提供了校准的概率和对分布外输入的原则性弃权，支持在高风险环境中可靠部署。我们在三个涵盖不同生成器和攻击的基准（DetectRL和RAID基准，以及PAN2025共享任务）上进行了评估，并证明我们的多视图检测器在所考虑的攻擊下保持强劲性能，优于应对保留攻击的现有方法。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:09

# 基于多视角高斯过程的非参数机器文本检测
来源：https://arxiv.org/html/2606.14060
Aleem Khan, Nicholas Andrews 计算机科学系 约翰霍普金斯大学 \{aleem,noa\}@cs\.jhu\.edu

###### 摘要

对抗性条件（如改写和定向风格迁移）会严重降低机器文本检测器的准确性。然而，一份文档携带多种互补信号（例如，风格特征、似然性和排序特征、结构特征），压制其中一种信号的攻击可能使其他信号完好无损。虽然参数化分类器在有足够监督的情况下可以学习组合这些特征，但当分布发生偏移（例如，新型攻击或未见语言模型）时，分类器容易做出自信的错误预测。为了解决这个问题，我们提出了一种多视角、非参数的检测框架，该框架从同一份文档中提取互补的特征视角，并通过高斯过程集成聚合每个视角的证据。通过在视角间聚合证据，攻击者必须同时击败多个独立的检测轴线，从而显著提高规避成本。高斯过程公式还提供了校准概率和对分布外输入的原则性弃权机制，支持在高风险场景中可靠部署。我们在涵盖多种生成器和攻击的三个基准测试（DetectRL 和 RAID 基准测试，以及 PAN 2025 共享任务）上进行评估，结果表明，我们的多视角检测器在所考虑的各类攻击下保持强劲性能，在应对未见攻击时优于现有方法。

# 基于多视角高斯过程的非参数机器文本检测

Aleem Khan, Nicholas Andrews
计算机科学系
约翰霍普金斯大学
\{aleem,noa\}@cs\.jhu\.edu

## 1 引言

随着语言模型（LM）能力的增强并广泛为用户所用，LM 生成的文本已变得无处不在，与人类写作难以区分（Comanici 等人，2025 (https://arxiv.org/html/2606.14060#bib.bib1)；Grattafiori 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib3)；OpenAI 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib2)）。尽管 LM 服务于许多积极的应用场景，并已与工作流程紧密交织，但机器生成内容的检测——特别是在高风险领域——越来越受到众多社区的关注（Ippolito 等人，2020 (https://arxiv.org/html/2606.14060#bib.bib15)；Gehring and Paaßen，2025 (https://arxiv.org/html/2606.14060#bib.bib40)）。随着生成器性能的提升，检测器也在进步：关于机器生成文本检测的研究工作日益增多，产生了零样本统计检验（Bao 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib4)；Gehrmann 等人，2019 (https://arxiv.org/html/2606.14060#bib.bib9)；Hans 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib5)）、训练分类器（Li 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib6)；Lee 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib16)；Tian 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib17)；Hu 等人，2023 (https://arxiv.org/html/2606.14060#bib.bib18)）以及商业检测服务（Emi and Spero，2024 (https://arxiv.org/html/2606.14060#bib.bib19)）。在受控条件下（即机器文本未经修改或无对抗意图生成），这些检测器实现了高准确率（Hans 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib5)）。然而，实际部署引入了一个根本更困难的问题：对抗性条件，即机器文本在到达检测器之前被人或另一个 LM *编辑、重写或混淆*（Thai 等人，2026 (https://arxiv.org/html/2606.14060#bib.bib20)）。

对抗性操作有多种形式。在相对简单的情况下，用户可能试图通过提示来修改机器撰写的文档（Patel 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib10)）。而在另一方面，更复杂的对手可能微调生成器，以直接针对特定类型的检测器（Nicks 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib13)），或通过代理进行（Wang 等人，2025 (https://arxiv.org/html/2606.14060#bib.bib11)；Soto 等人，2025 (https://arxiv.org/html/2606.14060#bib.bib12)）。或者，机器文本可能通过一个训练好的释义器来破坏 token 的排名分数（Krishna 等人，2023 (https://arxiv.org/html/2606.14060#bib.bib7)），或多个释义器的流水线，这会放大这种退化。这些攻击利用了不同的脆弱点，但大多数现有检测器依赖单一特征空间，例如在参考语言模型下的 token 级概率（Gehrmann 等人，2019 (https://arxiv.org/html/2606.14060#bib.bib9)），或风格指纹（Soto 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib14)），沿该轴的一次定向编辑就足以规避检测。为了解决检测的多目标性，我们提出了一种多视角、非参数的框架，利用了这一洞见。

我们首先为目标领域构建少量样本支持。我们的方法依赖于从感兴趣领域获得少量人类和机器样本¹。对于每个 \(K\) 个视角（§3.1 (https://arxiv.org/html/2606.14060#S3.SS1)），我们拟合独立的高斯过程分类器，得到自然包含 GP 预测不确定性的概率（§3.3 (https://arxiv.org/html/2606.14060#S3.SS3)）。这些概率通过一个次级线性模型聚合，产生最终的校准不确定性（§3.4 (https://arxiv.org/html/2606.14060#S3.SS4)）。

我们的贡献如下：(1) 一个多视角检测框架，聚合互补视角以在人类编辑和释义攻击下实现鲁棒检测。(2) 一个高斯过程集成，提供校准的不确定性，并深入分析展示了该方法对各种攻击的鲁棒性。(3) 在多种基准测试（DetectRL 和 RAID 基准测试，以及 PAN 2025 共享任务数据集）上的评估，展示了在单视角检测器失效的对抗条件下表现出色。

## 2 预备知识

### 2.1 对抗条件下的检测仍然困难

随着生成器能力增强和可及性提高，AI 生成和 AI 操控内容的检测已获得研究社区的广泛关注。零样本检测方法使用参考模型对文档评分，其依据是机器生成的文本通常在任何语言模型下更有可能（Mitchell 等人，2023 (https://arxiv.org/html/2606.14060#bib.bib34)；Bao 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib4)；Hans 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib5)；Su 等人，2023 (https://arxiv.org/html/2606.14060#bib.bib8)；Yang 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib35)）。参数化方法也表现出色，但难以适应新分布（Solaiman 等人，2019 (https://arxiv.org/html/2606.14060#bib.bib38)；Li 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib6)；Hu 等人，2023 (https://arxiv.org/html/2606.14060#bib.bib18)）。水印技术已成为另一种有效的检测方法，但它假设在推理时能够访问模型（Kirchenbauer 等人，2023 (https://arxiv.org/html/2606.14060#bib.bib43)）。

近期工作也表明，许多检测方法对一系列攻击和对抗条件存在重大脆弱性，我们复现了这些发现（Soto 等人，2025 (https://arxiv.org/html/2606.14060#bib.bib12)；Nicks 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib13)；Krishna 等人，2023 (https://arxiv.org/html/2606.14060#bib.bib7)）。Nicks 等人（2024）特别强调了一个关键风险，即新的检测方法本身会变成被优化对抗的目标。Sadasivan 等人（2025）证明，反复应用释义攻击会显著降低性能。最近发布的数据集已从严格评估纯机器生成文本转向考虑人类和 LM 可能相互编辑和操纵彼此写作的情况（He 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib44)；Artemova 等人，2025 (https://arxiv.org/html/2606.14060#bib.bib37)；Dugan 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib23)；Wu 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib22)）。先前工作表明，在特征提取器上训练的高斯过程是有效的合成语音检测分类器（Glazer 等人，2025 (https://arxiv.org/html/2606.14060#bib.bib26)）。与我们的工作最相关的是 Ghostbuster，它组合多个 LM 导出的特征进行检测，应用搜索过程，并应用逻辑回归得到最终答案（Verma 等人，2024 (https://arxiv.org/html/2606.14060#bib.bib36)）。我们的方法不同之处在于组合了不同的特征空间，并使用高斯过程，后者能以少量数据量级产生校准的不确定性。

### 2.2 问题陈述

图 1：所提出方法的概述。每个输入 \(x\) 通过三个互补视角表示，并通过视角特定的 GP 转换为概率。然后这三个标量通过逻辑回归投影为一个单一概率。

令 \(\mathcal{X}\) 表示自然语言文档的空间。我们将我们的*检测器*定义为一个函数 \(h: \mathcal{X} \to \{0,1\}\)，将文档映射到二值标签，其中 \(y=0\) 表示人类写作的文本，\(y=1\) 表示机器生成或机器操控的文本。

#### 零样本检测。

大多数现有检测器在*零样本*设置下运行：检测器直接应用于测试文档，没有领域特定的训练数据。零样本方法，如对数秩检验、似然曲率估计和交叉困惑度比率，可以在任何生成器的输出上、任何领域、任何攻击下轻松运行，无需适应。然而，这种通用性是有代价的，当测试分布涉及对抗性操作时，性能会显著下降。

#### 我们的设置：少样本、领域锚定检测。

我们采用不同的运行假设。我们假设我们的系统可以访问一个小的领域内文档*支持集*：

\[
\mathcal{S} = \{ (x_i, y_i) \}_{i=1}^N, \quad y_i \in \{0,1\}, \quad N = N_H + N_M.
\]
其中 \(N_H\) 个人类写作文档和 \(N_M\) 个机器生成（和操控）文档来自感兴趣的领域。在我们的主要实验中，我们使用每个类别 \(N_H = N_M = 32\) 个文档，以表示在大多数实际场景中可获得的合理数量（例如，一组已知的人类写作的论文、经过验证的新闻文章或真实的论坛帖子）。我们还考察了随着 \(N\) 增加到 256 时系统性能的变化（图 2 (https://arxiv.org/html/2606.14060#S4.F2)）。

至关重要的是，我们对支持集无需反映测试时遇到的*攻击*或*生成器*。这通常符合许多现实世界场景，其中预见到所有可能的生成器或攻击是不可行的。人类样本必须来自目标领域，但机器样本可以由任何可用模型生成，即使与对手的生成器不同。在我们的评估中，我们明确地将攻击类型和源生成器从训练中排除，在跨攻击和跨生成器迁移设置中进行评估。也就是说，我们在一组攻击和生成器上训练（*除了一项*），然后在该设置上评估。我们的关键发现是，基于 GP 的多视角集成能够利用这个小的、可能不匹配的支持集，鲁棒地推广到未见生成器和未见攻击（§4 (https://arxiv.org/html/2606.14060#S4.T4)）。

#### 为什么是少样本？

这种公式在零样本范式（无领域数据，覆盖面广但脆弱）与全监督方法（大规模标注语料库，强大但狭窄）之间采取了一个中间立场。通过将检测器锚定到部署领域的一个小样本，我们为模型提供了足够的分布上下文来学习有意义的决策边界，特别是在基于质心的特征空间中（§3.2 (https://arxiv.org/html/2606.14060#S3.SS2)），同时将数据需求保持在足够低的水平以便实际采用。

## 3 方法

为了开发一个鲁棒的检测器，我们假设学习组合拟合在不同互补特征空间上的不同模型的输出，相比于在一个联合模型中学习跨视角的任意特征组合，具有若干优势。首先，通过使用独立的视角特定分类器，攻击者必须同时击败所有视角才能完全规避检测。其次，由于我们必须基于少量确认的真实和伪造数据样本来学习检测器，允许任意特征组合的模型容易对这些特征过拟合，从而泛化能力差。

为此，我们提出了一个用于机器生成文本检测的多视角、非参数框架。给定一个文档 \(x\)，系统 (i) 从 \(K\) 个独立视角 \(\{\varphi_k\}_{k=1}^K\) 提取特征，(ii) 将每个视角投影到一个低维*距离特征*空间，(iii) 为每个视角拟合一个独立的变分高斯过程 (GP) 分类器，(iv) 通过 probit 链接获得每个视角的伯努利概率 \(p_k\)，(v) 聚合这些概率，(vi) 用有限样本假阳性保证校准决策阈值。一个分布外 (OOD) 门控使得当模型遇到训练支持之外的文本时能够进行原则性弃权。

### 3.1 多视角特征提取

我们选择视角的方法很简单：由于各个视角的特征空间不同，迫使攻击者解决一个多目标问题。如图所示，虽然我们使用一个简单的三个视角集合，但我们发现添加更多视角有帮助。每个视角 \(\varphi_k: \mathcal{X} \to \mathbb{R}^{D_k}\) 将原始文本文档映射到一个特征向量，该向量反映了人类写作与机器写作之间的一个不同变异轴。我们使用 \(K=3\) 个视角：

#### 风格视角 (\(D_k=4\))。

由风格表示模型²生成的密集风格计量嵌入，该模型训练用于编码与主题无关的写作风格（Rivera-Soto 等人，2021 (https://arxiv.org/html/2606.14060#bib.bib27)）。这些嵌入捕捉了很大程度上与语义内容正交的词汇和句法指纹。为了避免高维特征带来的挑战，我们基于人类和机器数据拟合质心，并为每个测试点计算与每个质心的距离。

#### 概率视角 (\(D_k=2\))。

一个零样本检测器分数的向量：(1) LogRank 分数，衡量在参考语言模型下的平均 token 秩，(2) FastDetectGPT 分数，估计文档周围的似然曲率。两个分数均使用 Falcon-7B（Almazrouei 等人，2023 (https://arxiv.org/html/2606.14060#bib.bib31)）计算。

#### 结构视角 (\(D_k=8\))。

一个手工制作的文档结构向量，具体包括：

基于多视图高斯过程的非参数机器文本检测

相似文章

机器生成文本中隐藏的类人本质：理论与检测增强

聚光灯与盲区：机器生成文本检测的评估

多层次上下文Token关系建模用于机器生成文本检测

各类AI生成文本检测方法在面对释义攻击时的鲁棒性

对机器文本检测器的攻击保留风格指纹

提交意见反馈