基于多视图高斯过程的非参数机器文本检测
摘要
本文提出了一种非参数多视图高斯过程框架,用于检测机器生成的文本,该框架对诸如释义等对抗性操作具有鲁棒性。通过结合互补特征并提供校准的不确定性,它在保留攻击上优于现有检测器。
arXiv:2606.14060v1 公告类型:新
摘要:对抗性条件(如释义和有针对性的风格迁移)会严重降低机器文本检测器的准确性。然而,文档携带多种互补信号(例如,风格特征、似然度和排序特征、以及结构特征),抑制其中一种信号的攻击可能使其他信号保持完整。虽然参数化分类器在充分监督下可以学会组合这些特征,但当分布发生偏移(例如,新型攻击或未见过的语言模型)时,分类器容易做出自信但错误的预测。为了解决这个问题,我们提出了一个多视图、非参数检测框架,该框架从同一文档中提取互补的特征视图,并通过高斯过程集成聚合每个视图的证据。通过跨视图聚合证据,攻击者必须同时击败多个独立的检测轴,从而显著提高逃避成本。高斯过程公式还提供了校准的概率和对分布外输入的原则性弃权,支持在高风险环境中可靠部署。我们在三个涵盖不同生成器和攻击的基准(DetectRL和RAID基准,以及PAN2025共享任务)上进行了评估,并证明我们的多视图检测器在所考虑的攻擊下保持强劲性能,优于应对保留攻击的现有方法。
查看缓存全文
缓存时间: 2026/06/15 09:09
# 基于多视角高斯过程的非参数机器文本检测
来源:https://arxiv.org/html/2606.14060
Aleem Khan, Nicholas Andrews 计算机科学系 约翰霍普金斯大学 \{aleem,noa\}@cs\.jhu\.edu
###### 摘要
对抗性条件(如改写和定向风格迁移)会严重降低机器文本检测器的准确性。然而,一份文档携带多种互补信号(例如,风格特征、似然性和排序特征、结构特征),压制其中一种信号的攻击可能使其他信号完好无损。虽然参数化分类器在有足够监督的情况下可以学习组合这些特征,但当分布发生偏移(例如,新型攻击或未见语言模型)时,分类器容易做出自信的错误预测。为了解决这个问题,我们提出了一种多视角、非参数的检测框架,该框架从同一份文档中提取互补的特征视角,并通过高斯过程集成聚合每个视角的证据。通过在视角间聚合证据,攻击者必须同时击败多个独立的检测轴线,从而显著提高规避成本。高斯过程公式还提供了校准概率和对分布外输入的原则性弃权机制,支持在高风险场景中可靠部署。我们在涵盖多种生成器和攻击的三个基准测试(DetectRL 和 RAID 基准测试,以及 PAN 2025 共享任务)上进行评估,结果表明,我们的多视角检测器在所考虑的各类攻击下保持强劲性能,在应对未见攻击时优于现有方法。
# 基于多视角高斯过程的非参数机器文本检测
Aleem Khan, Nicholas Andrews
计算机科学系
约翰霍普金斯大学
\{aleem,noa\}@cs\.jhu\.edu
## 1 引言
随着语言模型(LM)能力的增强并广泛为用户所用,LM 生成的文本已变得无处不在,与人类写作难以区分(Comanici 等人,2025 (https://arxiv.org/html/2606.14060#bib.bib1);Grattafiori 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib3);OpenAI 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib2))。尽管 LM 服务于许多积极的应用场景,并已与工作流程紧密交织,但机器生成内容的检测——特别是在高风险领域——越来越受到众多社区的关注(Ippolito 等人,2020 (https://arxiv.org/html/2606.14060#bib.bib15);Gehring and Paaßen,2025 (https://arxiv.org/html/2606.14060#bib.bib40))。随着生成器性能的提升,检测器也在进步:关于机器生成文本检测的研究工作日益增多,产生了零样本统计检验(Bao 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib4);Gehrmann 等人,2019 (https://arxiv.org/html/2606.14060#bib.bib9);Hans 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib5))、训练分类器(Li 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib6);Lee 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib16);Tian 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib17);Hu 等人,2023 (https://arxiv.org/html/2606.14060#bib.bib18))以及商业检测服务(Emi and Spero,2024 (https://arxiv.org/html/2606.14060#bib.bib19))。在受控条件下(即机器文本未经修改或无对抗意图生成),这些检测器实现了高准确率(Hans 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib5))。然而,实际部署引入了一个根本更困难的问题:对抗性条件,即机器文本在到达检测器之前被人或另一个 LM *编辑、重写或混淆*(Thai 等人,2026 (https://arxiv.org/html/2606.14060#bib.bib20))。
对抗性操作有多种形式。在相对简单的情况下,用户可能试图通过提示来修改机器撰写的文档(Patel 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib10))。而在另一方面,更复杂的对手可能微调生成器,以直接针对特定类型的检测器(Nicks 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib13)),或通过代理进行(Wang 等人,2025 (https://arxiv.org/html/2606.14060#bib.bib11);Soto 等人,2025 (https://arxiv.org/html/2606.14060#bib.bib12))。或者,机器文本可能通过一个训练好的释义器来破坏 token 的排名分数(Krishna 等人,2023 (https://arxiv.org/html/2606.14060#bib.bib7)),或多个释义器的流水线,这会放大这种退化。这些攻击利用了不同的脆弱点,但大多数现有检测器依赖单一特征空间,例如在参考语言模型下的 token 级概率(Gehrmann 等人,2019 (https://arxiv.org/html/2606.14060#bib.bib9)),或风格指纹(Soto 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib14)),沿该轴的一次定向编辑就足以规避检测。为了解决检测的多目标性,我们提出了一种多视角、非参数的框架,利用了这一洞见。
我们首先为目标领域构建少量样本支持。我们的方法依赖于从感兴趣领域获得少量人类和机器样本¹。对于每个 \(K\) 个视角(§3.1 (https://arxiv.org/html/2606.14060#S3.SS1)),我们拟合独立的高斯过程分类器,得到自然包含 GP 预测不确定性的概率(§3.3 (https://arxiv.org/html/2606.14060#S3.SS3))。这些概率通过一个次级线性模型聚合,产生最终的校准不确定性(§3.4 (https://arxiv.org/html/2606.14060#S3.SS4))。
我们的贡献如下:(1) 一个多视角检测框架,聚合互补视角以在人类编辑和释义攻击下实现鲁棒检测。(2) 一个高斯过程集成,提供校准的不确定性,并深入分析展示了该方法对各种攻击的鲁棒性。(3) 在多种基准测试(DetectRL 和 RAID 基准测试,以及 PAN 2025 共享任务数据集)上的评估,展示了在单视角检测器失效的对抗条件下表现出色。
## 2 预备知识
### 2.1 对抗条件下的检测仍然困难
随着生成器能力增强和可及性提高,AI 生成和 AI 操控内容的检测已获得研究社区的广泛关注。零样本检测方法使用参考模型对文档评分,其依据是机器生成的文本通常在任何语言模型下更有可能(Mitchell 等人,2023 (https://arxiv.org/html/2606.14060#bib.bib34);Bao 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib4);Hans 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib5);Su 等人,2023 (https://arxiv.org/html/2606.14060#bib.bib8);Yang 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib35))。参数化方法也表现出色,但难以适应新分布(Solaiman 等人,2019 (https://arxiv.org/html/2606.14060#bib.bib38);Li 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib6);Hu 等人,2023 (https://arxiv.org/html/2606.14060#bib.bib18))。水印技术已成为另一种有效的检测方法,但它假设在推理时能够访问模型(Kirchenbauer 等人,2023 (https://arxiv.org/html/2606.14060#bib.bib43))。
近期工作也表明,许多检测方法对一系列攻击和对抗条件存在重大脆弱性,我们复现了这些发现(Soto 等人,2025 (https://arxiv.org/html/2606.14060#bib.bib12);Nicks 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib13);Krishna 等人,2023 (https://arxiv.org/html/2606.14060#bib.bib7))。Nicks 等人(2024)特别强调了一个关键风险,即新的检测方法本身会变成被优化对抗的目标。Sadasivan 等人(2025)证明,反复应用释义攻击会显著降低性能。最近发布的数据集已从严格评估纯机器生成文本转向考虑人类和 LM 可能相互编辑和操纵彼此写作的情况(He 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib44);Artemova 等人,2025 (https://arxiv.org/html/2606.14060#bib.bib37);Dugan 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib23);Wu 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib22))。先前工作表明,在特征提取器上训练的高斯过程是有效的合成语音检测分类器(Glazer 等人,2025 (https://arxiv.org/html/2606.14060#bib.bib26))。与我们的工作最相关的是 Ghostbuster,它组合多个 LM 导出的特征进行检测,应用搜索过程,并应用逻辑回归得到最终答案(Verma 等人,2024 (https://arxiv.org/html/2606.14060#bib.bib36))。我们的方法不同之处在于组合了不同的特征空间,并使用高斯过程,后者能以少量数据量级产生校准的不确定性。
### 2.2 问题陈述
图 1:所提出方法的概述。每个输入 \(x\) 通过三个互补视角表示,并通过视角特定的 GP 转换为概率。然后这三个标量通过逻辑回归投影为一个单一概率。
令 \(\mathcal{X}\) 表示自然语言文档的空间。我们将我们的*检测器*定义为一个函数 \(h: \mathcal{X} \to \{0,1\}\),将文档映射到二值标签,其中 \(y=0\) 表示人类写作的文本,\(y=1\) 表示机器生成或机器操控的文本。
#### 零样本检测。
大多数现有检测器在*零样本*设置下运行:检测器直接应用于测试文档,没有领域特定的训练数据。零样本方法,如对数秩检验、似然曲率估计和交叉困惑度比率,可以在任何生成器的输出上、任何领域、任何攻击下轻松运行,无需适应。然而,这种通用性是有代价的,当测试分布涉及对抗性操作时,性能会显著下降。
#### 我们的设置:少样本、领域锚定检测。
我们采用不同的运行假设。我们假设我们的系统可以访问一个小的领域内文档*支持集*:
\[
\mathcal{S} = \{ (x_i, y_i) \}_{i=1}^N, \quad y_i \in \{0,1\}, \quad N = N_H + N_M.
\]
其中 \(N_H\) 个人类写作文档和 \(N_M\) 个机器生成(和操控)文档来自感兴趣的领域。在我们的主要实验中,我们使用每个类别 \(N_H = N_M = 32\) 个文档,以表示在大多数实际场景中可获得的合理数量(例如,一组已知的人类写作的论文、经过验证的新闻文章或真实的论坛帖子)。我们还考察了随着 \(N\) 增加到 256 时系统性能的变化(图 2 (https://arxiv.org/html/2606.14060#S4.F2))。
至关重要的是,我们对支持集无需反映测试时遇到的*攻击*或*生成器*。这通常符合许多现实世界场景,其中预见到所有可能的生成器或攻击是不可行的。人类样本必须来自目标领域,但机器样本可以由任何可用模型生成,即使与对手的生成器不同。在我们的评估中,我们明确地将攻击类型和源生成器从训练中排除,在跨攻击和跨生成器迁移设置中进行评估。也就是说,我们在一组攻击和生成器上训练(*除了一项*),然后在该设置上评估。我们的关键发现是,基于 GP 的多视角集成能够利用这个小的、可能不匹配的支持集,鲁棒地推广到未见生成器和未见攻击(§4 (https://arxiv.org/html/2606.14060#S4.T4))。
#### 为什么是少样本?
这种公式在零样本范式(无领域数据,覆盖面广但脆弱)与全监督方法(大规模标注语料库,强大但狭窄)之间采取了一个中间立场。通过将检测器锚定到部署领域的一个小样本,我们为模型提供了足够的分布上下文来学习有意义的决策边界,特别是在基于质心的特征空间中(§3.2 (https://arxiv.org/html/2606.14060#S3.SS2)),同时将数据需求保持在足够低的水平以便实际采用。
## 3 方法
为了开发一个鲁棒的检测器,我们假设学习组合拟合在不同互补特征空间上的不同模型的输出,相比于在一个联合模型中学习跨视角的任意特征组合,具有若干优势。首先,通过使用独立的视角特定分类器,攻击者必须同时击败所有视角才能完全规避检测。其次,由于我们必须基于少量确认的真实和伪造数据样本来学习检测器,允许任意特征组合的模型容易对这些特征过拟合,从而泛化能力差。
为此,我们提出了一个用于机器生成文本检测的多视角、非参数框架。给定一个文档 \(x\),系统 (i) 从 \(K\) 个独立视角 \(\{\varphi_k\}_{k=1}^K\) 提取特征,(ii) 将每个视角投影到一个低维*距离特征*空间,(iii) 为每个视角拟合一个独立的变分高斯过程 (GP) 分类器,(iv) 通过 probit 链接获得每个视角的伯努利概率 \(p_k\),(v) 聚合这些概率,(vi) 用有限样本假阳性保证校准决策阈值。一个分布外 (OOD) 门控使得当模型遇到训练支持之外的文本时能够进行原则性弃权。
### 3.1 多视角特征提取
我们选择视角的方法很简单:由于各个视角的特征空间不同,迫使攻击者解决一个多目标问题。如图所示,虽然我们使用一个简单的三个视角集合,但我们发现添加更多视角有帮助。每个视角 \(\varphi_k: \mathcal{X} \to \mathbb{R}^{D_k}\) 将原始文本文档映射到一个特征向量,该向量反映了人类写作与机器写作之间的一个不同变异轴。我们使用 \(K=3\) 个视角:
#### 风格视角 (\(D_k=4\))。
由风格表示模型²生成的密集风格计量嵌入,该模型训练用于编码与主题无关的写作风格(Rivera-Soto 等人,2021 (https://arxiv.org/html/2606.14060#bib.bib27))。这些嵌入捕捉了很大程度上与语义内容正交的词汇和句法指纹。为了避免高维特征带来的挑战,我们基于人类和机器数据拟合质心,并为每个测试点计算与每个质心的距离。
#### 概率视角 (\(D_k=2\))。
一个零样本检测器分数的向量:(1) LogRank 分数,衡量在参考语言模型下的平均 token 秩,(2) FastDetectGPT 分数,估计文档周围的似然曲率。两个分数均使用 Falcon-7B(Almazrouei 等人,2023 (https://arxiv.org/html/2606.14060#bib.bib31))计算。
#### 结构视角 (\(D_k=8\))。
一个手工制作的文档结构向量,具体包括:相似文章
机器生成文本中隐藏的类人本质:理论与检测增强
本文揭示了机器生成文本中隐藏的类人片段的存在,并提出了一种与模型无关的堆叠增强框架,通过减少这些片段的影响来改进现有检测器。
聚光灯与盲区:机器生成文本检测的评估
# 聚光灯与盲区:机器生成文本检测的评估 来源:[https://arxiv.org/html/2604.16607](https://arxiv.org/html/2604.16607) ###### 摘要 随着生成式语言模型的兴起,机器生成文本检测已成为一项关键挑战。尽管模型种类繁多,但不一致的数据集、评估指标和评估策略使得模型有效性的比较变得模糊。为此,我们从...
多层次上下文Token关系建模用于机器生成文本检测
本文提出了一种用于机器生成文本检测的多层次上下文Token关系建模框架,融合局部马尔可夫信息校准与全局规则支撑推理,以低计算开销提升跨大语言模型和跨领域场景下的检测性能。
各类AI生成文本检测方法在面对释义攻击时的鲁棒性
本文研究了AI生成文本检测方法(微调后的RoBERTa、Binoculars、文本特征分析及其集成方法)在面对释义攻击时的鲁棒性。研究发现,包含Binoculars的集成方法效果最强,但在攻击中损失也最大,揭示了性能与鲁棒性之间的二分法。
对机器文本检测器的攻击保留风格指纹
本文研究了对机器文本检测器的规避攻击,发现虽然当前攻击会降低检测器性能,但风格指纹仍然存在。一种模仿人类风格的新型释义方法能够规避甚至基于风格的检测器,但多文档分析可恢复可检测性。