对数似然、辛普森悖论与机器生成文本的检测

arXiv cs.CL 论文

摘要

本文通过指出基于似然的机器生成文本检测器在 token 分数聚合中存在的辛普森悖论,解决了此类检测器性能下降的问题。本文提出了一种学习到的局部校准步骤,显著提升了各种模型和数据集上的检测性能。

arXiv:2605.06294v1 公告类型:new 摘要:可靠地区分人类撰写文本与大型语言模型生成文本的能力具有深远的社会意义。解决此问题的主流方法利用了对数似然假设:即机器生成的文本对于检测器语言模型而言,其出现概率应高于人类撰写文本。然而,我们证明,区分人类文本与机器文本的 token 级信号在检测器模型的隐藏空间中分布不均;正如大多数检测器所做的那样,如果在具有根本不同统计结构的区域之间简单地平均基于似然的 token 分数,会导致一种形式的辛普森悖论:强烈的局部信号因不当聚合而被破坏。为此,我们引入了一种基于贝叶斯决策理论的学习型局部校准步骤。与其直接聚合原始 token 分数,我们首先学习轻量级的预测器,以预测条件于隐藏空间中位置的分数分布,进而聚合经过校准的对数似然比。这一单一干预措施在所有基线检测器和我们所考虑的所有数据集中,都显著且一致地提高了检测性能。例如,在 GPT-5.4 生成的文本上,Fast-DetectGPT 的校准变体将 AUROC 从 $0.63$ 提升至 $0.85$;我们引入的一种局部校准 DMAP 检测器也在各方面实现了最先进的性能。尽管如此,我们的核心贡献并非提出一种新的检测器,而是精确诊断出现有检测器性能不佳的一个重要原因,并提供了一种原则性强、模块化且兼容任何基于 token 平均的管道的补救措施。这将为社区提供坚实的基础,未来的自然发展方向包括更丰富的分布模型、改进的校准策略,以及通过完整的贝叶斯最优决策规则与隐藏空间几何信号进行原则性的集成。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:39

# 对数似然、辛普森悖论与机器生成文本的检测

来源: https://arxiv.org/html/2605.06294

Tom Kempton
曼彻斯特大学 数学系
[email protected]

&

Viktor Drobnyi
Visa Inc. 风险与安全 AI 实验室
[email protected]

Maeve Madigan
Visa Inc. 风险与安全 AI 实验室
[email protected]

&

Stuart Burrell
Visa Inc. 风险与安全 AI 实验室
[email protected]

###### 摘要

可靠地区分人类撰写文本与大语言模型生成文本的能力具有深远的社会意义。解决这一问题的主流方法利用了**似然假设**(likelihood hypothesis):即机器生成的文本对于检测语言模型而言,应比人类撰写的文本表现出更高的概率。然而,我们证明,区分人类和机器文本的 token 级别信号在检测模型的隐藏空间(hidden space)中并非均匀分布。正如大多数检测器所做的那样,如果在具有根本不同统计结构的区域之间简单地平均基于似然的 token 分数,就会导致一种**辛普森悖论**(Simpson’s paradox):强烈的局部信号因不恰当的聚合而被破坏。

为了纠正这一问题,我们引入了一步基于贝叶斯决策理论的**学习式局部校准**(learned local calibration)。与其聚合原始 token 分数,我们首先学习条件于隐藏空间位置的分数分布的轻量级预测器,并聚合校准后的对数似然比。这一单一干预措施在所有基线检测器和所有我们考虑的数据集上,都显著且一致地提高了检测性能。例如,我们校准版的 Fast-DetectGPT 在 GPT-5.4 文本上的 AUROC 从 0.63 提升至 0.85,而我们提出的一种局部校准的 DMAP 检测器则在各方面均达到了最先进的性能。

尽管如此,我们的核心贡献并非提出一种新的检测器,而是精确诊断了现有检测器性能不佳的一个主要原因,并提供了一种原则性强、模块化且兼容任何 token 平均流水线的补救措施。这将为社区构建基础,自然的发展方向包括更丰富的分布模型、改进的校准策略,以及通过完整的贝叶斯最优决策规则与隐藏空间几何信号进行原则性的集成。

**图 1 说明:** 机器生成文本检测器的性能似乎正在随时间退化。这些示意性图表展示了 Fast-DetectGPT 在三代指令微调模型(ChatGPT 3.5、GPT-4 和 GPT-5.4)生成的人类和机器文本上的得分。人类与机器得分分布之间的分离程度在几代模型中显著恶化,AUROC 从 GPT-3.5 上的 0.96 降至 GPT-5.4 上的 0.62。我们将此归因于前沿模型中过度自信(overconfidence)的逐步缓解,这削弱了基于似然的检测器所依赖的 token 级别信号。第 5 节和附录 E 中的广泛实验提供了进一步证据,表明这种退化现象突显了对有效新检测方法的需求。

## 1 引言

检测机器生成文本的主流方法建立在**似然假设**之上:由语言模型产生的文本,在检测模型下应比人类撰写的文本表现出更高的概率,这反映了生成器倾向于选择高概率 token 的特性。这一信号催生了一代检测器(Gehrmann et al., 2019; Mitchell et al., 2023; Bao et al., 2023; Hans et al., 2024; Su et al., 2023; Zeng et al., 2024),人们付出了巨大努力以尽可能有效地提取该信号。然而,在实践中,似然假设正在减弱,随着生成文本的模型性能提升,基于似然的检测器性能严重下降;见图 1 和附录 G。

Kempton et al. (2026) 指出,似然假设在检测由预训练语言模型纯采样生成的文本时失效;当似然假设成立时,要么是因为文本是使用 top-k 或温度采样等旨在避免低概率 token 的采样方法生成的,要么是因为文本是由过度自信的指令微调语言模型生成的。关于如何最优检测 top-k 和温度采样文本的问题已在 Kempton et al. (2025) 中解决;因此,本文重点关注检测来自指令微调模型的文本,包括现代闭源前沿模型,如 GPT-5.4 (OpenAI, 2025)、Gemini 3.1 Pro (Google DeepMind, 2026) 和 Claude Sonnet 4.6 (Anthropic, 2026)。

具体而言,我们的贡献受到文献中以下三项近期进展的启发,我们在附录 A 中对此进行了进一步阐述:

1.  **指令微调模型因过度自信而满足似然假设。** Kempton et al. (2026) 论证,似然假设对指令微调模型继续成立的原因是,指令微调导致的广泛观察到的过度自信现象,表现为指令微调模型向检测模型认为可能的 token 产生 token 级别偏差。
2.  **过度自信的程度在隐藏空间中变化。** Xie et al. (2024) 表明,指令微调模型的过度自信并非均匀呈现。特别是,他们证明,当所选温度作为最终隐藏层激活向量的函数而变化时,使用温度采样重新校准模型更为有效。
3.  **人类和机器生成的文本占据隐藏空间的不同部分。** Chen et al. (2025) 表明,可以通过检查检测模型隐藏空间中的激活向量来区分人类和机器文本,人类和机器生成的文本通常占据隐藏空间的不同区域。

**图 2 说明:**
*   **上图:** 单个示意性示例,展示对数似然景观的几何形状如何随隐藏空间和来源(人类 vs. GPT-5.4)而变化。
*   **下图:** 对来自 RAID (Dugan et al., 2024) 的 4,000 篇文本的系统性分析。虽然人类文本的平均对数似然低于 GPT-5.4(-3.22 vs. -3.05),但在隐藏空间的某些区域,这种关系会反转,且跨越 50 个 k-means 聚类的变异*超过*了来源*之间*的变异。这表明,通过隐藏空间区域背景化 token 对数似然,为检测提供了宝贵的未开发信号。有关如何重现这些图表的详细信息见附录 D。

综上所述,这些观点表明我们面临**辛普森悖论**的风险,即在异质亚组之间的聚合会破坏局部信号。医疗保健中存在一个经典插图:医院 A 可能在疾病轻微和严重病例中的存活率都高于医院 B,但医院 B 的总体存活率可能更高,仅仅是因为它治疗的比例更多的轻微病例具有较低的基准死亡率。我们在图 2 中展示了类似的现像困扰着基于似然的检测器:区分人类和机器文本的 token 级别信号在隐藏空间的不同区域变化显著,而对这些区域的简单平均会抑制该信号,因为在聚合中占主导地位的区域中,信号较弱甚至反转。强烈的局部信号确实存在,但当前的检测器未能利用它们。

在本文中,我们使用熟悉的术语“辛普森悖论”作为真正辛普森悖论以及在异质条件分数分布下聚合失败的更广泛情况的简称。我们通过向标准机器生成文本检测流水线中插入额外步骤来验证这一想法。除了计算 token 级别分数、聚合然后阈值化之外,我们在聚合之前添加了一个学习式局部校准层,从而防止了由于隐藏空间不同部分的基础统计不同导致的失真问题;见图 3。

我们的结果强烈证实,最先进的检测器由于我们描述的问题而表现不佳,并且学习式局部校准步骤显著提高了各种最先进(SOTA)检测器的性能。例如,我们通过纳入局部校准步骤,将 Fast-DetectGPT 在 GPT-5.4 生成文本上的 AUROC 从 0.63 提高到 0.85。我们表现最好的方法,一种基于 DMAP (Kempton et al., 2026) 的局部校准检测器,优于所有基线。

#### 主要贡献

*   **展示似然假设的减弱。** 我们证明,随着前沿模型中过度自信的缓解,现代检测器的性能正在下降。
*   **确定现代检测器性能不佳的主要原因。** 我们展示了类似辛普森悖论的现象如何导致现代检测器因隐藏空间中 token 级别分数的非均匀性而表现不佳。
*   **引入可学习的局部校准作为缓解策略。** 基于贝叶斯决策理论,我们推导出一个原则性的校准步骤,该步骤学习条件于隐藏空间位置的 token 分数分布的局部估计,并聚合校准后的对数似然比以替代原始 token 分数。
*   **验证学习式局部校准器显著改善检测。** 在所有考虑的基线检测器和数据集中,在分数聚合之前插入局部校准步骤可带来 AUROC 的大幅且一致的增益,局部校准的 DMAP 检测器在各方面均实现了最先进性能。

我们要强调的是,我们的主要目标不是提出一种新的检测器,而是隔离并纠正现有检测器聚合信息方式中的一个根本缺陷。我们引入的局部校准步骤故意保持轻量级、理论扎实且与架构无关:它可以以最小的开销插入任何 token 平均检测流水线。我们故意避免大量的超参数调整或特定数据集的优化,正是因为我们希望证明增益源于纠正统计病理,而非针对特定基准的过度工程化。通过确定检测器性能不佳的根本原因并提供模块化补救措施,我们为社区进一步优化奠定了基础。

**图 3 说明:**
*   **左图:** 标准检测流水线直接聚合原始每个 token 的分数,这可能导致人类和现代 GPT-5.4 文本的分布严重重叠(AUROC 0.56)。
*   **右图:** 我们的流水线在聚合之前插入局部校准步骤,产生良好分离的分布(AUROC 0.91)。这种改进反映了辛普森悖论:token 分数在隐藏空间区域中具有异质的局部统计特性,而朴素聚合掩盖了潜在信号。

## 2 相关工作

#### 基于似然的检测

机器生成文本检测器中最广泛使用的信号是**每个 token 的对数似然** (Gehrmann et al., 2019),它接受文本 $w_1 \cdots w_n$ 和检测语言模型 $p$,并计算 $\frac{1}{n} \sum_{i=1}^{n} \log(p(w_i | w_1 \cdots w_{i-1}))$。**每个 token 的对数排名**(per-token log-rank)类似,用 token $w_i$ 在由 $p(\cdot | w_1 \cdots w_{i-1})$ 按概率降序排列的词汇表中的排名替换似然。两者都利用了似然假设:机器生成的文本应比人类撰写的文本在检测模型的概率分布中占据更高位置。

#### token 级别分数的背景化

原始似然和对数排名分数的一个自然局限性是,它们在不同的写作风格和领域之间变化很大;诗歌中的下一个 token 本质上比化学教科书中的更难预测。DetectGPT (Mitchell et al., 2023) 通过从文本的对数似然中减去相同内容替代短语的预期对数似然来解决这个问题。Fast-DetectGPT、DetectLLM、Binoculars 和 DMAP 都建立在这个背景化思想之上 (Bao et al., 2023; Su et al., 2023; Hans et al., 2024; Kempton et al., 2026)。虽然 DMAP 最初并未作为机器生成文本检测器提出,但它提供了具有良好理解统计特性的对数排名背景化推广,使其非常适合我们的框架;我们在附录 C 中对其进行了调整以产生检测器。

#### 互补方法

利用对数似然序列中模式的方法 (Sun et al., 2026; Luo et al., 2026)、特定解码策略的统计特征 (Kempton et al., 2025),以及嵌入空间中人类和机器文本之间的几何差异 (Tulchinskii et al., 2024; Chen et al., 2025) 提供了 largely 正交于似然信号的信号,使它们成为与基于似然的方法进行集成的自然候选者。

#### 零样本与监督检测

上述检测器是零样本的:无需标记的训练数据即可产生分数,尽管需要标记集来学习决策阈值。监督方法直接将检测视为分类任务。DALD (Zeng et al., 2024) 占据中间地位,在应用 Fast-DetectGPT 评分过程之前,微调检测模型以更好地匹配目标生成器的统计特性。我们的方法在精神上最接近 DALD,但我们不是微调检测模型以实现白盒性能,而是校准 token 级别分数的解释。

## 3 用贝叶斯决策理论校准分数函数

假设我们有一篇文本 $w_1 \cdots w_n$,我们希望将其分类为人类撰写或机器生成。令 $x = w_1 \cdots w_n$ 且 $x_i = w_i | w_1 \cdots w_{i-1}$。

#### 标准流水线

token 级别分数函数的工作方式如下。文本通过检测语言模型运行,每个 token 被分配一个分数 $g(x_i)$

相似文章

聚光灯与盲区:机器生成文本检测的评估

arXiv cs.CL

# 聚光灯与盲区:机器生成文本检测的评估 来源:[https://arxiv.org/html/2604.16607](https://arxiv.org/html/2604.16607) ###### 摘要 随着生成式语言模型的兴起,机器生成文本检测已成为一项关键挑战。尽管模型种类繁多,但不一致的数据集、评估指标和评估策略使得模型有效性的比较变得模糊。为此,我们从...

LLMSniffer:通过GraphCodeBERT和监督对比学习检测大模型生成代码

arXiv cs.CL

LLMSniffer是一个检测框架,通过监督对比学习微调GraphCodeBERT来区分AI生成的代码和人工编写的代码,在GPTSniffer和Whodunit基准测试上分别达到78%和94.65%的准确率。该方法通过结合代码结构感知嵌入、对比学习和注释移除预处理,解决了学术诚信和代码质量保证方面的关键挑战。

令牌统计揭示多轮大语言模型交互中的对话漂移

arXiv cs.CL

本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。