多层次上下文Token关系建模用于机器生成文本检测

arXiv cs.CL 2026/05/18 04:00 论文

摘要

本文提出了一种用于机器生成文本检测的多层次上下文Token关系建模框架，融合局部马尔可夫信息校准与全局规则支撑推理，以低计算开销提升跨大语言模型和跨领域场景下的检测性能。

arXiv:2605.16107v1 公告类型：新摘要：机器生成的文本（MGT）会带来虚假信息和网络钓鱼等风险，凸显了可靠检测的必要性。基于度量的方法通过提取MGT的统计可区分特征，通常比易过拟合的复杂模型方法更具实用性。鉴于其设计多样，我们首先将代表性基于度量的方法置于统一框架中，从而清晰评估其优势与局限。我们的分析揭示了这些方法面临的核心挑战：Token级检测分数易受MGT生成过程中固有随机性的偏差。接着，我们从理论上推导Token级检测分数的多跳转移，并探究其局部与全局关系。基于这些发现，我们提出了一种用于MGT检测的多层次上下文Token关系建模框架。具体而言，对于局部关系，我们通过轻量级马尔可夫信息校准模块进行建模，该模块在聚合前优化Token级证据。对于全局关系，我们引入规则支撑推理模块，利用从上下文分数统计中推导出的显式逻辑规则。最后，我们在联合多层次推理框架中结合局部校准分数与全局规则支撑推理信号。大量实验表明，该方法在包括跨大语言模型和跨领域设置在内的多种实际场景中，以低计算开销实现了广泛且显著的性能提升。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:36

# 多层上下文词元关系建模用于机器生成文本检测 来源：https://arxiv.org/html/2605.16107 文件.aux 陈望武、张永明、韩博、张书海、连德福 陈望武、张永明、韩博隶属于香港浸会大学计算机科学系，中国香港。电子邮箱：{cscwwu, ymc, bhanml}@comp.hkbu.edu.hk。张书海隶属于华南理工大学软件工程学院，中国广东广州 510000。电子邮箱：[email protected]。连德福隶属于中国科学技术大学计算机科学与技术学院，中国安徽合肥 230000。他还隶属于认知智能国家重点实验室。电子邮箱：[email protected]。通讯作者：张永明。 ###### 摘要 机器生成文本 (MGT) 带来了诸如虚假信息和钓鱼攻击等风险，凸显了可靠检测的必要性。基于度量的方法提取 MGT 的统计可区分特征，通常比容易过拟合的复杂基于模型的方法更实用。鉴于其设计多样，我们首先将代表性的基于度量的方法置于一个统一框架内，从而能够清晰评估其优势与局限。我们的分析识别出这些方法面临的核心挑战：词元级别的检测分数容易因 MGT 生成过程中的固有随机性而产生偏差。然后，我们从理论上推导了词元级检测分数的多跳转移，并探索了它们的局部与全局关系。基于这些发现，我们提出了一个用于 MGT 检测的多层上下文词元关系建模框架。具体而言，对于局部关系，我们通过一个轻量级的马尔可夫信息校准模块进行建模，该模块在聚合前细化词元级证据。对于全局关系，我们引入了一个规则支持推理模块，该模块利用从上下文分数统计中导出的显式逻辑规则。最后，我们将局部校准分数与全局规则支持推理信号结合在一个联合的多层推理框架中。大量实验表明，在包括跨 LLM 和跨领域设置在内的各种真实世界场景中，该方法均实现了广泛且显著的改进，且计算开销低。 ## I. 引言 以大型语言模型 (LLM) 为代表的生成式 AI 正在快速发展，其生成的机器生成文本 (MGT) 在流畅性、连贯性和多样性上往往与人类书写不相上下。虽然这一技术突破带来了巨大机遇，但也引发了广泛的社会担忧，包括虚假信息的传播、知识产权的侵犯以及钓鱼攻击。因此，MGT 检测技术的研究与开发对于揭示生成文本的独特模式、确保可信 AI 环境具有重要的理论和实践价值。 一种有效的检测方法是识别 LLM 水印，但这需要向 LLM 注入水印，由于权限要求高，通常难以实现。因此，被动检测方法（包括基于模型和基于度量的方法）受到了广泛关注。基于模型的方法使用一组人类和机器生成的文本来训练二元分类器，例如 OpenAI 检测器、ChatGPT 检测器、SeqXGPT 和 CoCo。然而，此类模型通常过于复杂，容易对训练数据过拟合。相比之下，基于度量的方法利用 LLM 固有的统计偏差来区分 MGT，这种方法是模型无关的，具有更好的泛化性能。这些方法使用诸如对数似然、对数排名和熵等度量。此外，DetectGPT、FastDetectGPT 和 Binoculars 等方法通过比较给定文本与来自替代模型的扰动、重生成或续写文本之间的差异来检测 MGT。 尽管设计多样，本文首先系统性地考察了几种代表性方法，包括 Log-Likelihood、Entropy、Binoculars、DetectGPT、FastDetectGPT 和 DNA-DetectLLM，并将它们置于一个统一框架内，从而揭示了它们的共性：它们首先计算词元级别的检测分数，然后采用各种精心设计的策略将这些分数聚合成文本级分数，以做出基于阈值的决策。这种统一视角揭示了现有方法面临的一个共同挑战：词元级分数容易因 LLM 生成过程的固有随机性而产生偏差，而后续的聚合步骤未能纠正底层的不精确性。因此，检测性能受到词元级分数精度的紧密约束。 鉴于词元级分数与生成过程相关且依赖于上下文，一个自然的问题是：我们能否显式地揭示并利用词元级检测分数之间的上下文关系来改进检测？在我们初步的工作中，我们从局部角度尝试回答了这个问题。从简化 Transformer 中注意力分数演化的理论界出发，我们得出了关于局部上下文关系的两个重要发现：*邻居相似性*，即相邻词元往往表现出相似的检测分数；以及*初始不稳定性*，即早期位置的词元分数比后期更不稳定。基于这两个观察，我们提出了一种马尔可夫信息分数校准方法，通过成对马尔可夫随机场对局部上下文依赖进行建模，并通过均值场近似高效实现。该校准模块可以叠加在现有检测器之上，在最终聚合前细化词元级分数，从而以可忽略的计算开销改进检测。 然而，纯局部的上下文建模仍然不够。虽然它能纠正短程分数偏差，但无法充分捕捉词元级分数在文本中的全局组织。因此，在本文中，我们超越了局部上下文关系，提出了用于 MGT 检测的多层上下文词元关系建模。具体而言，我们将理论结果从注意力分数扩展到更直接的词元分数，从单跳局部转移扩展到多跳上下文关系。这揭示了远距离位置之间的分数差异也具有结构边界，而非任意。这意味着全局上下文关系：在非初始文本段中，词元分数表现出全局关系，包括 MGT 的*分数稳定性*、*相邻差异稳定性*和*长程稳定性*。此外，本文引入了一个规则支持推理模块来建模这些关系。具体来说，基于这些关系，我们从文本中提取相应的全局统计量并构建逻辑规则；然后采用规则支持推理导出一个置信度分数，该分数补充了来自我们初步工作的局部校准分数。这样，局部马尔可夫校准提高了词元级分数的质量，而全局规则支持推理模块提供了一个置信度分数来增强检测，共同形成一个统一的用于 MGT 检测的多层上下文词元关系建模框架。 除了初步工作中关于分数校准的贡献外，本文还进一步做出了以下贡献： - • 将理论分析从注意力分数扩展到更直接的词元分数，从单跳扩展到更一般的多跳转移，从而揭示了词元级分数之间的全局上下文关系。 - • 提出了一个规则支持推理模块，通过从全局统计量构建逻辑规则来显式捕捉这些全局关系。 - • 提出了一个多层框架，通过整合局部马尔可夫校准和全局规则支持推理来建模上下文词元关系，以增强 MGT 检测。 - • 大量实验证明了所提方法在各种真实世界场景中的有效性，包括跨 LLM 泛化、跨域迁移、对抗/改述设置和混合文本检测。 ## II. 相关工作 本节概述现有的检测方法，可分为主动水印方法和被动模型与度量方法。 ### II-A. 基于水印的检测 水印是一种主动防御技术，在文本生成过程中嵌入可验证信息，从而实现简单可靠的检测。RedList 是一种模型无关的水印方法，根据前文上下文动态将词汇表分为“绿名单”和“红名单”，略微增加从绿名单采样词元的概率。后续工作对此方法进行了各种改进。例如，SemStamp 引入句子级语义哈希水印，增强对抗改述攻击的鲁棒性；DiPmark 设计了无偏水印，不改变原始输出分布。REMARK-LLM 是一种基于训练的水印方法，在推理前使用消息编码模块生成加密的词元分布以嵌入水印。除了手动设计的水印，直接利用语言模型学习生成带水印的文本也很有前景。 ### II-B. 基于模型的检测 基于模型的方法代表了一种经典的检测范式，在包含人类和机器生成文本的数据集上训练二元分类器。一系列工作，如 OpenAI Detector、ChatGPT Detector、GPTZero 和 G3 Detector，收集各种 LLM 生成的文本以训练统一分类器。GPT-Pat 发现仅使用单一解码策略训练的检测器泛化能力差，因此通过利用混合解码策略来提升性能。除了原始数据，GLTR 通过分析每个词在其上下文中的预测排名来训练简单的逻辑回归分类器。SeqXGPT 将对数概率序列视为波形信号进行检测。除了数据层面，近期工作探索了更先进的训练策略。例如，LLMDet 利用代理模型的困惑度作为额外特征；MPU 采用正无标签学习范式；RADAR 引入对抗训练以增强模型鲁棒性。上述方法通常假设已知文本来源，但当来源未知时，Ghostbuster 提出直接在已知代理模型生成的文本上训练分类器。此外，DGM4 结合图像模态的对比学习以捕捉更细粒度的数据特征。 表 I：从统一视角比较现有基于度量的检测方法。这里，\(s\) 是待检测文本，包含 \(N\) 个词元；\(s'\) 是由 DetectGPT 生成的扰动文本；\(\tilde{s}\) 是 Fast-DetectGPT 的重生成文本；\(s^*\) 是 DNA-DetectLLM 的理想文本。函数 \(\mu(\cdot)\) 和 \(\sigma(\cdot)\) 分别表示给定集合的均值和标准差。对于原始分数方向不同的方法，我们应用符号归一化，使得更大的分数一致地表示更可能为 MGT。 ### II-C. 基于度量的检测 基于度量的方法不需要在特定数据集上训练，而是直接利用语言模型生成文本固有的统计偏差或内在属性来进行区分。早期研究主要依赖词元级概率统计，如 Log-Likelihood、Log-Rank 和 Entropy 及其变体。除了这些直接评分方法，基于扰动或重写的方法通过比较原始文本与扰动、续写或改写变体来检测机器生成文本，包括 DetectGPT、Fast-DetectGPT、DNA-GPT、DetectGPT4Code、SimLLM 和 L2D。越来越多的工作探索文本表示中更深层的内在信号。这些包括内在维度、词元连贯性、词汇空间分布差距、代理模型激活特征、词元概率的时间模式、相对概率谱以及风格感知的不确定性。更近的方法进一步建模更高层次的结构和鲁棒性：DETree 捕捉人机混合文本中的层次聚类关系；DNA-DetectLLM 测量将文本转化为理想机器生成序列所需的修复努力；基于 OOD 的方法通过将人类文本视为分布外样本来改进泛化。

多层次上下文Token关系建模用于机器生成文本检测

相似文章

DetectRL-X：面向可靠的多语言及真实世界的LLM生成文本检测

G^2C-MT：基于图引导的文档级机器翻译上下文选择

对数似然、辛普森悖论与机器生成文本的检测

机器生成文本中隐藏的类人本质：理论与检测增强

MELD：用于AI生成文本的多任务均衡学习检测器

提交意见反馈