AEyeDE:一种基于注意力归因的AI生成文本检测框架

arXiv cs.CL 论文

摘要

AEyeDE是一个基于注意力归因的框架,它使用代理Transformer模型从文本中提取注意力图,并训练轻量级CNN来区分人类撰写与AI生成的文本,性能优于纯文本基线,并且在各种设置下表现出鲁棒性。

arXiv:2606.00016v1 公告类型:新 摘要:检测AI生成的文本变得越来越具有挑战性,因为现代语言模型已达到接近人类的流畅度,并且可以避开依赖表面统计或基于似然信号的检测器。我们提出AEyeDE,一种利用模型注意力作为判别信号的归因驱动的人机作者身份检测方法。具体来说,我们使用具有白盒访问权限的代理Transformer模型提取人类和AI生成文本的基于注意力的归因矩阵,并训练轻量级卷积神经网络从这些归因图中学习表示。在编码器-解码器翻译设置中,我们的方法始终优于仅文本基线。在仅解码器设置中,它在生成器特定检测中表现强劲,在标准基准上保持竞争力,并且在跨数据集迁移和替代拼写扰动下表现出鲁棒性。我们进一步表明,注意力图呈现出重复的局部结构,这些结构在不同数据集和代理模型中,人类与AI生成文本之间的相对频率存在一致差异。这些发现表明,基于注意力的归因图为AI生成文本检测提供了互补且可解释的信号。我们将公开代码以支持未来研究。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:34

# AEyeDE:一种基于注意力的归因框架,用于AI生成文本检测
来源:https://arxiv.org/html/2606.00016

Aria Nourbakhsh  
aria\.nourbakhsh@uni\.lu  
Department of Computer Science  
University of Luxembourg

Adelaide Danilov¹  
adelaide\.danilov\.002@student\.uni\.lu  
Department of Computer Science  
University of Luxembourg

Christoph Schommer  
christoph\.schommer@uni\.lu  
Department of Computer Science  
University of Luxembourg

Salima Lamsiyah  
salima\.lamsiyah@uni\.lu  
Department of Computer Science  
University of Luxembourg

###### 摘要  

检测AI生成文本正变得越来越具有挑战性,因为现代语言模型已接近人类水平的流畅度,并且能够规避依赖表面统计量或基于概率信号的检测器。我们提出**AEyeDE**,一种基于归因驱动的人机作者身份检测方法,利用模型注意力作为判别信号。具体而言,我们使用一个具有白盒访问的*代理*Transformer模型,提取人工和AI生成文本的基于注意力的归因矩阵,并训练一个轻量级卷积神经网络,从这些归因图谱中学习表征。在编码器-解码器的翻译场景下,我们的方法始终优于纯文本基线。在仅解码器的场景下,它在生成器特定检测中表现强劲,在标准基准测试中保持竞争力,并在跨数据集迁移和替代拼写扰动下展现出鲁棒性。我们进一步表明,注意力图谱表现出重复出现的局部结构,这些结构在不同数据集和代理模型中的相对频率在人工和AI生成文本之间存在显著差异。这些发现表明,基于注意力的归因图谱为AI生成文本检测提供了一种互补且可解释的信号。我们将公开发布代码以支持未来研究。

## 1 引言  

大型语言模型(LLMs)的出现,使得在广泛领域和语言中生成连贯、上下文感知且类似人类的文本成为可能(Naveed et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib39); Chang et al., 2024 (https://arxiv.org/html/2606.00016#bib.bib40))。尽管这些进步带来了显著的好处,但它们也引发了与信息完整性、作者身份和滥用相关的重大挑战,包括新闻业中的大规模虚假信息、教育环境中的学术不端行为——自动化内容生成威胁着社会信任、原创性和评估有效性(Dugan et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib26); Wu et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib42); Liu et al., 2024b (https://arxiv.org/html/2606.00016#bib.bib25); Ali et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib62); Huang et al., 2025b (https://arxiv.org/html/2606.00016#bib.bib32); Bittle and El-Gayar, 2025 (https://arxiv.org/html/2606.00016#bib.bib43))。为此,人们提出了多种AI生成文本检测方法,包括:利用困惑度、突发性和n-gram重复等线索的表面统计方法(Gehrmann et al., 2019 (https://arxiv.org/html/2606.00016#bib.bib31); Ippolito et al., 2020 (https://arxiv.org/html/2606.00016#bib.bib53));通过扰动或重采样探究模型概率分布变化的基于概率的方法(Mitchell et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib36); Bao et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib12));在标记数据上微调Transformer编码器的监督分类器(Li et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib49); Zhu et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib63));以及嵌入可检测信号用于来源归因的水印技术(Kirchenbauer et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib48); Liu et al., 2024a (https://arxiv.org/html/2606.00016#bib.bib19))。然而,每种范式都有其固有的局限性:随着LLMs通过RLHF等技术优化以模仿人类分布(Christiano et al., 2017 (https://arxiv.org/html/2606.00016#bib.bib54)),统计和基于概率的检测器性能下降;监督分类器在领域迁移和未见生成器下表现不佳(Uchendu et al., 2021 (https://arxiv.org/html/2606.00016#bib.bib29));水印技术需要模型侧合作,且易受释义、后编辑或部分重用的攻击(Liu et al., 2024a (https://arxiv.org/html/2606.00016#bib.bib19); Wang et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib21); Niess and Kern, 2025 (https://arxiv.org/html/2606.00016#bib.bib23); Ahn et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib5))。因此,鲁棒检测仍然是一个开放挑战,不断受到生成质量提升和对抗性规避策略的影响(Wu et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib42); 2024 (https://arxiv.org/html/2606.00016#bib.bib34))。

这些挑战促使我们转变思路:从检测*写了什么*,转向分析*文本是如何产生的*。特别是,我们假设令牌之间的交互结构比一维令牌级统计量(如排名、概率或困惑度)提供了更丰富的检测信号。纯文本检测器,无论是统计的还是神经网络的,都在生成的序列本身上操作。相比之下,基于注意力的归因图谱捕捉了代理Transformer在内部处理该序列的方式,揭示了令牌交互的二维关系结构。这种表示可以保留高阶局部规律性,而这些规律性无法直接从表面形式统计中观察到。因此,我们研究这些归因模式是否能为区分人工和AI生成文本提供更鲁棒且更可迁移的信号。

为了验证这一假设,我们引入了**AEyeDE**,一种基于归因的检测框架,它直接操作从Transformer模型(Vaswani et al., 2017 (https://arxiv.org/html/2606.00016#bib.bib38))中提取的注意力归因图谱。给定观察到的文本\(x\)(人工或AI生成),AEyeDE将\(x\)通过一个固定的*代理*模型\(G_{\theta}\)(具有白盒访问权限),并导出注意力归因矩阵(第3节 (https://arxiv.org/html/2606.00016#S3))。我们使用带有注意力池化的多尺度卷积编码器处理归因图谱,以获得用于作者身份分类的紧凑嵌入(图1 (https://arxiv.org/html/2606.00016#S3.F1)),从而使检测器对纯粹的词汇或风格变化不那么敏感。除了预测性能之外,这种方法还允许对习得的归因结构进行可解释的分析。为此,我们分析了CNN归因编码器在注意力图谱中捕捉到的内容。对其最后一个卷积阶段特征空间中的\(8 \times 8\)块进行聚类,揭示了重复出现的局部模式(*motifs*),这些模式在不同数据集和代理模型之间的出现频率在人工和AI生成文本中存在差异。这表明作者身份在代理模型注意力图谱中留下了局部的、可重复的签名,我们的检测器可以利用这一点。

我们在编码器-解码器和仅解码器两种设置下评估AEyeDE,使用了机器翻译基准(WMT14和联合国平行语料库)以及开放式生成数据集(HC3、RAID和Beemo)。这些实验涵盖了多种语言、领域和模型系列。我们的主要贡献总结如下:

- •我们提出了AEyeDE,一种基于归因的AI生成文本检测框架,它使用来自代理Transformer的注意力归因图谱作为轻量级CNN分类器的结构化输入。
- •我们在编码器-解码器和仅解码器设置下提供了广泛的实证评估,包括生成器特定检测、混合生成器泛化、对抗性扰动和跨数据集迁移。结果表明,基于注意力的归因图谱提供了一种有竞争力且互补的检测信号,在生成器特定设置和替代拼写攻击鲁棒性方面表现尤为强劲。
- •我们分析了习得的归因表示,并识别出重复出现的局部注意力模式(即“motifs”),这些模式在人工和AI生成文本中的相对频率存在系统性差异。这些motifs提供了可解释且局部的作者身份签名。

## 2 相关工作  

#### AI生成文本检测。  
随着LLMs的快速发展和部署,关于检测机器生成文本的研究也在加速(Wu et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib42))。现有方法可分为:(i) *表面统计*检测器,(ii) *基于概率*的检测器,(iii) *监督式神经网络分类器*,(iv) *水印与来源归因*,以及(v) *基于LLM*的元检测器。表面统计方法利用分布伪影,如困惑度、突发性或n-gram异常,通常提供轻量级信号,但随着生成器能力的提升,这些信号变得越来越脆弱(Gehrmann et al., 2019 (https://arxiv.org/html/2606.00016#bib.bib31); Ippolito et al., 2020 (https://arxiv.org/html/2606.00016#bib.bib53); Shen et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib72); Tassopoulou et al., 2021 (https://arxiv.org/html/2606.00016#bib.bib73); Krishna et al., 2022 (https://arxiv.org/html/2606.00016#bib.bib74))。补充地,基于概率的方法探测生成器的概率分布:DetectGPT通过扰动测量曲率来识别机器生成文本(Mitchell et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib36)),相关工作通过更快的扰动方案提高了效率和鲁棒性(Bao et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib12))。这些工作捕捉了模型特定的统计足迹,但一旦LLMs被优化以匹配类人分布,其性能可能会下降。

#### 神经检测器、鲁棒性与泛化。  
监督式检测器通常微调Transformer编码器(例如,BERT (Devlin et al., 2019 (https://arxiv.org/html/2606.00016#bib.bib75)) 和RoBERTa (Liu et al., 2019 (https://arxiv.org/html/2606.00016#bib.bib90))),在标记的人工与机器文本上进行训练,实现强大的域内性能,但在域迁移和未见生成器下常表现不佳(Uchendu et al., 2021 (https://arxiv.org/html/2606.00016#bib.bib29); Wang et al., 2024b (https://arxiv.org/html/2606.00016#bib.bib47))。鲁棒性已成为核心焦点:在多样化解码策略上训练能提高弹性(Ippolito et al., 2020 (https://arxiv.org/html/2606.00016#bib.bib53)),如IRON这样的对抗训练框架能强化检测器抵御规避攻击(Li et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib49)),而Radar则通过对抗学习明确针对鲁棒性(Hu et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib18))。近期方法还旨在改善分布外行为和可靠性保证,例如,通过塑造多个感受野上的注意力(Jiao et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib70)),或在零样本设置中使用保形预测来限制假阳性(Zhu et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib63))。检测器的可解释性也受到关注:使用稀疏自编码器的特征级分析有助于揭示哪些潜在模式区分机器和人工文本(Kuznetsov et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib71)),而下游应用日益需要多语言和领域特定鲁棒性(Ali et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib62))以及细粒度设置,如人机合著文本(Su et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib64))。

#### 水印与来源归因。  
水印旨在将可检测信号嵌入生成文本中,从而在生成端合作的情况下实现归因(Liu et al., 2024a (https://arxiv.org/html/2606.00016#bib.bib19))。早期且广泛采用的方案包括令牌列表或“软”水印,通过偏置采样(Kirchenbauer et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib48)),后续工作探索了替代嵌入机制和检测规则,包括基于熵或贝叶斯的检测器(Lu et al., 2024 (https://arxiv.org/html/2606.00016#bib.bib24); Huang et al., 2025a (https://arxiv.org/html/2606.00016#bib.bib20))以及更自适应的水印设计,如MorphMark(Wang et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib21))。近期研究进一步考察了水印集成(Niess and Kern, 2025 (https://arxiv.org/html/2606.00016#bib.bib23))、基于水印的来源归因(例如WASA)(Lu et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib16))以及减少偏见和风险的方法(Mao et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib17))。然而,水印技术仍然面临后编辑和释义攻击的挑战(Liu et al., 2024a (https://arxiv.org/html/2606.00016#bib.bib19)),这促使了诸如释义反转(Rivera Soto et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib69))以及通过注入“虚构知识”信号增强鲁棒性(Cui et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib22))等防御手段的发展。对抗性设置也暴露了漏洞:DITTO通过知识蒸馏形式化了对带水印LLMs的欺骗攻击(Ahn et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib5)),强调了在现实转换和攻击管道下进行评估的必要性。

#### LLMs作为检测器与可解释归因。  
除了经典检测器,LLMs越来越多地被用作生成内容的元检测器和评判者,反映了向黑盒和指令遵循检测管道的趋势(Wang et al., 2024b (https://arxiv.org/html/2606.00016#bib.bib47))。近期工作从二元检测扩展到归因和解释,例如XDAC为韩国新闻评论提供了XAI驱动的检测和归因(Go et al., 2025a (https://arxiv.org/html/2606.00016#bib.bib4); b (https://arxiv.org/html/2606.00016#bib.bib88)),而对可检测性的研究强调了作者意图和角色如何影响检测结果(Li and Wan, 2025 (https://arxiv.org/html/2606.00016#bib.bib66))。这些方向共同表明,实际检测越来越需要鲁棒性、可靠性和可解释的证据——而不仅仅是原始准确率。

#### 基准测试与共享任务。  
AI文本检测的进展与那些强调跨领域、语言和攻击条件泛化能力的基准测试紧密相关。广泛使用的数据集包括HC3(Guo et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib9))、MGTBench(He et al., 2024 (https://arxiv.org/html/2606.00016#bib.bib10))、WritingPrompts(Bao et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib12))、RAID(Dugan et al., 2024 (https://arxiv.org/html/2606.00016#bib.bib52))以及对抗性扩展如Adv-HC3(Peng et al., 2023 (https://arxiv.org/html/2606.00016#bib.bib11));其他资源针对更广泛的设置,如BUST(Cornelius et al., 2024 (https://arxiv.org/html/2606.00016#bib.bib13))和LLMTRACE(Tolstykh et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib15))。除了纯文本基准,MultiSocial支持多语言社交媒体检测(Macko et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib61)),Double Entendre引入了多模态音频歌词设置(Frohmann et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib67)),压力测试基准则通过系统性地扰动风格来探测脆弱性(Pedrotti et al., 2025 (https://arxiv.org/html/2606.00016#bib.bib68))。共享任务进一步推动了该领域的发展……(文章后续部分略,将根据原文继续翻译)

相似文章

Counter Turing Test 的发现:AI生成文本检测

arXiv cs.CL

本文介绍了 Counter Turing Test 共享任务在AI生成文本检测方面的发现,顶级系统在二分类任务中达到了完美表现,但在模型归因方面性能显著较低,突显了区分不同大语言模型输出的难度。

展示而非告知:可解释的AI生成文本检测

Hugging Face Daily Papers

介绍TELL,一种AI生成文本检测系统,它在提供数值评分的同时给出可解释的标注,实现了具有竞争力的AUROC 0.927,并允许用户根据高亮的文本指标判断作者身份。

MELD:用于AI生成文本的多任务均衡学习检测器

arXiv cs.CL

本文介绍了MELD,这是一种用于AI生成文本的检测器,它通过使用辅助头进行多任务学习(涵盖生成器家族、攻击类型和源域)来提高鲁棒性。MELD在RAID基准测试中表现出色,并在对抗攻击下保持低误报率。

用于识别AI生成文本的新型分类器

OpenAI Blog

# 用于识别AI生成文本的新型分类器 来源:[https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/](https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/) 我们认识到,在教育工作者中,识别AI生成的文本一直是一个重要的讨论话题,同样重要的是认识到AI文本分类器在课堂中的局限性和影响。我们开发了一个[初步资源⁠\(在新窗口中打开\)](ht