使用可解释语言特征检测AI生成假新闻的跨提示词泛化研究

arXiv cs.CL 论文

摘要

来自肯尼索州立大学的研究人员利用可解释语言特征(词汇多样性、可读性、情感特征)对检测AI生成假新闻的跨提示词泛化能力展开研究。在一种提示策略上训练、在另一种提示策略上测试的随机森林分类器取得了0.988至1.000的AUC值,表明这些特征能够捕捉AI生成文本的稳定且可泛化的属性。

arXiv:2606.04199v1 论文类型:新论文 摘要:大语言模型的广泛应用引发了人们对AI生成假新闻传播的担忧,尤其是在提示策略多变的情况下。现有大多数检测模型仅在单一生成设置下进行训练和评估,其对未见提示词的泛化能力尚不明确。本研究通过三个由不同提示词生成的AI文章数据集(结合真实新闻文章),对假新闻检测中的跨提示词泛化能力进行探究。我们提取了涵盖词汇多样性、可读性和情感特征的可解释语言特征,并在跨提示词框架下评估随机森林分类器——即在一种提示词上训练的模型在另一种提示词上进行测试。在全部六种训练-测试组合中,模型性能始终保持在较高水平,AUC值介于0.988至1.000之间。特征分布分析表明,与整体数据集相比,AI生成文本具有更高的词汇多样性、较低的可读性以及明显更低的情感强度,且不同提示词之间存在一定差异。尽管存在这些分布偏移,分类器仍保持出色的性能,说明这些特征能够捕捉AI生成文本的稳定属性,并可跨提示策略进行泛化。上述发现表明,基于特征的方法在提示词多样化的情况下,能够对AI生成假新闻实现稳健的检测。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:13

# 跨提示词泛化:利用可解释语言特征检测AI生成的虚假新闻

来源:https://arxiv.org/html/2606.04199

Aya Vera\-Jimenez 肯尼索州立大学数学系 美国佐治亚州玛丽埃塔 averajim@students\.kennesaw\.edu &Samuel Jaeger 肯尼索州立大学数据科学与分析学院 美国佐治亚州玛丽埃塔 sjaeger4@students\.kennesaw\.edu &Calvin Ibenye 肯尼索州立大学计算机科学系 美国佐治亚州玛丽埃塔 cibenye@students\.kennesaw\.edu &Dhrubajyoti Ghosh 肯尼索州立大学数据科学与分析学院 美国佐治亚州玛丽埃塔 dghosh3@kennesaw\.edu

###### 摘要

大语言模型的日益普及引发了对AI生成虚假新闻传播的担忧,尤其是在不同提示策略下生成的内容。现有大多数检测模型均在单一生成设置下进行训练和评估,其在未知提示词下的泛化能力尚不明确。本研究通过跨提示词框架探讨虚假新闻检测中的泛化问题,所用数据集包含三组在不同提示词下生成的AI文章,并结合真实新闻文章构建分类任务。我们提取了涵盖词汇多样性、可读性及情感特征的可解释语言特征,并在跨提示词框架下评估随机森林分类器的性能——即用在一种提示词下训练的模型对另一种提示词下的数据进行测试。在全部六种训练-测试组合中,模型性能始终保持高水平,AUC值介于0.988至1.000之间。特征分布分析表明,与整体数据集相比,AI生成文本具有更高的词汇多样性、更低的可读性,以及显著更低的情感强度,且不同提示词之间存在差异。尽管存在这些分布偏移,分类器仍保持较强性能,表明这些特征捕捉到了AI生成文本的稳定属性,能够跨提示策略进行泛化。上述发现表明,基于特征的方法在提示词可变的条件下,能够对AI生成的虚假新闻实现鲁棒检测。

*关键词* AI生成文本检测⋅\\cdot跨提示词泛化⋅\\cdot分布偏移⋅\\cdot虚假新闻检测⋅\\cdot可解释机器学习

## 1 引言

大语言模型(LLM)的快速发展,以GPT\-3和ChatGPT\[1 (https://arxiv.org/html/2606.04199#bib.bib1),11 (https://arxiv.org/html/2606.04199#bib.bib2)\]为代表,从根本上改变了自动文本生成的格局,使其能够在广泛的应用场景中生成高度流畅、连贯且符合语境的内容。这些系统已在教育、新闻、医疗传播和科学写作等领域展现出显著的实用价值,可辅助完成起草、摘要和信息整合等任务。然而,在带来这些益处的同时,LLM也引入了相当大的风险,尤其是其能够大规模快速生成逼真但具有误导性乃至完全虚构的信息。AI生成虚假新闻的出现已成为现代信息生态中的重大挑战,此类内容可被快速、大规模地生产,且几乎无需人工监督,从而大幅放大了虚假信息传播和操纵公众舆论的潜力\[9 (https://arxiv.org/html/2606.04199#bib.bib3),7 (https://arxiv.org/html/2606.04199#bib.bib4),8 (https://arxiv.org/html/2606.04199#bib.bib5)\]。这些模型的日益普及进一步加剧了这一问题,降低了恶意行为者生成具有说服力的多样化虚假内容的门槛。本研究专注于检测AI生成的虚假新闻内容,而非核实事实准确性或识别人工撰写的虚假信息,目标是利用可解释语言特征将合成生成的新闻与真实新闻加以区分。

虚假新闻检测问题已在学术界得到广泛研究,方法涵盖从传统的基于特征的方法到先进的深度学习架构。早期工作聚焦于人工设计的语言和风格特征,包括词汇模式、句法结构和情感线索\[24 (https://arxiv.org/html/2606.04199#bib.bib6),2 (https://arxiv.org/html/2606.04199#bib.bib7),17 (https://arxiv.org/html/2606.04199#bib.bib8)\]。这些方法注重可解释性,并为理解欺骗性内容的特征提供了重要参考。近期研究则借助深度神经网络,尤其是基于Transformer的架构,如BERT\[4 (https://arxiv.org/html/2606.04199#bib.bib9)\]、RoBERTa\[18 (https://arxiv.org/html/2606.04199#bib.bib10)\]以及基于GPT的分类器,能够捕捉文本中复杂的上下文依赖关系和语义表示\[28 (https://arxiv.org/html/2606.04199#bib.bib11),16 (https://arxiv.org/html/2606.04199#bib.bib12)\]。尽管这些模型在基准数据集上往往能达到最先进的性能,但它们通常在训练数据与测试数据来自相似分布的假设下进行评估——而这一假设在AI生成内容的背景下越来越难以成立。

现代生成场景中的核心挑战之一,是提示策略所引发的分布可变性。提示词是控制LLM输出的主要机制,不仅影响语义内容,还影响文体属性,如语气、情感、结构和词汇选择。因此,即使是同一底层模型,在不同提示词下生成的文本也可能呈现出显著差异。例如,旨在生成耸人听闻或情感强烈叙事的提示词,往往会产生更短的句子、更强烈的情感信号和更戏剧化的措辞;而强调中立性或可信度的提示词,则可能产生更正式、更均衡且信息密度更高的文章。这些变化导致可观测特征分布发生偏移,引发了关于在特定提示条件下训练的检测系统鲁棒性的根本性问题。尤其是,在某一提示词下生成的数据上训练的模型,在应用于另一提示词下生成的数据时可能无法有效泛化,从而限制了其在生成过程未知且可能具有对抗性的现实场景中的实用性。

分布偏移下的泛化问题在机器学习领域已被广泛研究\[23 (https://arxiv.org/html/2606.04199#bib.bib13),22 (https://arxiv.org/html/2606.04199#bib.bib14),12 (https://arxiv.org/html/2606.04199#bib.bib15)\],众所周知,针对特定数据分布优化的模型在部署于不同底层分布的环境中时,可能会出现显著的性能下降。在自然语言处理领域,域自适应和迁移学习已被提出以应对此类挑战,但这些方法往往需要获取目标域数据,或依赖关于偏移性质的假设。相比之下,AI生成文本中由提示词引发的变化构成了一种独特的分布偏移形式,既灵活多变又难以刻画,因为它源于提示词与生成模型之间的交互。尽管其实际意义重大,目前专门在虚假新闻检测背景下研究这一现象的工作仍然较少。现有研究主要聚焦于区分人工撰写与机器生成的文本\[6 (https://arxiv.org/html/2606.04199#bib.bib16),14 (https://arxiv.org/html/2606.04199#bib.bib17),20 (https://arxiv.org/html/2606.04199#bib.bib18),15 (https://arxiv.org/html/2606.04199#bib.bib19)\],或在单一数据集内检测虚假信息\[24 (https://arxiv.org/html/2606.04199#bib.bib6),13 (https://arxiv.org/html/2606.04199#bib.bib20)\],未能系统性地评估模型在不同提示条件下的鲁棒性。

从统计学角度来看,这一问题可视为协变量偏移下的学习问题——特征的边缘分布发生变化,而特征与标签之间的条件关系可能保持部分稳定。在此类情境下,目标不仅仅是在固定数据集上实现高预测精度,而是要识别能够捕捉数据生成机制不变属性的特征和建模策略。这一视角与鲁棒统计和分布分析领域的最新进展相吻合,这些领域强调识别在异质条件下持续存在的稳定结构。近期统计学习领域的研究,包括分布建模和基于特征的推断,突出了可解释表示的重要性——这类表示在变化下仍能保持其意义。特别是,能够量化文本结构、词汇和情感特征的基于特征的方法,为检测AI生成内容提供了颇具前景的途径,因为它们同时具备可解释性和对分布偏移的潜在鲁棒性。

受上述考量的驱动,本研究采用跨提示词评估框架,探究虚假新闻检测模型在提示词引发的分布可变性下的鲁棒性。我们使用三种不同的提示词构建了三个AI生成虚假新闻数据集,这些提示词旨在诱发语气、情感和文体结构上的差异,并将其与来自PolitiFact的真实新闻文章相结合,构成平衡的分类任务。与标准评估协议不同,我们通过在一种提示词下生成的数据上训练模型,并在另一种提示词下生成的数据上进行测试,明确引入分布偏移。这一设置提供了对模型在实际场景中性能的更现实评估——在这些场景中,用于生成虚假内容的提示策略是未知的。

为表示文本特征,我们采用结构化的基于特征的方法,从多个维度捕捉写作风格,包括词汇多样性(如类符-形符比)、可读性指标(如Flesch阅读易读性、Flesch-Kincaid年级水平、SMOG指数和Coleman-Liau指数),以及从NRC词典\[21 (https://arxiv.org/html/2606.04199#bib.bib21)\]中提取的细粒度情感特征。这些特征为文本提供了可解释的表示,既便于分类,也有助于分析分布差异。我们使用随机森林分类器对特征与类别标签之间的关系进行建模,并以受试者工作特征曲线下面积(AUC)评估性能。除分类准确性外,我们还分析了跨提示词的特征分布偏移,以理解提示策略如何影响AI生成文本的统计属性。

本研究的贡献体现在三个方面。第一,我们提出了一种跨提示词评估框架,用于评估虚假新闻检测模型在提示词引发的分布偏移下的鲁棒性。第二,我们证明了可解释语言特征能够捕捉AI生成文本的稳定特征,并能有效跨提示策略泛化。第三,我们对提示词设计如何影响特征分布和模型性能进行了详细分析,为生成过程与检测系统之间的交互关系提供了深入见解。通过应对提示词可变性这一挑战,本研究为在动态演化环境中检测AI生成虚假信息开发出更可靠、更鲁棒的方法作出了贡献。

## 2 方法

本研究旨在评估虚假新闻检测模型在AI生成文本提示词引发变化下的鲁棒性。为此,我们使用三种不同的提示策略,通过ChatGPT构建了三个AI生成虚假新闻数据集,每种提示策略旨在诱导不同的文体和语言特征。这些提示词并不可互换,体现了三种在本质上不同的文本生成模式。提示词A执行一种受控改写流程,要求在保持原始虚假声明和故事主线的同时,维持中立的新闻语气、相近的篇幅和结构化的呈现方式。提示词B同样强调在保留声明和叙事一致性的前提下进行改写,但允许在句子结构和段落组织上有更大的灵活性,从而鼓励更广泛的词汇和句法变化。相比之下,提示词C明确指示模型生成同一内容的更具耸人听闻或小报风格的版本,使用更简短有力的句子、更戏剧化的措辞以及更短的段落,同时保持作为已发表新闻的合理性。因此,提示词A和提示词B生成的是相对正式、结构化的新闻风格文本,而提示词C则诱导出一种文体截然不同的风格,以情感色彩浓厚和句子结构紧凑为特征。这些提示词层面的差异是本研究的核心,因为它们在保持底层虚假信息内容不变的同时,在生成文本中引入了受控的分布偏移。

为构建分类数据集,我们将每种提示词下生成的AI虚假新闻与来自PolitiFact数据集的真实新闻文章相结合。我们仅保留标记为真实的文章,并随机抽取500篇作为真实新闻基准。对于每个特定提示词的数据集,将对应的AI生成文本与这一共享的真实文章集进行配对,从而得到三个数据集,分别记为DAD\_\{A\}、DBD\_\{B\}和DCD\_\{C\}。每个数据集代表一个二元分类问题,即在特定提示条件下区分真实新闻与AI生成的虚假新闻。这种构建方式确保了数据集之间的差异完全源于提示策略,而非真实新闻内容的变化,从而将提示词引发的文体偏移效应单独剥离出来。

我们对每篇文档应用了结构化特征提取流程,以捕捉语言变异的多个互补维度——这些维度预期在不同提示策略之间以及AI生成文本与真实文本之间存在系统性差异。首先计算结构特征,以量化文档构成的基本属性,包括以字符数和词数计算的文档长度、句子数量、平均句子长度、标点符号比例以及大写字符比例。这些特征捕捉了表层文体模式,已有研究表明这些模式在人工撰写与机器生成的文本之间存在差异\[6 (https://arxiv.org/html/2606.04199#bib.bib16),14 (https://arxiv.org/html/2606.04199#bib.bib17)\],在提示词引发文体约束的情况下尤为相关。例如,鼓励小报或耸人听闻写作风格的提示词预期会生成更短的句子、更高的标点密度和更大的大小写变化,而更正式的提示词可能产生更长、句法一致的句子,以及更克制的标点使用。除结构属性外,词汇多样性通过类符-形符比(TTR)进行量化,定义为唯一词类型数与总词元数之比,作为词汇丰富度和变化程度的代理指标\[25 (https://arxiv.org/html/2606.04199#bib.bib22),26 (https://arxiv.org/html/2606.04199#bib.bib23)\]。TTR值越高,通常表示词汇使用越多样,这可能源于改写

相似文章

AI生成文本检测中语言特征的系统性分析:跨领域与跨模型研究

arXiv cs.CL

一项大规模实证研究对284个语言特征在27个大语言模型和10个文本领域中的表现进行了分析,以评估哪些特征能够可靠地检测AI生成文本。研究发现,词汇丰富度指标是跨领域和跨模型最稳健的信号,而许多其他已提出的指标则高度依赖具体上下文。

Counter Turing Test 的发现:AI生成文本检测

arXiv cs.CL

本文介绍了 Counter Turing Test 共享任务在AI生成文本检测方面的发现,顶级系统在二分类任务中达到了完美表现,但在模型归因方面性能显著较低,突显了区分不同大语言模型输出的难度。

用于识别AI生成文本的新型分类器

OpenAI Blog

# 用于识别AI生成文本的新型分类器 来源:[https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/](https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/) 我们认识到,在教育工作者中,识别AI生成的文本一直是一个重要的讨论话题,同样重要的是认识到AI文本分类器在课堂中的局限性和影响。我们开发了一个[初步资源⁠\(在新窗口中打开\)](ht

展示而非告知:可解释的AI生成文本检测

Hugging Face Daily Papers

介绍TELL,一种AI生成文本检测系统,它在提供数值评分的同时给出可解释的标注,实现了具有竞争力的AUROC 0.927,并允许用户根据高亮的文本指标判断作者身份。