AI生成的社交机器人内容的对抗性创建与检测

arXiv cs.CL 论文

摘要

本文提出了一种对抗性方法,用于创建和检测AI生成的社交机器人内容,并整理了一个多语言、跨平台的人类与AI消息配对数据集。在这种对抗性数据上进行训练,能够在实际环境中显著超越现有的基于内容的机器人检测模型。

arXiv:2606.07219v1 公告类型:新 摘要:大语言模型与社交机器人的融合使得恶意行为者能够通过大规模生成类人内容来操纵信息生态系统。现有的AI生成内容检测模型在真实环境中常常失败,主要原因在于缺乏真实标注数据。我们通过一种对抗性方法填补了这一空白,该方法模拟了恶意行为者对真实社交媒体用户的模仿。利用这种方法,我们整理了一个多语言、跨平台的配对人类与AI生成消息数据集。在这种对抗性数据上进行训练,能够实现对AI生成文本的准确检测。我们的方法在真实世界的分布外数据上显著优于现有的基于内容的机器人检测模型。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:22

# 对抗性生成与检测AI生成的社交机器人内容 来源:https://arxiv.org/html/2606.07219 Mykola Trokhymovych\(^1,2\), Ricardo Baeza-Yates\(^1,3\), Alessandro Flammini\(^2\), Diego Saez-Trumper\(^1\), Filippo Menczer\(^2\) \(^1\)庞培法布拉大学,西班牙巴塞罗那,\(^2\)印第安纳大学社交媒体观测站,美国印第安纳州布卢明顿,\(^3\)KTH皇家理工学院,瑞典斯德哥尔摩 通讯作者:[email protected] (https://arxiv.org/html/2606.07219v1/mailto:[email protected]) ###### 摘要 大型语言模型与社交机器人的融合,使得恶意行为者能够大规模生成类人内容,从而操纵信息生态系统。现有的AI生成内容检测模型在现实场景中往往失效,主要原因在于缺乏真实标注数据。我们通过一种对抗性方法论来弥补这一空白,该方法模拟恶意行为者冒充真实社交媒体用户的行为。基于这一方法论,我们构建了一个多语言、跨平台的成对人类与AI生成消息数据集。在此类对抗性数据上训练的模型能够准确检测AI生成的文本。在现实世界、分布外数据上,我们的方法在基于内容的社交机器人检测方面显著优于现有模型。 对抗性生成与检测AI生成的社交机器人内容 Mykola Trokhymovych\(^1,2\), Ricardo Baeza-Yates\(^1,3\), Alessandro Flammini\(^2\), Diego Saez-Trumper\(^1\), Filippo Menczer\(^2\) \(^1\)庞培法布拉大学,西班牙巴塞罗那,\(^2\)印第安纳大学社交媒体观测站,美国印第安纳州布卢明顿,\(^3\)KTH皇家理工学院,瑞典斯德哥尔摩 通讯作者:[email protected] (https://arxiv.org/html/2606.07219v1/mailto:[email protected]) ## 1 引言 大型语言模型(LLMs)与社交机器人的融合,使得大规模生成虚假内容与交互成为可能,例如在社交媒体上传播错误信息(Mozes et al., 2023 (https://arxiv.org/html/2606.07219#bib.bib58))。这对民主构成了前所未有的威胁(Schroeder et al., 2026 (https://arxiv.org/html/2606.07219#bib.bib3))。尽管机器人检测工具历来依赖于元数据、网络分析以及基础内容分析的组合(Ferrara et al., 2016 (https://arxiv.org/html/2606.07219#bib.bib36); Yang et al., 2022 (https://arxiv.org/html/2606.07219#bib.bib41), 2025 (https://arxiv.org/html/2606.07219#bib.bib35)),但这些方法无法有效检测采用AI模型的复杂机器人(Yang and Menczer, 2024 (https://arxiv.org/html/2606.07219#bib.bib43))。我们认为,高级内容分析或许能为识别AI支持的机器人提供更强有力的线索。然而,如今区分AI生成内容与人类文本已变得极具挑战性(Fiedler and Döpke, 2025 (https://arxiv.org/html/2606.07219#bib.bib62))。例如,OpenAI已撤回其分类工具,因其无法可靠地分辨差异。¹¹¹https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text 近期的研究进展提出了多种解决方案,包括监督模型(Wang et al., 2024b (https://arxiv.org/html/2606.07219#bib.bib63))、零样本模型(Hans et al., 2024 (https://arxiv.org/html/2606.07219#bib.bib20))、检索技术(Sadasivan et al., 2024 (https://arxiv.org/html/2606.07219#bib.bib55))以及水印技术(Kirchenbauer et al., 2023 (https://arxiv.org/html/2606.07219#bib.bib56))。 参见图注 图1:基于内容检测AI驱动社交机器人的流程。 几乎所有上述方法都存在一个关键局限:它们在短文本上表现不佳(Chakraborty et al., 2024 (https://arxiv.org/html/2606.07219#bib.bib59))。考虑到社交媒体帖子通常短小且风格多样,这一点尤为令人担忧。此外,目前缺乏能够捕捉社交媒体中AI生成文本复杂性的稳健基准。大多数现有数据集依赖于通用改写或直接生成策略,而非逼真的用户模仿(Macko et al., 2025 (https://arxiv.org/html/2606.07219#bib.bib27))。生成用于稳健检测AI驱动机器人的训练数据的一种方法是,在对抗性环境中模拟此类机器人。为此,我们构建了一个数据生成流程,旨在捕捉潜在恶意行为者的行为模式。具体而言,我们的方法是通过模仿真实用户,基于其个人资料和历史消息行为,生成针对特定讨论的回复。这种方法并非将AI生成的社交媒体内容检测纯粹视为文本分类问题,而是捕捉关键的上下文维度,诸如平台特性、被模仿内容创建者的身份、互动、立场以及独特的写作风格。我们的流程如图1 (https://arxiv.org/html/2606.07219#S1.F1) 所示,构建了一个包含成对人类与AI生成消息的数据集,并附有社交网络元数据,这对现有检测器构成了挑战。我们利用该数据集训练新的分类模型,并在现实世界、分布外数据上展示了它们在检测AI驱动社交机器人方面的有效性。本研究的主要贡献有两个方面: - • 一种通过生成社交媒体内容来模仿真实用户的对抗性方法论;以及 - • 基于内容的模型,能够在现实世界、分布外数据上以高准确率检测AI驱动的社交机器人。 本文其余部分组织如下。第2节回顾了自动化社交媒体行为与AI生成内容检测的相关工作。第3节描述了数据收集、生成流程以及数据集特征。第4节介绍了检测模型,包括免训练和基于训练的方法。第5节报告了实验结果和敏感性分析。第6节总结全文,并讨论局限性和伦理考量。 ## 2 相关工作 ### 2.1 社交媒体中的自动化行为 能够自动生成内容并与社交媒体上的人类互动的计算机算法(即社交机器人)长期以来已被识别为具有影响力的在线行为者(Ferrara et al., 2016 (https://arxiv.org/html/2606.07219#bib.bib36); Shao et al., 2018 (https://arxiv.org/html/2606.07219#bib.bib1); Benevenuto et al., 2010 (https://arxiv.org/html/2606.07219#bib.bib61))。从历史上看,社交机器人具有高发帖率、规律性活动以及异常网络连接策略等行为特征(Chu et al., 2012 (https://arxiv.org/html/2606.07219#bib.bib39); Varol et al., 2017 (https://arxiv.org/html/2606.07219#bib.bib38))。这类机器人通常使用易于自动化的语言模式(例如,大量使用标签、重复的正面词汇)和简单的回复,与人类用户更具对话性的风格形成对比(Ng and Carley, 2025 (https://arxiv.org/html/2606.07219#bib.bib37))。像Botometer这样的检测框架已将这些信号操作化,通过分析从账户元数据、行为模式、社交网络结构和内容中提取的特征,来估计一个账户是机器人的可能性(Davis et al., 2016 (https://arxiv.org/html/2606.07219#bib.bib40); Yang et al., 2022 (https://arxiv.org/html/2606.07219#bib.bib41))。与此同时,机器人运营者也在积极改进策略以规避检测模型,形成了一场需要频繁工具优化的军备竞赛(Yang et al., 2019 (https://arxiv.org/html/2606.07219#bib.bib42))。 近年来,这一格局发生了巨大变化。一方面,平台正在使得提取账户特征所需的数据(除内容外)变得困难。另一方面,生成式AI在内容生成方面的崛起,使得机器人能够生成类人文本,从而令传统基于内容的检测算法失效(Ferrara, 2024 (https://arxiv.org/html/2606.07219#bib.bib44); Yang and Menczer, 2024 (https://arxiv.org/html/2606.07219#bib.bib43))。 ### 2.2 社交媒体中的AI生成内容 大型语言模型的快速发展极大地提升了合成文本的真实感(Tang et al., 2024 (https://arxiv.org/html/2606.07219#bib.bib45))。现代LLM能够仅通过简单提示生成连贯且类人的内容,适用于特定场景,无需额外训练(Brown et al., 2020 (https://arxiv.org/html/2606.07219#bib.bib46))。近年来,开放权重模型和推理即服务平台的普及显著提升了这些工具的可及性(Wolf et al., 2020 (https://arxiv.org/html/2606.07219#bib.bib47))。这些模型可用于模拟社交媒体角色,并通过模仿真实用户文本的风格细微差别参与在线对话(Malik et al., 2024 (https://arxiv.org/html/2606.07219#bib.bib48); Balog et al., 2024 (https://arxiv.org/html/2606.07219#bib.bib49))。最近一项研究发现,自2022年LLM被大众广泛使用以来,社交媒体上AI生成文本的比例显著增加(Sun et al., 2025 (https://arxiv.org/html/2606.07219#bib.bib50))。 检测AI生成内容对于理解其总体影响至关重要,特别是为了打击诸如冒充、欺诈、虚假评论和虚假信息等恶意应用(Yang et al., 2024a (https://arxiv.org/html/2606.07219#bib.bib2); Crothers et al., 2023 (https://arxiv.org/html/2606.07219#bib.bib64); Weidinger et al., 2022 (https://arxiv.org/html/2606.07219#bib.bib65))。然而,缺乏准确反映现实世界AI使用的训练数据是构建稳健检测系统的关键挑战。尽管先前许多研究贡献了AI生成内容的数据集,但鲜有聚焦于社交媒体。现有资源的精选示例包括MGTBench(论文、新闻、Reddit故事)(He et al., 2024 (https://arxiv.org/html/2606.07219#bib.bib51))、M4GT-Bench(多领域,社交媒体覆盖有限且限于英语)(Wang et al., 2024a (https://arxiv.org/html/2606.07219#bib.bib52))、MULTITuDE(仅新闻)(Macko et al., 2023 (https://arxiv.org/html/2606.07219#bib.bib53))以及MAiDE-up(酒店评论)(Ignat et al., 2025 (https://arxiv.org/html/2606.07219#bib.bib54))。AIGTBench(Sun et al., 2025 (https://arxiv.org/html/2606.07219#bib.bib50))聚合了人类和合成文本。后者是通过基于来自出版和社交媒体平台的文章进行润色、问答和摘要扩展生成的。然而,AIGTBench仅包含英语且个性化程度有限。相比之下,MultiSocial数据集(Macko et al., 2025 (https://arxiv.org/html/2606.07219#bib.bib27))提供了一个多语言、多平台的语料库,其中合成样本主要通过改写社交媒体消息生成。这些资源完全依赖于在受控环境中创建的合成AI生成数据。相反,Fox8-23数据集(Yang and Menczer, 2024 (https://arxiv.org/html/2606.07219#bib.bib43))采用了一种在现实环境中收集的策略。作者从活跃的Twitter账户中筛选内容,通过识别自曝消息来建立AI驱动社交机器人的真实标注。在本文中,我们也采用了受控生成环境。与先前工作不同,我们通过将生成过程基于用户的角色和过往消息来融入社交媒体上下文并模仿真实用户的写作风格。 ## 3 数据 参见图注 图2:数据集整理步骤示意图。 参见图注 图3:在社交媒体背景下创建逼真AI生成消息的流程。 在本节中,我们提出构建成对人类与AI生成消息数据集的方法论(见图2 (https://arxiv.org/html/2606.07219#S3.F2))。我们从现实世界的社交媒体对话出发,随后用人工生成的消息进行扩充。我们描述了筛选初始数据的原理、用于扩展AI生成内容的流程,以及最终数据集的关键属性。 ### 3.1 数据收集 我们收集了一个多语言数据集,涵盖多种书写系统(例如拉丁、西里尔、阿拉伯字母)。我们还确保包含高资源和低资源语言,至少在数据集的测试部分如此。我们使用两个大规模通信平台:Telegram和Reddit。我们使用ConvoKit工具收集Reddit数据,该工具可访问截至2018年10月的帖子和评论(Baumgartner et al., 2020 (https://arxiv.org/html/2606.07219#bib.bib16); Chang et al., 2020 (https://arxiv.org/html/2606.07219#bib.bib10))。Reddit按子版块组织,每个子版块通常专注于特定主题。尽管大多数子版块是英语的,但也有一些社区用户使用其他语言交流。这些非英语子版块通常具有国家特定性,涵盖广泛主题,例如r/bulgaria或r/ukraina(Koncar et al., 2021 (https://arxiv.org/html/2606.07219#bib.bib11))。我们利用这种结构作为识别非英语对话的代理,假设特定国家的子版块主要包含该国语言的内容。对于英语数据,我们选择专注于金融和政治的子版块以确保主题多样性。此外,对于某些语言,我们包含来自多个国家的子版块以捕捉潜在的区域差异(例如,西班牙语:r/es和r/chile;葡萄牙语:r/portugal和r/brasil)。我们从涵盖15种语言的20个子版块收集数据。对于Telegram,我们使用官方Telegram桌面应用程序导出完整的聊天历史。为选择频道,我们使用Telemetrio网站,²²²https://telemetr.io/,访问日期2025-04-01,重点关注提供开放聊天历史访问且在新闻或政治类别中订阅者最多的公共频道。在数据收集时(2025年4月10日),我们下载了每个选定频道的完整聊天历史。我们从涵盖13种语言的16个开放聊天中收集了数据。总体而言,该数据集涵盖17种语言。 ### 3.2 数据处理 我们将Telegram和Reddit对话数据转换为统一的线程格式。每个线程由一个初始帖子及其后续讨论组成。仅处理文本内容;所有媒体文件均被排除,以避免存储受版权保护或可能非法的内容,这与先前实践一致(La Morgia et al., 2025 (https://arxiv.org/html/2606.07219#bib.bib13))。用户通过昵称识别,我们使用随机标识符对其进行匿名化以保护用户隐私。我们还替换消息中出现的任何已知昵称为相应的匿名标识符。对于每个频道或子版块,我们随机抽取最多200名用户,限制选择那些至少参与过15个线程的用户。该标准确保每个用户有足够的对话历史,这对于后续基于AI的消息生成过程是必要的。如果符合条件的用户少于200人,则包含所有合格用户。这种抽样策略有助于平衡不同语言和主题的数据集,促成更具代表性且多样化的数据覆盖。Reddit用户原始昵称显示为[removed]或[deleted]的消息将被排除在数据集之外,因为我们将这些情况视为已删除内容。 ### 3.3 生成流程 消息生成遵循一个结构化的多步流程(见图3 (https://arxiv.org/html/2606.07219#S3.F3))。该过程的目标是生成逼真的消息b

相似文章

理解我们在线看到和听到的内容来源

OpenAI Blog

OpenAI宣布推出工具和研究成果,帮助验证内容真实性,包括文本水印、元数据方法和扩展的图像检测,以及与C2PA元数据集成,用于追踪AI生成和编辑的内容。

我找到了对抗AI内容垃圾的方法

Reddit r/artificial

作者提出将AI作为研究筛选和综合工具,而非内容生成器,以对抗“AI内容垃圾”。通过构建一个比较并排名专家来源的自动化流程,作者认为未来人类在AI时代的主要角色将是策展人、筛选者和判断者。

Counter Turing Test 的发现:AI生成文本检测

arXiv cs.CL

本文介绍了 Counter Turing Test 共享任务在AI生成文本检测方面的发现,顶级系统在二分类任务中达到了完美表现,但在模型归因方面性能显著较低,突显了区分不同大语言模型输出的难度。