生成式AI与数字生态系统韧性:基于生命周期的主动式综述

arXiv cs.LG 论文

摘要

本综述整合了关于生成式AI加速的对抗性合成内容主动检测的新兴研究,提出了基于生命周期的分类法,采用C5交互模型来融合机器学习和社会科学方法。

arXiv:2606.00136v1 公告类型:新 摘要:生成式AI(GenAI)加速了对抗性合成内容的扩散,使得传统的被动检测方法失效。本综述整合了新兴研究,展示了向主动检测新兴虚假叙事的范式转变。在本综述中,我们采用统一的、基于生命周期的分类法,将对抗性活动的社会技术生命周期模型与用于检测新兴虚假叙事的高级计算方法相结合。通过围绕C5交互模型(Context环境、Causes原因、Content内容、Cycle of Amplification放大循环、Consequences后果)构建分析,我们整合了来自机器学习和社会科学的不同研究流。为了区分合成放大与真实基线流量的传播模式,本文调查了建模新叙事创建、播种和传播的最新技术,包括协调不真实行为(CIB)分析、流行病学建模和Hawkes过程。本文还系统回顾了在C5交互模型不同阶段对抗性威胁的主动检测方法,特别是高维嵌入空间中的异常检测、多层图上的无监督协调检测以及代理型AI系统。最后,本文讨论了GenAI带来的挑战,包括追踪快速变化的威胁和多级分布漂移的困难,并概述了未来研究议程,重点关注检测异常聚类以及构建预见性和韧性系统。本综述为构建更具韧性的信息生态系统,提供了基于生命周期的主动检测新兴合成威胁方法的全面回顾。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:39

# 生成式人工智能与数字生态系统韧性:基于生命周期的主动防御综述 来源:https://arxiv.org/html/2606.00136 \\corresp 通讯作者:Jonghyun Chung(邮箱:[email protected])。 RISHABH CHADDHA¹ SANKET BADHE¹ DEBANSHU DAS¹ NATHAN HUANG¹ AMANPREET KAUR¹ Google LLC ###### 摘要 生成式人工智能(GenAI)加速了对抗性合成内容的扩散,使得传统的被动检测方法失效。本综述综合了最新研究,展示了一种向主动检测新兴不实叙事的范式转变。我们采用统一的、基于生命周期的分类法,将对抗性活动的社会技术生命周期模型与新兴不实叙事的先进计算方法相结合。通过围绕C5交互模型(Context背景,Causes成因,Content内容,Cycle of Amplification放大循环,Consequences后果)构建分析框架,我们整合了机器学习和社会科学的不同研究方向。为了区分合成放大内容与真实基线流量的传播模式,本文调研了用于建模新叙事的创建、播种和传播的最新技术,包括协调不真实行为(CIB)分析、流行病学建模和霍克斯过程。本综述还系统回顾了在C5交互模型不同阶段对抗对抗性威胁的主动检测方法——具体而言,高维嵌入空间中的异常检测、多层图上的无监督协调检测以及自主AI系统。最后,本综述讨论了GenAI带来的挑战,包括追踪快速变化威胁的困难以及多级分布漂移问题,并概述了未来研究方向,聚焦于检测异常聚类和构建预测性与韧性系统。本综述为构建更具韧性的信息生态系统,提供了基于生命周期的全面方法回顾,用于主动检测新兴合成威胁。 ###### 索引术语:自主AI,异常检测,C5交互模型,协调不真实行为,生成式人工智能,合成内容检测,主动防御。 ## I. 引言 历史上,数字影响力操作的研究一直是被动式的,侧重于在不实叙事传播后才进行检测。这种被动方法主要分析内容来源、内容的语言风格、网络传播模式以及来源可信度[1 (https://arxiv.org/html/2606.00136#bib.bib1)]。这些方法有助于发现已知的、已存在的合成痕迹,但无法用于检测新生成的内容。这种基于响应的方法存在高延迟问题,因为干预只能在叙事初步传播后才能进行,并且难以适应对抗行为者快速演变的策略[2 (https://arxiv.org/html/2606.00136#bib.bib2)]。因此,这种范式从根本上无法应对新兴不实叙事的挑战——这类叙事尚无既定事实依据,也不存在标记的训练数据。 被动检测 时间 创建 播种 传播 反应缺口 检测 辟谣 主动 预见 时间 预期对齐 背景监控 异常 (II vs ZZ) 预辟谣 / 干预 b/l b/l 关键漏洞 II ZZ 图1:被动检测与主动检测的对比。

Transformer和生成对抗网络(GAN)的出现使这一长期挑战变得更加紧迫。GenAI从根本上加速了内容生成,且成本极低,使得恶意行为者能够以极低成本生成高质量的目标内容。这形成了一个移动目标群体,大量语义相关但风格各异的单一内容压垮了传统的防御方式。由于合成内容生成速度现已远超人工审核[3 (https://arxiv.org/html/2606.00136#bib.bib3)],依赖静态事实依据已成为瓶颈。许多研究证实,AI系统可以“在几秒内处理数千条声明”,而“人工声明评估需要数小时或数天”[4 (https://arxiv.org/html/2606.00136#bib.bib4)]。为应对这些系统性瓶颈,围绕主动防御的研究已经涌现[5 (https://arxiv.org/html/2606.00136#bib.bib5)]。然而,现有综述文献多采用以模型为中心的视角,侧重于内部强化大语言模型(LLM)的方法。然而,有效的主动方法必须具有生态系统意识,将对抗性信息流理解为一个动态的社会技术过程,而非模型失效。本综述旨在通过综合当前关于主动生态系统预测的研究,利用信息环境中的信号预见新兴叙事,桥接被动生态系统监控与主动模型加固之间的鸿沟。本综述识别并分类了被动、以内容为中心的范式的方法局限,并与新兴的、基于生命周期的主动方法进行对比。本工作的主要目标是将社会技术生命周期模型与主动计算方法相结合。 ## II. 不实叙事生命周期:检测分类法 现有文献表明,有效的预测和缓解需要将不实叙事视为动态、多层面的过程,而非静态制品。为此,我们需要以过程为导向的框架,全面理解不实叙事的完整生命周期,从而识别关键的干预点[6 (https://arxiv.org/html/2606.00136#bib.bib6)]。这些框架包含重要的反馈循环,考虑合成叙事如何根据反制措施和公众情绪变化而演变与适应[7 (https://arxiv.org/html/2606.00136#bib.bib7)]。 ### II-A 理论基础:从线性传播到循环互动 为构建主动检测的分析框架,我们重温拉斯韦尔(1948)提出的基础功能主义传播模型。拉斯韦尔将传播分析组织为五个主要维度:“谁(1)通过什么渠道(3)对谁(4)说了什么(2)产生了什么效果(5)?”[8 (https://arxiv.org/html/2606.00136#bib.bib8)]。该框架提供了信息流的基本要素,但将其描述为线性传播序列。然而,在生成式AI和算法社交媒体时代,对抗性内容并非线性流动,而是通过递归反馈循环传播。为在保留基础理论清晰性的同时应对这种社会技术复杂性,我们采用C5交互模型。如表I (https://arxiv.org/html/2606.00136#S2.T1)所示,C5框架可理解为拉斯韦尔5W模型的社会技术化改造版本,专门重构以突出主动检测所需的不实活动前兆。 表I:拉斯韦尔5W模型映射至C5交互框架

通过以这种方式映射生态系统,C5模型将焦点从仅分析“信息”(内容)转向监控“谁”(成因)和“对谁”(背景)——这两个阶段存在于病毒式叙事完全形成之前[9 (https://arxiv.org/html/2606.00136#bib.bib9)]。 ### II-B 采用C5交互模型组织综述 在确立理论脉络后,我们现将该框架付诸实践。与静态传播模型不同,C5模型关注五个核心组件之间的动态反馈循环:背景、成因、内容、放大循环和后果。这些组件作为一个相互关联的生态系统运作,其中一个叙事的后果会重塑下一个叙事的背景,形成持续循环。本综述按这五个阶段组织对新兴不实叙事及主动检测方法的分析,从潜在前兆到动态扩散[9 (https://arxiv.org/html/2606.00136#bib.bib9)]。 **背景**是生命周期的第一步。它是合成叙事播种并生长的肥沃土壤,包括更广泛的社会和技术环境。高信息熵和生态系统不稳定使受众易受对抗性操纵[10 (https://arxiv.org/html/2606.00136#bib.bib10)、11 (https://arxiv.org/html/2606.00136#bib.bib11)]。为评估当前超越定性描述的能力,本综述回顾了量化“背景”的数学方法。如第V节详述,我们使用SEIZ流行病学模型中的参数`bb`(怀疑影响)和`ll`(怀疑招募)来操作化社会脆弱性,将这些参数的退化视为信息生态系统弱化的可量化信号[12 (https://arxiv.org/html/2606.00136#bib.bib12)、13 (https://arxiv.org/html/2606.00136#bib.bib13)]。 第二步**成因**关注对抗行为者及其动机。该领域由多种实体驱动,从复杂的国家赞助行动和盈利网络,到意识形态驱动群体和寻求社会认可的个人网络喷子[7 (https://arxiv.org/html/2606.00136#bib.bib7)]。这些行为者生成**内容**,即承载欺骗信息的特定媒体制品——例如文本声明、深度伪造视频或病毒式表情包。历史上,被动检测工作短视地聚焦于这一单一阶段,通过分析语言风格和真实性来判断正确与否[14 (https://arxiv.org/html/2606.00136#bib.bib14)]。然而,如果没有**放大循环**——一个叙事得以流行的复杂过程——内容本身是无用的。这一阶段由技术和人类因素的汇聚驱动:数字平台上的算法放大加速传播[15 (https://arxiv.org/html/2606.00136#bib.bib15)、16 (https://arxiv.org/html/2606.00136#bib.bib16)],而认知偏差和社交网络结构使病毒式级联更容易发生[17 (https://arxiv.org/html/2606.00136#bib.bib17)、18 (https://arxiv.org/html/2606.00136#bib.bib18)、19 (https://arxiv.org/html/2606.00136#bib.bib19)]。最后,生命周期以**后果**结束,指对个人和社会的实际影响,包括民主规范崩溃、社会分裂加剧、急公共卫生事件,以及极端情况下煽动现实暴力[9 (https://arxiv.org/html/2606.00136#bib.bib9)]。 ### II-C 跨学科综合的支架 C5模型作为一个强大的社会技术支架,能够整合不同的研究流派。检测协调不真实行为的计算方法有助于在成因阶段发现不实叙事,而网络科学对于理解放大循环至关重要[9 (https://arxiv.org/html/2606.00136#bib.bib9)]。该框架作为诊断工具运行:由复杂对抗行为者(“成因”)驱动的活动需要不同的应对措施(如账号封禁),而因应叙事(“内容”)利用既有焦虑(“背景”)有机传播的信息则需要不同处理。C5模型的非线性本质对主动检测具有深远意义。各要素相互支持,形成反馈循环,其中“后果”改变下一周期的“背景”[9 (https://arxiv.org/html/2606.00136#bib.bib9)]。这意味着我们可以监控“背景”中社会分歧上升的信号,或“成因”中行为者动员的行为指标,将这些作为即将到来的信息威胁的前兆。 ### II-D 用于主动检测的生命周期框架关键比较 选择C5模型是基于其相对于其他框架更适合主动范式。C5模型在预见方面的主要优势在于其非线性、社会技术结构,将“背景”和“成因”提升为主要可操作要素,而非仅仅是背景信息。对C5模型的分析证实,其关键见解在于生命周期路径主要受社会背景影响,这使得在活动进入“内容”阶段之前就能识别危险互动[9 (https://arxiv.org/html/2606.00136#bib.bib9)]。这直接支持了主动干预措施,如“预辟谣”——一种直接针对并修改“背景”要素以对人群进行预先免疫的策略。实证研究已验证这种先发制人、聚焦来源的接种作为对抗措施的有效性,但其效果因情况而异[20 (https://arxiv.org/html/2606.00136#bib.bib20)]。这种主动、聚焦前兆的方法与其他框架形成鲜明对比: - • **被动操作流水线**:传统操作流水线(如检测→验证→辟谣)本质上是被动的,仅在内容存在后才运行。C5通过强调背景和成因,提供了在内容生成之前就存在的、可计算的前兆。 - • **SIR模型**:虽然流行病学模型(SIR)描述扩散,但往往缺乏解释为什么扩散发生的社会技术细微差别[21 (https://arxiv.org/html/2606.00136#bib.bib21)]。C5提供了语义层(背景/成因),解释数学传播模型的参数。本综述采用的C5模型充当组织两者的支架。它提供了一个结构(背景、成因、内容……),其中流水线模型中的计算任务可作为工具应用,过程模型中的理论动态可被理解和预测[9 (https://arxiv.org/html/2606.00136#bib.bib9)]。正是这种综合使C5模型成为开启主动范式的关键,因为它是唯一在“内容”(不实叙事)出现之前提供可计算前兆(“背景”和“成因”)的框架。 ## III. 新叙事的创建与播种(成因与内容) 在本分析中,我们将所有非事实或受操纵的信息流归类为合成噪声的广义范畴。我们根据意图区分这种噪声的两个不同向量: - • **对抗性不真实性**:由协调不真实行为(CIB)和恶意行为者驱动的故意活动。 - • **随机虚假信息**:由模型幻觉和概率错误导致的无意虚假制品。 尽管其来源不同——一个恶意,一个机械——但它们对生态系统韧性的下游影响在功能上是相同的:都降低了信息环境的信噪比。因此,本综述将两者视为对信息完整性的结构性威胁,无论创建者意图如何,都需要主动预见。 ### III-A 成因 恶意内容创建的成因取决于创建者及其传播合成叙事的动机。 #### III-A1 创建的民主化 GenAI大语言模型的出现降低了内容创建的时间和成本。“生成模型,特别是基于深度学习的生成模型,如GAN、VAE

相似文章

Provenance: 在人工智能主导的信息环境中的生存工具包

Reddit r/singularity

本文讨论了信息环境中日益严重的人工智能生成欺骗的威胁,并提出 provenance(内容认证的生态系统级采纳)作为补救措施,重点强调了如 AI 诈骗、捏造科学数据和协调虚假信息活动等风险。

随着AI能力提升,强化网络防御能力

OpenAI Blog

OpenAI 发布了一套管理AI模型网络能力的综合框架,指出在 CTF 性能上取得了显著进步(从 GPT-5 的 27% 提升到 GPT-5.1-Codex-Max 的 76%),并概述了纵深防御措施,以确保先进模型主要造福防御方,同时限制恶意使用。

使用生成式AI创建和评估用户画像:81篇文章的范围综述

arXiv cs.CL

本范围综述分析了81篇(2022-2025年)关于使用生成式AI创建和评估用户画像的文章,指出了其在可重复性方面的优势,但同时也揭示了关键问题:45%的研究缺乏评估,86%过度依赖GPT模型,以及存在同一模型既生成又评估画像的循环风险。

为大语言模型辅助的生物威胁创建构建早期预警系统

OpenAI Blog

# 为大语言模型辅助的生物威胁创建构建早期预警系统 来源:[https://openai.com/index/building-an-early-warning-system-for-llm-aided-biological-threat-creation/](https://openai.com/index/building-an-early-warning-system-for-llm-aided-biological-threat-creation/) *注:作为我们*[*预防性框架*⁠](https://openai.com/preparedness/)*的一部分,我们正在投资开发改进的AI赋能型安全风险评估方法。我们相信这些努力*