阴谋论的语义结构与演变测量

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本论文使用来自 r/politics 的 169.9 百万条 Reddit 评论（2012-2022），测量了阴谋论的语义结构和演变，引入了由语义邻域界定的"语义对象"概念，以追踪阴谋论的含义如何随时间变化，超越了简单的关键词方法。

arXiv:2603.26062v2 公告类型：替换摘要：关于阴谋论的研究主要关注信念形成、接触和传播，而对其含义如何随时间变化的关注较少。这一空白部分源于阴谋论相关术语常被视为稳定的词汇标记，这使得难以区分真正的语义变化和表面词汇变化。在本论文中，我们测量了在线政治话语中阴谋论的语义结构和演变。使用来自 Reddit r/politics 子版块的 169.9 百万条评论（跨越 2012-2022 年），我们首先证明了阴谋论相关语言在语言空间中形成了连贯且语义上可区分的区域，使阴谋论能够被视为语义对象。随后，我们使用对齐的词嵌入追踪这些对象如何随时间演变，从而能够比较不同时期的语义邻域。我们的分析表明，阴谋论演变存在不均匀性，呈现出语义稳定性、扩展、收缩和替换的模式，这些模式无法通过仅基于关键词的方法被捕捉。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:32

# 衡量阴谋论的语义结构和演变

来源: https://arxiv.org/html/2603.26062

###### 摘要

关于阴谋论的研究主要关注信念形成、接触和传播，而较少关注其含义如何随时间变化。这一差距部分原因在于阴谋相关术语通常被视为稳定的词汇标记，这使得很难将真正的语义变化与表面层面的词汇变化区分开来。本文通过测量在线政治话语中阴谋论的语义结构和演变。我们使用来自Reddit的r/politics子版块在2012-2022年间的1.699亿条评论，首先证明了阴谋相关语言在语言空间中形成了连贯且语义可区分的区域，使阴谋论能够被视为语义对象。随后，我们使用对齐的词嵌入来追踪这些对象如何随时间演变，使得能够比较不同时间点的"语义邻域"。我们的分析表明，阴谋论演变不均匀，展现出仅靠基于关键词的方法无法捕捉到的语义稳定性、扩展、收缩和替换模式。

## 1引言

2016年11月，一名枪手走进华盛顿特区的Comet Ping Pong披萨店，用AR-15步枪射击，以"自我调查"该餐厅隐藏儿童贩运案的说法，声称这是由民主党官员运营的。激发这次攻击的阴谋论"Pizzagate"最初是针对与希拉里·克林顿竞选主席有关的单家披萨店的具体指控。然而到2020年，"Pizzagate"被吸收到QAnon阴谋论中，不仅关联到儿童贩运，还关联到关于全球精英秘密网络、深层政府行动者和机制控制的说法。尽管"Pizzagate"这个术语在这些年间保持不变，但其含义——它所涵盖的概念、行为者和叙事——本质上发生了转变和分裂。这说明了一个根本性挑战：区分语义演变（阴谋论含义的变化）与词汇流失（用来表达它的词汇的变化）。

现有研究主要关注谁相信阴谋论、如何传播以及驱动信念形成的心理因素(Douglas等人2017 https://arxiv.org/html/2603.26062#bib.bib39；Del Vicario等人2016 https://arxiv.org/html/2603.26062#bib.bib38；Samory和Mitra2018b https://arxiv.org/html/2603.26062#bib.bib12)，而对阴谋论含义如何随时间变化的理解仍然研究不足。传统的基于关键词的方法(Gulordava和Baroni2011 https://arxiv.org/html/2603.26062#bib.bib41)追踪特定术语如"pizzagate"或"深层政府"，但无法区分三个根本不同的过程：(i)术语本身持续存在但其基础含义发生转变，(ii)含义保持稳定但词汇完全改变，(iii)单一理论分裂成多个解释且由同一术语引用。

通过借助分布语义学，我们超越孤立的关键词，使用"语义邻域"——与阴谋论一致共现并定义其在话语中实际含义的术语集合。这种方法允许我们定义"语义对象"：由语义邻域界定的连贯区域。我们将这些作为稳定的分析单位，代表给定时空中阴谋论的含义。这使我们能够追踪这些对象如何演变，无论它们是保持稳定、在语义空间中重新定位、扩展或收缩，还是分裂成多个含义——同时分别测量词汇流失，揭示先前方法根本无法捕捉的演变模式。

我们开发并应用了"语义对象框架"来研究在线政治话语中的阴谋论演变。使用来自Reddit的r/politics在2012-2022年间的1.699亿条评论，我们解决两个研究问题：

- **RQ1. 与阴谋论话语相关的语言在语义上是否可与非阴谋论话语区分？**（第3节 https://arxiv.org/html/2603.26062#S3）具体来说，我们问阴谋相关话语是否占据与非阴谋论话语有意义区隔的连贯且可区分的语言表达区域。我们关注建立这一属性，因为只有当阴谋论语言在所研究的话语内形成连贯且可区分的语义区域时，才能有意义地研究语义演变；如果没有这样的结构，由于它们会分散在整个语言中，无论是单个阴谋论还是其随时间的相互作用都无法被很好地定义。我们通过构建以19个不同阴谋论为锚点的"语义邻域"，并使用基于嵌入的聚类分析和人类专家注释来评估它们的连贯性和边界，来解决这个问题。这一步骤确立了与阴谋论相关的"语义邻域"是否可以被视为"语义对象"。

- **RQ2. 与阴谋论相关的语义和词汇如何随时间演变？**（第4节 https://arxiv.org/html/2603.26062#S4）基于RQ1的发现，我们通过建立在先前关于历时词嵌入的研究(Hamilton等人2016 https://arxiv.org/html/2603.26062#bib.bib29；Kulkarni等人2015 https://arxiv.org/html/2603.26062#bib.bib28)之上，来解决这个问题，以创建一个分析框架，允许跨时间段比较"语义对象"，每个对象代表单个阴谋论的"语义邻域"。这些比较使我们能够直接推理时间上的语义变化，而不仅仅依赖于词汇转变，从而能够准确追踪和表征与个别阴谋论相关的演变模式。除了语义转变外，我们还追踪词汇变化以捕捉即使基础含义保持稳定时围绕这些理论使用的语言如何变化。

总体而言，我们的发现表明阴谋相关话语形成连贯且语义可区分的聚类，验证了使用阴谋相关语义对象作为我们分析框架中的单位。我们还发现，阴谋论演变不均匀，有些在长期内保持其语义核心，有些要么缩小其语义以反映更具体的理论，要么通过吸收其他理论的概念来扩展其语义，还有少数经历剧烈转变而保留很少的过往含义。我们发现许多这些模式对于仅关注词汇或关键词的方法而言基本上是不可见的。我们还观察到，政治丑闻阴谋论经历了语义替换，而精英控制阴谋论则发展出了多个分化的叙事。

## 2数据和预处理

本节描述我们的数据集、构建时间嵌入的方法，以及识别阴谋论和其主题的方法。

**识别阴谋论和主题概念标签。** 我们关注在2012-2017年期间突出的固定19个阴谋论集合(参见表1 https://arxiv.org/html/2603.26062#S3.T1)。虽然这不是一个详尽的集合，但它可作为概念验证。这里提出的想法可以扩展到任意阴谋论。这一选择使我们能够专注于审查这些理论如何在我们研究的三个时间段内演变，因为社会和政治动态在变化。这些阴谋论是基于先前学术文献(Mahl等人2021 https://arxiv.org/html/2603.26062#bib.bib20；Hanley等人2023 https://arxiv.org/html/2603.26062#bib.bib34；Samory和Mitra2018a https://arxiv.org/html/2603.26062#bib.bib13、b https://arxiv.org/html/2603.26062#bib.bib12；Bessi等人2015a https://arxiv.org/html/2603.26062#bib.bib25；Schabes2020 https://arxiv.org/html/2603.26062#bib.bib35)和媒体报道(Thomas2025 https://arxiv.org/html/2603.26062#bib.bib36；Uscinski2016 https://arxiv.org/html/2603.26062#bib.bib37)策划的。这些理论包括成熟的美国中心阴谋论(例如光照派和化学尾迹)、事件驱动的阴谋论(例如与Sandy Hook枪击事件和波士顿轰炸相关的)，以及明确的政治阴谋论(例如Emailgate和Russiagate)。对于每一个，我们定义了一个"概念标签"：一个封装该理论核心主题并将其固定在话语中的术语。这些标签反映了特定理论在在线讨论中的常见引用方式。例如，概念标签"深层政府"指的是关于隐藏的政府行为者网络秘密控制美国政策的阴谋。每个概念标签作为识别围绕阴谋论的相关话语的入口点。这受到先前工作的启发(Samory和Mitra2018b https://arxiv.org/html/2603.26062#bib.bib12、a https://arxiv.org/html/2603.26062#bib.bib13)，该工作描述了类似的"总体主题"，这些主题在在线社区中结构化了阴谋论话语。我们将这些概念标签视为锚点而非详尽表示——即，我们不假设阴谋论完全由这些标签捕捉。相反，这些标签用于识别和分析阴谋论话语出现的更广泛的语义邻域。

**数据集。** 我们的基线数据集包含来自Reddit的r/politics子版块在2012至2022年期间的1.699亿条评论——这一时期包括多次高度争议的选举、经济不稳定和全球大流行。我们选择r/politics子版块的两个主要原因。首先，它是Reddit上最大的美国政治讨论空间，在整个研究期间保持持续参与。其次，美国相关的阴谋论经常在该子版块的评论中出现，无论是直接出现还是通过反驳。这些因素结合在一起，使其成为在主流美国政治背景下研究阴谋论话语演变的合适场所。我们刻意避免以阴谋论为中心的社区(例如r/conspiracy)，因为它们代表利基社区，其中阴谋论是常态化的，很少受到批评或质疑。我们的目标是理解阴谋论在主流话语中的演变，同时考虑阴谋论叙事在时间上的表述、反驳和重新框架。

**构建时间词嵌入。** 在构建嵌入之前，我们通过删除URL、消除停用词、标准化大小写和执行词形还原来预处理每条评论。我们构建词嵌入以捕捉词之间的语义关系，使我们能够模拟术语和整个阴谋论的含义如何随时间演变。我们还将评论分配到三个美国特定的政治时间段：2012-2014年(以Sandy Hook和"危机演员"等事件为标志的边缘性阴谋论话语时期)、2015-2019年(与2016年选举相关的主流化和政治凸显的阴谋论)，以及2020-2022年(受疫情驱动的阴谋论叙事)，每个时段反映不同的背景。我们承认时间跨度不相等，因为我们的关注点是美国政治中的不同政治时期。但是，我们的方法推广到任何时间段。

接下来，为了识别多词表达，我们使用基于条件概率的方法，其动机来自于许多阴谋论术语从短词组合而非单个词派生其含义的观察。另外，我们关注二元组，因为它们足够表达以捕捉这些含义(例如false flag、crisis actor)，同时频率足够高以允许统计估计。对于每个二元组(w₁, w₂)，我们计算条件概率Pr(w₂|w₁)。我们相对于此条件概率分布为所有二元组计算z-分数，并保留z-分数超过1.96(在正态近似下约为第95百分位)的那些作为显著的。显著的二元组在包含它们的每条评论中被折叠为单个标记(例如，二元组false flag被折叠为单个标记false_flag)。此过程递归执行，以便可以识别n元短语。最后，对于每个时间段，我们使用Word2Vec(Mikolov等人2013 https://arxiv.org/html/2603.26062#bib.bib40)架构基于该时间段的处理评论构建独立的词嵌入。具体来说，我们训练一个连续词袋(CBOW)模型，嵌入维度为100，上下文窗口大小为5，最小标记频率阈值为5。因此，每个嵌入捕捉词(和识别的短语)如何在特定时间背景内使用时之间的语义关系，独立于它们在其他时间段中出现的方式。我们选择Word2Vec而不是更新的基于Transformer的模型，因为Basile等人(2020 https://arxiv.org/html/2603.26062#bib.bib6)发现历时嵌入在静态嵌入中表现更好。这些嵌入为RQ1和RQ2都提供了基础。在RQ1中，我们使用它们识别和验证阴谋相关的语义区域。在RQ2中，我们跨时段对齐这些嵌入，并分析与每个阴谋论相关的语义邻域如何随时间演变。

## 3 RQ1：阴谋论语言在语义上是否可区分？

在这里，我们问与阴谋论相关的语言是否占据所有在线政治话语内一个连贯且语义可区分的区域。确立这一属性是研究我们19个阴谋论语义演变的前提条件，因为如果没有定义良好的语义结构存在，个别阴谋论就无法被有意义地表示、比较或随时间追踪。

为了回答RQ1，我们检查阴谋论话语是否形成与所有政治话语相关的语义空间内一个内部连贯且外部可分的区域。RQ1可能产生负结果。如果阴谋论话语在语义上与所有其他政治话语无区别，围绕我们概念标签的聚类会显示低连贯性，人类验证与语义距离的衡量不一致。如果这两个条件中的任何一个发生，我们无法识别代表个别阴谋论的语义邻域。相反，如果我们发现围绕我们概念标签的连贯聚类和手动验证的语义距离衡量，这表明阴谋论语言在语义上与其他政治话语可区分，围绕每个概念标签的语义对象(聚类)代表围绕每个阴谋论的叙事。

### 3.1方法

我们的目标是确定每个阴谋论是否占据语义空间的局部化和连贯区域，而不是分散或任意的术语集合。直观地说，如果阴谋论在话语中有有意义的存在，用来讨论它的词和短语应该在语义空间中聚集在一起。为了识别这样的区域，我们将每个阴谋论的概念标签视为锚点，然后问：自然形成围绕此标签的最小语义邻域是什么？与其预定义邻域的大小，我们允许嵌入的结构来指导识别。

阴谋论的语义结构与演变测量

相似文章

它们能走多远？利用大型语言模型对在线影响力进行红队测试

ToxiREX：上下文中有毒推理的数据集

研究求助：观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]

人类与AI生成语言的动态：语义在不同时间尺度上的波动

改变我的观点？在线话语中的说服与极化动态

提交意见反馈