基于LLM的操纵性政治叙事检测

Hugging Face Daily Papers 论文

摘要

一种结合基于提示的过滤和无监督聚类的计算框架,用于从社交媒体帖子中识别操纵性政治叙事聚类,无需预定义类别。

我们提出了一种新的计算框架,用于检测和构建操纵性政治叙事。由于政治讨论向社交媒体转移,这一任务变得更加重要。其中的主要挑战之一是如何区分操纵性政治叙事与合法批评。有些帖子也可能在操纵性背景下重新框架化实际事件。 为了实现良好的聚类结果,我们事先使用详细的少样本提示来过滤操纵性帖子,该提示结合了有记录的运动叙事和合法批评来区分它们。这个提示使推理模型能够分配标签,仅保留操纵性叙事帖子以供进一步处理。 剩余的帖子随后使用UMAP进行嵌入和降维,然后应用HDBSCAN来揭示叙事组。这种无监督方法的一个关键优势是独立于预定义的目标类别列表,使其能够发现新的叙事聚类。 最后,使用推理模型来揭示每个聚类背后的叙事。该方法应用于超过120万条社交媒体帖子,通过将基于提示的过滤与无监督聚类相结合,有效识别了41个不同的操纵性叙事聚类。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - 基于LLM的操控性政治叙事检测

来源:https://huggingface.co/papers/2605.14354

摘要

一种结合基于提示的过滤与无监督聚类的计算框架,能够从社交媒体帖子中识别出操控性政治叙事聚类,而无需预定义类别。

我们提出了一种新的计算框架,用于检测和结构化操控性政治叙事。由于政治讨论向社交媒体的转移,这一任务变得愈发重要。其中的主要挑战之一在于区分操控性政治叙事和合法批评。有些帖子还可能在操控性语境中重新框定实际事件。为实现良好的聚类效果,我们首先使用详细的少样本提示(https://huggingface.co/papers?q=few-shot%20prompt)对操控性帖子进行预过滤,该提示结合了已有的竞选叙事与合法批评,以便加以区分。这一提示使推理模型能够分配标签,仅保留操控性叙事帖子用于后续处理。随后,对保留的帖子进行嵌入,并使用UMAP(https://huggingface.co/papers?q=UMAP)降维,再应用HDBSCAN(https://huggingface.co/papers?q=HDBSCAN)来揭示叙事组。这种无监督方法的一大关键优势在于它不依赖于预定义的目标类别列表,因此能够发现新的叙事聚类。最后,使用推理模型来揭示每个聚类背后的叙事。该方法应用于超过120万条社交媒体帖子,通过整合基于提示的过滤(https://huggingface.co/papers?q=prompt-based%20filtering)与无监督聚类(https://huggingface.co/papers?q=unsupervised%20clustering),有效识别出41个不同的操控性叙事聚类。

查看arXiv页面(https://arxiv.org/abs/2605.14354)查看PDF(https://arxiv.org/pdf/2605.14354)GitHub0(https://github.com/SinclairSchneider/manipulative_narrative_detection)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.14354)

在您的智能体中获取此论文:

hf papers read 2605\.14354

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在一个模型的README.md中引用arxiv.org/abs/2605.14354,以便从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在一个数据集的README.md中引用arxiv.org/abs/2605.14354,以便从此页面链接。

引用此论文的Space0

没有Space链接此论文

请在一个Space的README.md中引用arxiv.org/abs/2605.14354,以便从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便从此页面链接。

相似文章

默认极化:LLM 内容策展中的推荐偏差审计

arXiv cs.CL

本文对 OpenAI、Anthropic 和 Google 的基于 LLM 的内容策展推荐偏差进行了大规模审计,使用了来自 Twitter/X、Bluesky 和 Reddit 数据的 540,000 次模拟选择。研究发现 LLM 系统性地放大极化现象,在毒性处理方面表现出不同的权衡,并显示出显著的政治倾向偏差,倾向于左倾作者,尽管数据集中右倾作者占多数。