Cohesion-6K:一个用于分析在线话语中社会凝聚力与冲突的阿拉伯语数据集

arXiv cs.CL 论文

摘要

介绍Cohesion-6K,一个由人工和ChatGPT辅助标注的包含6000条阿拉伯语Facebook帖子的数据集,内容涉及以色列占领巴勒斯坦,涵盖从冲突到凝聚力的类别。分析显示,冲突导向的帖子获得的互动量是解决导向帖子的2到4倍。

arXiv:2605.22447v1 公告类型:新提交 摘要:在线话语研究已成为理解社会两极化的核心。虽然许多研究侧重于检测明显的毒性内容,但社会凝聚力的微妙动态——即分裂性叙事与统一性叙事之间的相互作用——在计算层面仍未得到充分探索(Bail, 2021; Gonzalez-Bailon and Lelkes, 2023)。本文介绍了Cohesion-6K,一个由人工和ChatGPT辅助标注的包含六千条与以色列占领巴勒斯坦相关的阿拉伯语公共Facebook帖子数据集。每条帖子被分配到五个话语类别之一,这些类别代表从冲突到凝聚力的连续谱系:冲突、解决、社区参与、支持性互动和共享价值观。标注过程结合了专家人工判断与模型辅助预标注,并由经过培训的标注员进行验证,实现了实质性的标注者间一致性(Cohen's kappa = 0.85)。定量分析揭示了一致的参与差距,冲突导向的帖子获得的用户互动量是解决导向帖子的两到四倍(p < 0.01)。这一模式说明了分裂性话语如何在阿拉伯语社交媒体空间中往往获得不成比例的可见度。Cohesion-6K为研究在线凝聚力和两极分化提供了透明且可复现的资源。该数据集、标注指南和预处理代码将在开放许可下发布供研究使用,支持未来的计算社会科学、数字传播和阿拉伯语自然语言处理工作。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:47

# Cohesion-6K:用于分析在线话语中社会凝聚力与冲突的阿拉伯语数据集
来源:https://arxiv.org/abs/2605.22447
查看 PDF(https://arxiv.org/pdf/2605.22447)

> 摘要:在线话语研究已成为理解社会两极化的核心。尽管大量研究聚焦于检测显性毒性,但社会凝聚力的微妙动态——即分裂性叙事与统一性叙事之间的相互作用——在计算层面仍未被充分探索(Bail, 2021; Gonzalez-Bailon and Lelkes, 2023)。本文介绍了 Cohesion-6K,这是一个经人工和 ChatGPT 辅助标注的数据集,包含六千条与以色列占领巴勒斯坦相关的阿拉伯语公开 Facebook 帖子。每条帖子被归入五个话语类别之一,这些类别代表了从冲突到凝聚力的连续谱:冲突、解决、社区参与、支持性互动和共同价值观。标注过程结合了专家人工判断与模型辅助预标注(经培训的标注员验证),达到了显著的标注者间一致性(Cohen's kappa = 0.85)。定量分析显示出一致的参与度差距:面向冲突的帖子获得的用户互动量是面向解决的帖子的两到四倍(p < 0.01)。这一模式说明了分裂性话语在阿拉伯语社交媒体空间中往往获得不成比例的可见性。Cohesion-6K 为研究在线凝聚力与极化提供了透明且可复现的资源。该数据集、标注指南及预处理代码将以开放许可方式发布供研究使用,以支持未来在计算社会科学、数字传播及阿拉伯语自然语言处理领域的研究工作。

## 提交历史

来自:Wajdi Zaghouani [查看邮件](https://arxiv.org/show-email/93952aa6/2605.22447) **\[v1\]**2026年5月21日 星期四 13:16:28 UTC(576 KB)

相似文章