ArabDiscrim:一个关于种族主义与歧视的十年阿拉伯语Facebook语料库
摘要
ArabDiscrim是一个跨越十年的词汇资源与语料库,包含293K条关于种族主义和歧视的阿拉伯语Facebook帖子,并整合了互动信号、形态正则词族以及歧视轴,旨在支持面向公平性的阿拉伯语自然语言处理研究。
arXiv:2605.22081v1 公告类型:新论文
摘要:我们提出了ArabDiscrim,这是一个跨越十年的词汇资源与语料库,包含293K条讨论种族主义和歧视的阿拉伯语Facebook公开帖子(2014–2024年)。与现有以Twitter为中心的语料集不同,ArabDiscrim整合了平台原生的互动信号,包括反应、分享、评论和页面元数据,从而支持对语言与受众反应的联合分析。该资源包含200个精心挑选的术语(100个与种族主义相关,100个与歧视相关),配有形态正则词族(每个词条有13种以上词形变化),以及20个捕捉基于身份的不平等待遇的歧视轴。此外,它还提供了明确的归因模式。ArabDiscrim在遵守平台条款的道德合规要求下,以受限研究使用许可发布,支持弱监督、轴感知采样以及平台生态研究。通过桥接词汇深度与生态效度,它为面向公平性且具有平台意识的阿拉伯语自然语言处理奠定了基础。
查看缓存全文
缓存时间: 2026/05/22 08:45
# ArabDiscrim:一个关于种族主义与歧视的十年阿拉伯语Facebook语料库 来源:https://arxiv.org/abs/2605.22081 查看PDF(https://arxiv.org/pdf/2605.22081) > 摘要:我们提出了ArabDiscrim,一个跨越十年的词汇资源和包含29.3万条公开阿拉伯语Facebook帖子(2014-2024年)的语料库,这些帖子讨论了种族主义和歧视问题。与现有以Twitter为中心的语料库不同,ArabDiscrim整合了平台原生的互动信号,包括反应、分享、评论和页面元数据,从而能够对语言和受众反应进行联合分析。该资源包含200个精心挑选的术语(100个与种族主义相关,100个与歧视相关),附带形态学正则表达式族(每个词条有13种以上屈折形式),以及20个歧视轴,用于捕捉基于身份的不平等待遇理由。它还提供了明确的归因模式。为遵守平台条款,该资源以限制性研究许可发布,支持弱监督、轴感知采样和平台生态研究。通过连接词汇深度与生态效度,它为面向公平性、以平台为意识的阿拉伯语自然语言处理奠定了基础。 ## 提交历史 来自:Wajdi Zaghouani [查看电子邮件(https://arxiv.org/show-email/00ba6374/2605.22081)] **\[v1\]** 2026年5月21日星期四 07:21:33 UTC(619 KB)
相似文章
阿拉伯女性社会赋权与福祉的受众参与:十年语料库
本文介绍了阿拉伯女性与社会语料库,该语料库收集了十年来超过25万条与女性赋权和社会福祉相关的阿拉伯语Facebook帖子,并包含互动指标,可用于分析性别话语和情感倾向。
Cohesion-6K:一个用于分析在线话语中社会凝聚力与冲突的阿拉伯语数据集
介绍Cohesion-6K,一个由人工和ChatGPT辅助标注的包含6000条阿拉伯语Facebook帖子的数据集,内容涉及以色列占领巴勒斯坦,涵盖从冲突到凝聚力的类别。分析显示,冲突导向的帖子获得的互动量是解决导向帖子的2到4倍。
BOUTEF:北非假新闻的多语言语料库——语言作为武器
本文介绍了BOUTEF,一个用于研究阿尔及利亚和突尼斯假新闻的大规模多语言语料库,涵盖阿拉伯方言、Arabizi、法语、英语及语码转换。该语料库包含对语言策略和互动动态的实证分析。
从零构建阿拉伯语NLP:二十年的经验、失败与未解难题
全面回顾二十年阿拉伯语NLP研究,探讨该领域的经验、失败与未解难题。
AraHopeCorpus:阿拉伯社交媒体危机话语中希望言论的标注指南与数据集
本文介绍了AraHopeCorpus,这是首个针对阿拉伯社交媒体中希望言论的标注数据集,数据来自关于加沙战争的YouTube评论。文章提供了详细的标注框架和分析,表明希望性语言在危机话语中占主导地位。