ArabDiscrim:一个关于种族主义与歧视的十年阿拉伯语Facebook语料库

arXiv cs.CL 论文

摘要

ArabDiscrim是一个跨越十年的词汇资源与语料库,包含293K条关于种族主义和歧视的阿拉伯语Facebook帖子,并整合了互动信号、形态正则词族以及歧视轴,旨在支持面向公平性的阿拉伯语自然语言处理研究。

arXiv:2605.22081v1 公告类型:新论文 摘要:我们提出了ArabDiscrim,这是一个跨越十年的词汇资源与语料库,包含293K条讨论种族主义和歧视的阿拉伯语Facebook公开帖子(2014–2024年)。与现有以Twitter为中心的语料集不同,ArabDiscrim整合了平台原生的互动信号,包括反应、分享、评论和页面元数据,从而支持对语言与受众反应的联合分析。该资源包含200个精心挑选的术语(100个与种族主义相关,100个与歧视相关),配有形态正则词族(每个词条有13种以上词形变化),以及20个捕捉基于身份的不平等待遇的歧视轴。此外,它还提供了明确的归因模式。ArabDiscrim在遵守平台条款的道德合规要求下,以受限研究使用许可发布,支持弱监督、轴感知采样以及平台生态研究。通过桥接词汇深度与生态效度,它为面向公平性且具有平台意识的阿拉伯语自然语言处理奠定了基础。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:45

# ArabDiscrim:一个关于种族主义与歧视的十年阿拉伯语Facebook语料库
来源:https://arxiv.org/abs/2605.22081
查看PDF(https://arxiv.org/pdf/2605.22081)

> 摘要:我们提出了ArabDiscrim,一个跨越十年的词汇资源和包含29.3万条公开阿拉伯语Facebook帖子(2014-2024年)的语料库,这些帖子讨论了种族主义和歧视问题。与现有以Twitter为中心的语料库不同,ArabDiscrim整合了平台原生的互动信号,包括反应、分享、评论和页面元数据,从而能够对语言和受众反应进行联合分析。该资源包含200个精心挑选的术语(100个与种族主义相关,100个与歧视相关),附带形态学正则表达式族(每个词条有13种以上屈折形式),以及20个歧视轴,用于捕捉基于身份的不平等待遇理由。它还提供了明确的归因模式。为遵守平台条款,该资源以限制性研究许可发布,支持弱监督、轴感知采样和平台生态研究。通过连接词汇深度与生态效度,它为面向公平性、以平台为意识的阿拉伯语自然语言处理奠定了基础。

## 提交历史

来自:Wajdi Zaghouani [查看电子邮件(https://arxiv.org/show-email/00ba6374/2605.22081)] **\[v1\]**  
2026年5月21日星期四 07:21:33 UTC(619 KB)

相似文章