阿拉伯女性社会赋权与福祉的受众参与:十年语料库
摘要
本文介绍了阿拉伯女性与社会语料库,该语料库收集了十年来超过25万条与女性赋权和社会福祉相关的阿拉伯语Facebook帖子,并包含互动指标,可用于分析性别话语和情感倾向。
arXiv:2605.22204v1 公告类型:新
摘要:本文介绍了阿拉伯女性与社会语料库,该语料库收集了2013年至2024年间来自77个国家51,660个页面的252,487条公开阿拉伯语Facebook帖子,内容涉及女性赋权和社会福祉,产生了超过2.67亿次用户互动。每条帖子都包含分享、评论和情感反应等互动指标,为分析受众情绪和社会关注度提供了独特视角。数据通过自动化流水线处理,包括语言识别、规范化与元数据清洗,确保可靠性与可重复性。该语料库支持对阿拉伯语各方言中的性别话语、社会改革和情感参与进行大规模分析,适用于阿拉伯语自然语言处理、计算社会科学和数字传播研究。数据集及附带文档将根据研究申请提供。
查看缓存全文
缓存时间: 2026/05/22 08:45
# 受众参与阿拉伯女性社会赋权与福祉:十年语料库 来源:https://arxiv.org/abs/2605.22204 查看 PDF (https://arxiv.org/pdf/2605.22204) > 摘要:本文介绍了“阿拉伯女性与社会语料库”,这是一个跨越十年、包含 252,487 条阿拉伯语公共 Facebook 帖子的集合,内容涉及女性赋权和社会福祉。该语料库收集自 2013 年至 2024 年间 77 个国家的 51,660 个页面,产生了超过 2.67 亿次用户互动。每条帖子都包含分享、评论和情感反应等参与度指标,提供了对受众情绪和社会关注的独特视角。数据通过自动化流水线处理,包括语言识别、标准化和元数据清洗,以确保可靠性和可复现性。该语料库支持对阿拉伯方言中的性别话语、社会改革和情感参与进行大规模分析。它有助于阿拉伯语自然语言处理、计算社会科学和数字传播研究。该数据集及其附带文档将在研究申请后发布。 ## 提交历史 来自:Wajdi Zaghouani [查看电子邮件](https://arxiv.org/show-email/4fdede53/2605.22204) **\[v1\]** 2026年5月21日星期四 09:10:09 UTC (427 KB)
相似文章
ArabDiscrim:一个关于种族主义与歧视的十年阿拉伯语Facebook语料库
ArabDiscrim是一个跨越十年的词汇资源与语料库,包含293K条关于种族主义和歧视的阿拉伯语Facebook帖子,并整合了互动信号、形态正则词族以及歧视轴,旨在支持面向公平性的阿拉伯语自然语言处理研究。
Cohesion-6K:一个用于分析在线话语中社会凝聚力与冲突的阿拉伯语数据集
介绍Cohesion-6K,一个由人工和ChatGPT辅助标注的包含6000条阿拉伯语Facebook帖子的数据集,内容涉及以色列占领巴勒斯坦,涵盖从冲突到凝聚力的类别。分析显示,冲突导向的帖子获得的互动量是解决导向帖子的2到4倍。
AraHopeCorpus:阿拉伯社交媒体危机话语中希望言论的标注指南与数据集
本文介绍了AraHopeCorpus,这是首个针对阿拉伯社交媒体中希望言论的标注数据集,数据来自关于加沙战争的YouTube评论。文章提供了详细的标注框架和分析,表明希望性语言在危机话语中占主导地位。
BOUTEF:北非假新闻的多语言语料库——语言作为武器
本文介绍了BOUTEF,一个用于研究阿尔及利亚和突尼斯假新闻的大规模多语言语料库,涵盖阿拉伯方言、Arabizi、法语、英语及语码转换。该语料库包含对语言策略和互动动态的实证分析。
基于LLM的阿拉伯语金融情绪分析:来自沙特市场的证据
本文提出了一种利用大语言模型进行阿拉伯语金融情绪分析的框架,专门针对沙特市场,整合新闻和社交媒体数据以捕捉投资者情绪。