BOUTEF:北非假新闻的多语言语料库——语言作为武器
摘要
本文介绍了BOUTEF,一个用于研究阿尔及利亚和突尼斯假新闻的大规模多语言语料库,涵盖阿拉伯方言、Arabizi、法语、英语及语码转换。该语料库包含对语言策略和互动动态的实证分析。
查看缓存全文
缓存时间: 2026/06/02 15:36
# BOUTEF: 面向北非地区假新闻的多语言语料库——语言作为武器 来源:https://arxiv.org/abs/2606.00193 查看 PDF (https://arxiv.org/pdf/2606.00193) > 摘要:社交媒体上假新闻的迅速传播已成为一项重大挑战,尤其在多语言且资源匮乏的地区,如北非。本文介绍了BOUTEF——一个大规模多语言语料库,旨在研究阿尔及利亚和突尼斯假新闻的传播、特征及其影响。该语料库整合了三个互补部分:虚假叙事、真实叙事及相关用户生成评论,并附有经过验证的辟谣信息。它涵盖了广泛的语言及语言变体,包括现代标准阿拉伯语(MSA)、阿尔及利亚和突尼斯方言、阿拉伯语拉丁化拼写(Arabizi)、法语、英语及语码转换语言。基于这一资源,我们结合定量与定性方法进行了全面的实证分析。我们考察了主题分布、语言与修辞策略、情感模式以及社交参与动态。统计分析揭示了主题类别与信息真实性之间的显著关联,以及用户参与度与虚假内容可见性之间的强相关性。研究结果表明,假新闻严重依赖情感化叙事、煽动性框架以及混合语言实践,这些策略增强了其病毒式传播和受众参与度。相比之下,辟谣内容则更偏向事实和验证导向的风格。此外,阿尔及利亚与突尼斯的比较分析凸显了由社会政治语境塑造的共性动态及国家特有特征。结果强调了非正式语言实践在错误信息传播与接收中的作用。通过提供丰富注释且公开可用的数据集,本工作有助于推动假新闻检测、低资源语言处理以及在复杂语言环境中理解信息紊乱领域的研究。 ## 提交历史 来自:Amina Laggoun \[查看电子邮件 (https://arxiv.org/show-email/39c4ce18/2606.00193)\] **\[v1\]** 2026年5月29日,星期五,16:27:47 UTC(2,062 KB)
相似文章
阿拉伯女性社会赋权与福祉的受众参与:十年语料库
本文介绍了阿拉伯女性与社会语料库,该语料库收集了十年来超过25万条与女性赋权和社会福祉相关的阿拉伯语Facebook帖子,并包含互动指标,可用于分析性别话语和情感倾向。
ArabDiscrim:一个关于种族主义与歧视的十年阿拉伯语Facebook语料库
ArabDiscrim是一个跨越十年的词汇资源与语料库,包含293K条关于种族主义和歧视的阿拉伯语Facebook帖子,并整合了互动信号、形态正则词族以及歧视轴,旨在支持面向公平性的阿拉伯语自然语言处理研究。
移民之声与地方新闻:弥合社区需求与媒体内容差距的洞察
# 弥合社区需求与媒体内容差距的洞察 来源:[https://arxiv.org/html/2604.16651](https://arxiv.org/html/2604.16651) ## 移民之声与地方新闻:弥合社区需求与媒体内容差距的洞察 作者:Paula Dolores Rescala [paula\.rescala@epfl\.ch](https://arxiv.org/html/2604.16651v1/mailto:[email protected]),EPFL 瑞士 Victor Bros [vbros@idiap\.ch](https://arxiv.org/html/2604.16651v1/mailto:[email protected]),Idiap Research Institute 及 EPFL 瑞士 与 Daniel Gatica
BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集
# BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集 来源:[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要 大型语言模型(LLM)正日益被广泛用
Cohesion-6K:一个用于分析在线话语中社会凝聚力与冲突的阿拉伯语数据集
介绍Cohesion-6K,一个由人工和ChatGPT辅助标注的包含6000条阿拉伯语Facebook帖子的数据集,内容涉及以色列占领巴勒斯坦,涵盖从冲突到凝聚力的类别。分析显示,冲突导向的帖子获得的互动量是解决导向帖子的2到4倍。