BOUTEF:北非假新闻的多语言语料库——语言作为武器

arXiv cs.CL 论文

摘要

本文介绍了BOUTEF,一个用于研究阿尔及利亚和突尼斯假新闻的大规模多语言语料库,涵盖阿拉伯方言、Arabizi、法语、英语及语码转换。该语料库包含对语言策略和互动动态的实证分析。

arXiv:2606.00193v1 公告类型:新 摘要:社交媒体上假新闻的迅速传播已成为一项重大挑战,尤其是在北非等多语言且资源匮乏的地区。本文介绍了BOUTEF,一个大规模多语言语料库,旨在研究阿尔及利亚和突尼斯假新闻的传播、特征及影响。该语料库整合了三个互补的组成部分:虚假叙述、真实叙述以及相关的用户生成评论,并附有经过验证的辟谣信息。它涵盖多种语言及语言变体,包括现代标准阿拉伯语(MSA)、阿尔及利亚和突尼斯方言、Arabizi、法语、英语及语码转换。基于这一资源,我们结合定量与定性方法进行了全面的实证分析。我们考察了主题分布、语言和修辞策略、情感模式以及社交互动动态。统计分析揭示了主题类别与信息真实性之间的显著关联,以及用户互动与虚假内容可见性之间的强相关性。研究结果表明,假新闻严重依赖情感化的叙述、耸人听闻的框架以及增强病毒式传播和受众参与的混合语言实践。相比之下,辟谣内容则采用更注重事实和验证的风格。此外,阿尔及利亚与突尼斯之间的对比分析揭示了共同的动态以及由社会政治背景塑造的特定国家特征。结果强调了非正式语言实践在错误信息传播与接收中的作用。通过提供一个丰富、带注释且公开可用的数据集,本研究为推进假新闻检测、低资源语言处理以及理解复杂语言环境中的信息失序做出了贡献。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:36

# BOUTEF: 面向北非地区假新闻的多语言语料库——语言作为武器
来源:https://arxiv.org/abs/2606.00193
查看 PDF (https://arxiv.org/pdf/2606.00193)

> 摘要:社交媒体上假新闻的迅速传播已成为一项重大挑战,尤其在多语言且资源匮乏的地区,如北非。本文介绍了BOUTEF——一个大规模多语言语料库,旨在研究阿尔及利亚和突尼斯假新闻的传播、特征及其影响。该语料库整合了三个互补部分:虚假叙事、真实叙事及相关用户生成评论,并附有经过验证的辟谣信息。它涵盖了广泛的语言及语言变体,包括现代标准阿拉伯语(MSA)、阿尔及利亚和突尼斯方言、阿拉伯语拉丁化拼写(Arabizi)、法语、英语及语码转换语言。基于这一资源,我们结合定量与定性方法进行了全面的实证分析。我们考察了主题分布、语言与修辞策略、情感模式以及社交参与动态。统计分析揭示了主题类别与信息真实性之间的显著关联,以及用户参与度与虚假内容可见性之间的强相关性。研究结果表明,假新闻严重依赖情感化叙事、煽动性框架以及混合语言实践,这些策略增强了其病毒式传播和受众参与度。相比之下,辟谣内容则更偏向事实和验证导向的风格。此外,阿尔及利亚与突尼斯的比较分析凸显了由社会政治语境塑造的共性动态及国家特有特征。结果强调了非正式语言实践在错误信息传播与接收中的作用。通过提供丰富注释且公开可用的数据集,本工作有助于推动假新闻检测、低资源语言处理以及在复杂语言环境中理解信息紊乱领域的研究。

## 提交历史

来自:Amina Laggoun \[查看电子邮件 (https://arxiv.org/show-email/39c4ce18/2606.00193)\] **\[v1\]** 2026年5月29日,星期五,16:27:47 UTC(2,062 KB)

相似文章

移民之声与地方新闻:弥合社区需求与媒体内容差距的洞察

arXiv cs.CL

# 弥合社区需求与媒体内容差距的洞察 来源:[https://arxiv.org/html/2604.16651](https://arxiv.org/html/2604.16651) ## 移民之声与地方新闻:弥合社区需求与媒体内容差距的洞察 作者:Paula Dolores Rescala [paula\.rescala@epfl\.ch](https://arxiv.org/html/2604.16651v1/mailto:[email protected]),EPFL 瑞士 Victor Bros [vbros@idiap\.ch](https://arxiv.org/html/2604.16651v1/mailto:[email protected]),Idiap Research Institute 及 EPFL 瑞士 与 Daniel Gatica

BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL

# BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集 来源:[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要 大型语言模型(LLM)正日益被广泛用