土耳其语和阿拉伯语中的仇恨言论检测:一项综合研究

arXiv cs.CL 论文

摘要

介绍了针对土耳其语和阿拉伯语的全面仇恨言论数据集,并开发了基于BERT的最先进模型,用于仇恨言论分析,包括分类、强度预测、目标识别和跨度检测。

arXiv:2607.00143v1 公告类型:新 摘要:在线仇恨言论已被关联到全球范围内针对少数群体的暴力事件上升,包括大规模枪击、私刑和种族清洗等。当仇恨言论针对特定群体(基于宗教、种族、民族、文化、国籍或移民身份)时,处理这一问题的社会面临挑战,需要在广泛使用的在线平台上平衡言论自由与有效内容审核的需求。为应对这一挑战,我们引入了一个全面的仇恨言论数据集,涵盖土耳其语中的五个不同主题:难民、以色列-巴勒斯坦冲突、土耳其的反希腊情绪、民族或宗教社群(阿列维派、亚美尼亚人、阿拉伯人、犹太人和库尔德人)以及LGBTI+,同时还有一个阿拉伯语主题(难民)。此外,我们开发了基于BERT的最先进模型,以解决仇恨言论分析的多个维度,包括仇恨类别分类、仇恨强度预测、目标识别和仇恨言论跨度检测,从而实现对在线话语中仇恨内容的全面理解。
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:35

# 土耳其语和阿拉伯语中的仇恨言论检测:一项综合研究
来源:https://arxiv.org/html/2607.00143
\\yil\\vol\\fpage\\lpage

Elif EROL4https://orcid.org/0009-0000-1554-0622, Arzucan ÖZGÜR3https://orcid.org/0000-0001-8376-1056, Berrin YANIKOGLU1,2https://orcid.org/0000-0001-7403-7592  
1 萨班哲大学计算机工程系,土耳其伊斯坦布尔,34956  
2 萨班哲大学数据分析卓越中心(VERIM),土耳其伊斯坦布尔,34956  
3 博阿齐奇大学计算机工程系,土耳其伊斯坦布尔,34342  
4 赫兰特·丁克基金会,土耳其伊斯坦布尔,34373  
\\rec

###### 摘要

在线仇恨言论与全球范围内针对少数群体的暴力事件(包括大规模枪击、私刑和种族清洗)的增加有关。应对这一问题的社会,尤其是当仇恨言论基于宗教、种族、民族、文化、国籍或移民身份针对特定群体时,面临着平衡表达自由与在广泛使用的在线平台上进行有效内容审核的需求。为此,我们引入了一个全面的仇恨言论数据集,涵盖土耳其语中五个不同主题:难民、以色列-巴勒斯坦冲突、土耳其的反希腊情绪、种族或宗教社区(阿拉维派、亚美尼亚人、阿拉伯人、犹太人和库尔德人)以及LGBTI+,同时包含一个阿拉伯语主题(难民)。此外,我们开发了基于BERT的最先进模型,以解决仇恨言论分析的多个维度,包括仇恨类别分类、仇恨强度预测、目标识别和仇恨言论跨度检测,从而对在线话语中的仇恨内容实现全面理解。

###### 关键词:

仇恨言论检测,仇恨强度预测,仇恨言论目标识别,仇恨言论跨度检测,自然语言处理,BERT,ChatGPT

## 免责声明:

本研究报告包含用于研究目的的攻击性语言和仇恨言论示例。这些示例不代表作者的观点,仅用于支持检测和预防针对弱势社区的有害内容。

## 1 引言

随着社交媒体的广泛使用,在线平台日益成为仇恨言论可以快速传播的空间。此类内容助长敌意和不容忍,并在某些情况下助长针对宗教、种族、民族和性别群体的现实世界暴力。因此,检测和减轻仇恨言论已成为在线平台和政策制定者面临的关键挑战。为了解决这个问题,研究人员越来越多地转向自然语言处理(NLP)技术,该技术能够自动识别和分析大量社交媒体文本中的仇恨内容。

由于定义仇恨言论的复杂性和语言的细微差别,仇恨言论检测是一项具有挑战性的任务。近年来,许多研究集中在开发社交媒体中仇恨言论的自动检测方法上。然而,针对土耳其语和阿拉伯语的仇恨言论检测研究数量有限。早期的仇恨言论检测方法侧重于使用手动选择的仇恨关键词词典[1 (https://arxiv.org/html/2607.00143#bib.bib1),2 (https://arxiv.org/html/2607.00143#bib.bib2)]。然而,这种技术的有效性往往有限,因为仇恨言论并不总是明显的。该领域最近的研究,特别是针对英语的研究,已转向n-grams、TF-IDF和词嵌入技术(例如Word2Vec、GLoVe)[3 (https://arxiv.org/html/2607.00143#bib.bib3),4 (https://arxiv.org/html/2607.00143#bib.bib4),5 (https://arxiv.org/html/2607.00143#bib.bib5)]。

更近期的进展利用了大型语言模型(例如BERT、RoBERTa、ConvBERT、mBERT和XLM-R)进行仇恨言论检测[6 (https://arxiv.org/html/2607.00143#bib.bib6),7 (https://arxiv.org/html/2607.00143#bib.bib7),8 (https://arxiv.org/html/2607.00143#bib.bib8),9 (https://arxiv.org/html/2607.00143#bib.bib9),10 (https://arxiv.org/html/2607.00143#bib.bib10),11 (https://arxiv.org/html/2607.00143#bib.bib11),12 (https://arxiv.org/html/2607.00143#bib.bib12),13 (https://arxiv.org/html/2607.00143#bib.bib13)]。此外,该领域的大多数研究采用二元方法进行仇恨言论分类。然而,当代研究已经认识到这种方法的局限性,促使向多类分类转变,以便更好地理解仇恨言论的性质和维度[14 (https://arxiv.org/html/2607.00143#bib.bib14),15 (https://arxiv.org/html/2607.00143#bib.bib15)]。

此外,预测仇恨强度是一个有价值的指标,用于评估仇恨和攻击性言论的程度[16 (https://arxiv.org/html/2607.00143#bib.bib16)]。仇恨强度预测,或仇恨言论强度预测,涉及评估给定信息中表达的仇恨的水平(程度)或严重性(强度)。此任务超越简单地将信息分类为仇恨或非仇恨;它旨在量化仇恨情感的强度或极端程度。通过确定仇恨的程度,这种方法提供了对攻击性内容的更细粒度理解,使研究人员和从业者能够区分轻度与严重的仇恨表达[17 (https://arxiv.org/html/2607.00143#bib.bib17),18 (https://arxiv.org/html/2607.00143#bib.bib18),16 (https://arxiv.org/html/2607.00143#bib.bib16)]。

尽管仇恨言论检测模型显著增加,但许多这些研究未能解决特定仇恨言论目标的识别问题,尤其是在土耳其语和阿拉伯语中。识别目标群体对于理解仇恨言论的范围和潜在影响也至关重要,因为针对特定群体(如难民、女性或LGBTI+群体)的信息会带来不同的社会风险。不幸的是,缺乏明确标注这些目标的全面数据集阻碍了这一领域的进展[19 (https://arxiv.org/html/2607.00143#bib.bib19),20 (https://arxiv.org/html/2607.00143#bib.bib20)]。

此外,精确定位文本中仇恨内容的具体跨度,而不仅仅是分类整个信息,是另一种有前景但探索有限的方法。跨度检测提供了对攻击性内容更细粒度的识别,从而更好地洞察仇恨言论的性质和严重性[21 (https://arxiv.org/html/2607.00143#bib.bib21)]。与标记整个文本的传统分类不同,跨度检测识别负责表达仇恨言论的具体片段。这种方法对人类审核员尤其有益,他们通常处理冗长、繁琐的评论,并更喜欢清晰的解释,而不是缺乏上下文的系统生成标签。最近的研究还表明,结构化解释(例如高亮特定仇恨跨度)可以通过减少决策时间来提升审核员效率[22 (https://arxiv.org/html/2607.00143#bib.bib22)]。

在本研究中,我们引入了一个新数据集,并对土耳其语和阿拉伯语的仇恨言论话语进行了全面分析。与先前通常只关注一两个方面的研究不同,我们的研究涵盖了使用基于BERT模型进行的仇恨言论分类、仇恨强度预测、目标群体识别和跨度检测。通过将这些相互关联的任务结合在一起,我们旨在提供对仇恨言论话语、其强度及其针对性性质的更深入理解,提供一个推动该领域发展的整体视角。

我们的主要贡献如下:

- • 我们引入了一个新颖且广泛的数据集,涵盖土耳其语中五个不同主题——难民、以色列-巴勒斯坦冲突、土耳其的反希腊情绪、LGBTI+以及宗教/种族/民族——以及一个阿拉伯语主题(难民)。
- • 我们开发了基于BERT的最先进模型,用于多项仇恨言论分析任务,包括分类、强度预测、目标识别和跨度检测。
- • 我们利用ChatGPT进行主题标签分割和合成数据生成,以提高数据质量并缓解类别不平衡。
- • 我们为土耳其语和阿拉伯语的多维度仇恨言论分析提供了首个综合基准。

本文组织结构如下:在第2节 (https://arxiv.org/html/2607.00143#S2)中,我们介绍了我们的仇恨言论数据集、数据标注过程以及标注者间一致性的统计分析。在第3节 (https://arxiv.org/html/2607.00143#S3)中,我们详细介绍了提出的方法,包括基于Transformer模型的架构、基线模型、用于仇恨言论分类的双重对比学习、用于预测仇恨强度的回归模型、用于目标识别的多标签分类模型、用于跨度检测的令牌分类模型,以及使用ChatGPT进行的标签分割和合成数据生成。第4节 (https://arxiv.org/html/2607.00143#S4)展示了我们的实验结果,突出了性能提升。最后,第5节 (https://arxiv.org/html/2607.00143#S5)总结我们的发现并概述未来研究方向。

## 2 本研究引入的仇恨言论数据集

我们从X(前身为Twitter)收集了数据,涉及土耳其语的五个主题——移民与难民、以色列-巴勒斯坦冲突、土耳其的反希腊情绪、种族或宗教社区(阿拉维派、亚美尼亚人、阿拉伯人、犹太人和库尔德人)以及LGBTI+——以及一个阿拉伯语主题,具体为移民与难民。我们的数据集与两个公开可用的数据集[7 (https://arxiv.org/html/2607.00143#bib.bib7),23 (https://arxiv.org/html/2607.00143#bib.bib23)]部分重叠,后者涵盖四个主题:移民与难民、以色列-巴勒斯坦冲突、反希腊情绪以及伊斯坦布尔公约。此外,我们的数据集是[24 (https://arxiv.org/html/2607.00143#bib.bib24)]中使用版本(一个关于该主题的大型合作项目)的最终版本。该项目收集的初始推文集已在[23 (https://arxiv.org/html/2607.00143#bib.bib23),25 (https://arxiv.org/html/2607.00143#bib.bib25),10 (https://arxiv.org/html/2607.00143#bib.bib10),26 (https://arxiv.org/html/2607.00143#bib.bib26),27 (https://arxiv.org/html/2607.00143#bib.bib27)]中分享。数据集涵盖的主题如下:

**土耳其的移民与难民:** 近年来,叙利亚和阿富汗的内战驱使无数人在土耳其寻求庇护。截至2023年,约有340万叙利亚人[1](https://multeciler.org.tr/eng/number-of-syrians-in-turkey/)和约30万阿富汗人[2](https://www.voanews.com/a/afghan-refugees-in-turkey-hope-for-relocation-fear-deportation/7400549.html)在该国定居。最初,公众对难民的看法大多支持;然而,随着寻求庇护者数量增加,他们融入社会的挑战以及关于难民享有土耳其公民无法获得的特权的虚假信息,导致负面态度日益加剧。这种趋势并非土耳其独有;全球范围内也观察到公众舆论的类似转变,往往导致社交媒体上针对难民的敌对情绪和仇恨言论加剧。

**以色列-巴勒斯坦冲突:** 以色列-巴勒斯坦冲突自20世纪中期持续至今,仍然是现代历史上最复杂、最分裂的争端之一。长期以来,关于这一问题的公共讨论受到亲以色列和亲巴勒斯坦群体之间深度极化观点的影响。在土耳其,这场冲突引发了重大辩论和强烈反应,突显了其更广泛的区域和全球影响。需要强调的是,我们的数据集是在2023年10月7日之前收集的,因此不包含随后升级的仇恨言论。

**土耳其的反希腊情绪:** 反希腊主义,或反希腊情绪,指对希腊人、希腊文化或希腊的敌对态度。土耳其和希腊的关系长期以来受到爱琴海主权、领海、领空和少数群体权利等争端的影响。2022年,希腊在某些爱琴海岛屿上增加军事存在进一步加剧了两国之间的紧张关系[3](https://www.dailysabah.com/politics/eu-affairs/greece-scales-up-crete-naval-base-armament-drive)。此类发展往往助长公共话语中的反希腊言论和仇恨言论的传播。

**种族或宗教社区(阿拉维派、亚美尼亚人、阿拉伯人、犹太人和库尔德人):** 除了主要主题外,仇恨言论还经常针对土耳其和中东的种族和宗教社区。阿拉维派、亚美尼亚人、阿拉伯人、犹太人、库尔德人和罗姆人等群体常常成为由历史、政治和社会紧张关系塑造的歧视性和仇恨性话语的目标。为了捕捉这些形式的仇恨言论,我们将针对这些社区的推文纳入数据集。

**LGBTI+:** 在土耳其和许多穆斯林占多数的国家,对LGBTI+个体的负面态度往往受到文化、宗教和社会规范的影响。对伊斯兰教的保守解释以及关于家庭结构和性别角色的传统观念,可能助长社会对LGBTI+社区的歧视和敌意。在某些背景下,政治言论进一步强化了这些态度,增加了反LGBTI+仇恨言论的普遍性。

### 2.1 数据标注

我们使用规范性的标注方法将推文分配到特定的仇恨言论类别,并使用描述性方法在[0,10]范围内评估感知到的仇恨言论强度。标注指南经过迭代完善以减少分类中的歧义。仇恨言论强度与分类分开评估,提供了第二个指标来检查其与仇恨言论分类的关系。

推文被分组为每批50条,并通过Label Studio[4](https://labelstud.io/)分配给三名标注者。每位标注者被指示按照提供的指南单独标注推文。为了保持标签质量,每条推文由三名不同人员独立标注,每批由三个不同端口的三名不同标注者审核。“目标群体”和“仇恨言论类别”标签允许多项选择,因为一条推文可能针对多个群体。在这种情况下,我们将标注者的投票分散到所选群体或类别中。我们的标注指南已公开提供[5](https://hrantdink.org/attachments/article/4413/UTILIZING%20AI%20AGAINST%20HATE%20SPEECH%20A%20guide%20to%20annotation,%20classification,%20and%20detection.pdf)[6](https://hrantdink.org/attachments/article/4412/NEFRET%20S%C3%96YLEM%C4%B0YLE%20M%C3%9CCADELEDE%20YAPAY%20ZEK%C3%82%20Etiketleme,%20s%C4%B1n%C4%B1fland%C4%B1rma%20ve%20tespit%20k%C4%B1lavuzu.pdf)。以下六个类别被确定为全面标注:

1.  0. 无仇恨言论:推文不包含仇恨言论。
2.  1. 排斥/歧视性话语:这些叙述中,某个身份被描绘成在社会利益、权利和自由方面天生劣于或不如主导群体。例如,“难民不应享受医疗服务”和“女性应在商界占更少份额”等陈述。

相似文章

海报:探索基于音频检测土耳其电话诈骗的极限

arXiv cs.CL

本文介绍了首个公开的多模态数据集,包含100个土耳其诈骗和良性电话通话,评估了七种大语言模型在原始音频、ASR转录和人工纠正转录下的表现。结果表明,基于转录的输入优于直接音频,凸显了在低资源语言中进行包容性AI安全研究的必要性。