基于MARBERT模型的阿拉伯推文垃圾邮件与情感检测
摘要
本文介绍了一个使用MARBERT模型对阿拉伯推文进行情感分析和垃圾邮件检测的系统,该系统在包含24,513条推文的数据集上训练,旨在改善沙特电信公司的客户服务。
arXiv:2606.25495v1 公告类型:新
摘要:沙特电信公司(STC)是沙特阿拉伯最受欢迎的公司之一,拥有众多客户。然而,用户满意度仍有很大的提升空间。社交媒体是衡量用户满意度、确定其情感和批评的最有力平台。在这方面,Twitter是最受欢迎的社交媒体平台之一。STC客户更喜欢使用Twitter来撰写反馈,因为通过STC客户服务账户可以快速获得回复。满足客户需求和改善客户服务的一种方法是使用情感分析工具。由于推文数量庞大且观点多样,Twitter上的情感分析被广泛使用。同样,深度学习是现有最佳的情感分析方法,并且有多种模型。来自Transformers的双向编码器表示(BERT)模型是深度学习模型之一,在自然语言处理(NLP)的情感分析中取得了优异的结果。NLP主要针对英语进行研究。然而,对于阿拉伯语,存在很大的空白需要填补。本研究使用MARBERT训练了所提出的模型,并使用f1分数、精确率和召回率指标来评估性能。我们使用一个包含24,513条阿拉伯推文的数据集训练模型,其中包括1,437条正面、13,828条负面、5,694条中性、1,221条讽刺和2,297条不确定的推文。主要目标是分析推文并获取情感,以改善STC客户服务。与文献中的现有技术相比,所提出的方案在准确性方面具有前景。
查看缓存全文
缓存时间: 2026/06/25 05:12
# 使用MARBERT模型对阿拉伯语推文进行垃圾信息与情感检测 来源:https://arxiv.org/abs/2606.25495 查看PDF(https://arxiv.org/pdf/2606.25495) > 摘要:沙特电信公司(STC)是沙特阿拉伯最受欢迎的公司之一,拥有众多客户。然而,在用户满意度方面仍有很大的提升空间。社交媒体是衡量用户满意度、判断用户情感与批评意见的最强大平台。在这方面,Twitter是最受欢迎的社交媒体平台之一。STC客户更倾向于使用Twitter撰写反馈,因为通过STC客户服务账号可以快速获得回复。实现客户需求并改进客户服务的一种方法是使用情感分析工具。由于大量推文和不同观点,Twitter上的情感分析被广泛使用。同样,深度学习是目前最好的情感分析方法,并拥有多种模型。基于Transformer的双向编码器表示(BERT)模型是深度学习模型之一,在自然语言处理(NLP)的情感分析中取得了极佳效果。NLP主要针对英语进行研究。然而,在阿拉伯语方面还存在巨大空白有待填补。本研究使用MARBERT训练所提模型,并通过F1分数、精确率和召回率指标衡量性能。我们使用包含24,513条推文的阿拉伯语数据集训练模型,其中包括1,437条正面、13,828条负面、5,694条中立、1,221条讽刺和2,297条不确定推文。主要目标是分析推文并获取情感,以改进STC客户服务。与现有文献中的技术相比,所提方案在准确性方面具有前景。 ## 提交历史 来自:Abrar Alotaibi [查看邮件(https://arxiv.org/show-email/23359762/2606.25495)] **\[v1\]** 2026年6月24日星期三 07:22:39 UTC(1,058 KB)
相似文章
MentalMARBERT:面向阿拉伯语心理健康障碍检测的领域自适应预训练与两阶段微调
本文提出了MentalMARBERT,一个面向社交媒体文本中阿拉伯语心理健康障碍检测的领域自适应语言模型。该框架采用领域自适应预训练和两阶段微调方法,在新构建的包含50,670条推文的阿拉伯语心理健康数据集上实现了0.877的准确率和0.861的宏F1分数。
基于LLM的阿拉伯语金融情绪分析:来自沙特市场的证据
本文提出了一种利用大语言模型进行阿拉伯语金融情绪分析的框架,专门针对沙特市场,整合新闻和社交媒体数据以捕捉投资者情绪。
基于大型语言模型的阿拉伯语文本自动评分:文献综述
一篇文献综述,审视了基于LLM的阿拉伯语文本自动评分方法,涵盖简答题评分和作文评分,并提出了一个分类体系和比较分析。
面向低资源口语方言的线性语义分割
本文引入了一个针对低资源阿拉伯语方言的语义分割基准,并提出了一种模型,该模型在会话式语音上的性能优于标准基线模型。
面向低资源阿尔及利亚方言的端到端混合谣言检测框架
本文提出了一种面向低资源阿尔及利亚方言社交媒体内容的端到端混合谣言检测框架,通过结合Transformer嵌入和经典分类器,达到了0.84的F1分数。