MentalMARBERT:面向阿拉伯语心理健康障碍检测的领域自适应预训练与两阶段微调

arXiv cs.CL 论文

摘要

本文提出了MentalMARBERT,一个面向社交媒体文本中阿拉伯语心理健康障碍检测的领域自适应语言模型。该框架采用领域自适应预训练和两阶段微调方法,在新构建的包含50,670条推文的阿拉伯语心理健康数据集上实现了0.877的准确率和0.861的宏F1分数。

arXiv:2606.12649v1 公告类型:新论文 摘要:从阿拉伯语社交媒体文本中检测心理健康障碍仍然具有挑战性,原因包括方言差异、非正式语言、高质量标注资源有限以及严重的类别不平衡。虽然英语心理健康自然语言处理(NLP)取得了显著进展,但阿拉伯语多类别障碍分类的研究仍然不足。本研究提出了一个面向阿拉伯语心理健康文本分类的两阶段框架。在第一阶段,三个阿拉伯语预训练语言模型——AraBERT、CAMeLBERT和MARBERT——使用大规模未标注阿拉伯语心理健康推文语料库进行领域自适应和任务自适应预训练(DAPT和TAPT)。在统一协议下评估自适应模型,以确定最有效的骨干模型。在第二阶段,选定的模型在四种配置下进行评估,这些配置结合了单阶段和分层两阶段分类架构,并采用了全微调和低秩适配(LoRA)。为了支持本研究,我们构建了一个新颖的标注阿拉伯语心理健康数据集,包含50,670条推文,涵盖六个类别,具有强注释者间一致性(Krippendorff's Alpha = 0.733,平均成对一致性 = 0.797)。实验结果表明,领域自适应的MARBERT(MentalMARBERT)在准确率和宏F1分数上均显著优于基线模型。分层两阶段架构结合全微调实现了最佳整体性能,宏F1达到0.861,准确率达到0.877。这些发现证明了特定领域自适应预训练和分层分类对于阿拉伯语心理健康障碍检测的有效性。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:50

# 面向阿拉伯语心理健康障碍检测的领域自适应预训练与两阶段微调
来源: https://arxiv.org/html/2606.12649
Fatimah AlmalkiDepartment of Computer ScienceFaculty of Computing and Information TechnologyKing Abdulaziz UniversityJeddah, Saudi Arabiafalmalki0402@stu\.kau\.edu\.saAreej AlhothaliDepartment of Computer ScienceFaculty of Computing and Information TechnologyKing Abdulaziz UniversityJeddah, Saudi Arabiaaalhothali@kau\.edu\.saLulwah AlharigyDepartment of Computer ScienceFaculty of Computing and Information TechnologyKing Abdulaziz UniversityJeddah, Saudi Arabialalharigy@kau\.edu\.saAbdulrahman AladeemDepartment of PsychologyCollege of Arts and HumanitiesKing Abdulaziz UniversityJeddah, Saudi ArabiaPsy\.a\.aladeem@outlook\.com

###### 摘要

从阿拉伯语社交媒体文本中检测心理健康障碍仍然具有挑战性,原因包括方言变体、非正式语言、高质量标注资源有限以及严重的类别不平衡。虽然英语心理健康自然语言处理(NLP)已取得显著进展,但阿拉伯语多类别障碍分类的研究仍不充分。本研究提出了一个两阶段框架用于阿拉伯语心理健康文本分类。第一阶段,对三个阿拉伯语预训练语言模型(AraBERT、CAMeLBERT 和 MARBERT)进行领域自适应预训练和任务自适应预训练(DAPT 和 TAPT),使用大规模未标注阿拉伯语心理健康推文语料库。在统一协议下评估自适应模型,以确定最有效的骨干模型。第二阶段,对所选的模型进行四种配置的评估,结合了单阶段和分层两阶段分类架构以及全微调和低秩适应(LoRA)。为支持本研究,我们构建了一个新的标注阿拉伯语心理健康数据集,包含 50,670 条推文,涵盖六个类别,标注者间一致性较高(Krippendorff's Alpha = 0.733,平均成对一致性 = 0.797)。实验结果表明,领域自适应的 MARBERT(MentalMARBERT)在准确率和宏平均 F1 上均比基线模型有统计显著的提升。分层两阶段架构结合全微调取得了最佳整体性能,宏平均 F1 达到 0.861,准确率达到 0.877。这些发现证明了特定领域自适应预训练和分层分类在阿拉伯语心理健康障碍检测中的有效性。

*关*键词阿拉伯语 NLP,心理健康检测,分层分类,预训练语言模型,领域自适应预训练,微调

## 1 引言

心理健康是个人和集体福祉的基石,在塑造个体生活质量、生产能力以及整个社会的稳定方面发挥着重要作用。世界卫生组织(WHO)报告称,全球有超过十亿人目前受到心理健康状况的影响,使得此类障碍成为全球范围内致残的主要原因之一[30 (https://arxiv.org/html/2606.12649#bib.bib67)]。抑郁症、焦虑症和创伤后应激障碍(PTSD)等障碍对伤残调整生命年(DALYs)和带病生存年(YLDs)贡献巨大,尤其是在受冲突和社会政治不稳定影响的地区,包括中东和北非(MENA)部分地区[10 (https://arxiv.org/html/2606.12649#bib.bib71)][3 (https://arxiv.org/html/2606.12649#bib.bib72)]。尽管负担日益加重,但诊断延迟和心理健康服务可及性有限仍然是持续存在的挑战,尤其是在阿拉伯社会,污名化和公众意识不足常常阻碍及时干预[5 (https://arxiv.org/html/2606.12649#bib.bib91)]。传统的诊断方法主要依赖临床评估和自我报告问卷,这些方法耗时且对大部分人群而言难以获取。近年来,自然语言处理(NLP)和人工智能(AI)的进展通过分析社交媒体文本中的语言模式,为大规模心理健康监测带来了新的机遇[29 (https://arxiv.org/html/2606.12649#bib.bib30)]。基于 Transformer 的大语言模型(LLMs)在多项文本分类任务中表现出色,包括心理健康检测[33 (https://arxiv.org/html/2606.12649#bib.bib50)][25 (https://arxiv.org/html/2606.12649#bib.bib56)]。然而,个体常常使用文化特有的、间接的和方言化的语言来表达心理困扰,这对基于广泛领域语料库训练的通用模型构成了挑战。为应对领域特定的局限性,先前的研究探索了英语中的专业心理健康模型,表明领域自适应预训练通过增强障碍相关语言的上下文表示来提升性能[33 (https://arxiv.org/html/2606.12649#bib.bib50)]。尽管如此,阿拉伯语心理健康 NLP 的研究仍然相对不足[20 (https://arxiv.org/html/2606.12649#bib.bib12)]。现有研究主要关注抑郁症或自杀倾向的二元检测,通常使用通用领域的阿拉伯语模型(如 AraBERT 或 MARBERT),而未进行系统的领域自适应[1 (https://arxiv.org/html/2606.12649#bib.bib2)]。此外,阿拉伯语还面临其他挑战,包括大量的方言变体、非正式拼写以及文化特有的表达方式,这些在预训练语料库中往往代表性不足[5 (https://arxiv.org/html/2606.12649#bib.bib91)]。这些因素凸显了针对多类心理障碍分类,需要领域自适应的阿拉伯语模型和稳健的评估框架[28 (https://arxiv.org/html/2606.12649#bib.bib66)]。为弥补这一差距,本研究提出了一个全面的两阶段框架用于阿拉伯语心理健康文本分类。第一阶段,对三个阿拉伯语预训练语言模型(AraBERT、CAMeLBERT 和 MARBERT)进行领域自适应预训练和任务自适应预训练(DAPT 和 TAPT),使用大规模未标注阿拉伯语心理健康推文语料库,以确定最合适的骨干模型。第二阶段,对所选的性能最佳模型进行多种分类架构的评估,包括单阶段和分层两阶段设计,以及不同的微调策略,即全微调和低秩适应(LoRA)。为支持此项研究,我们构建了一个新的专家标注阿拉伯语心理健康数据集,包含 50,670 条推文,涵盖六个类别:无、抑郁症、焦虑症、双相障碍、创伤后应激障碍(PTSD)和强迫症(OCD)。据我们所知,这是首个综合评估领域自适应预训练、分层分类架构和参数高效微调用于多类阿拉伯语心理健康障碍检测的研究,且使用了大规模专家标注数据集。

本研究的主要贡献总结如下。首先,我们提出了一个用于阿拉伯语心理健康障碍分类的两阶段框架,整合了领域自适应预训练、分层分类架构和参数高效微调策略。其次,我们构建了一个大型专家标注阿拉伯语心理健康数据集,包含 50,670 条推文,涵盖六个类别(无、抑郁症、焦虑症、双相障碍、PTSD 和 OCD)。第三,我们对三个阿拉伯语预训练语言模型(AraBERT、CAMeLBERT 和 MARBERT)进行了系统的领域自适应预训练和任务自适应预训练(DAPT 和 TAPT),以确定最有效的骨干模型。最后,我们评估了不同的分类架构和自适应策略,包括全微调和低秩适应(LoRA)。

## 2 相关工作

已提出了多种分类算法来区分与心理健康状况个体相关的文本数据与未受影响个体的文本数据[23 (https://arxiv.org/html/2606.12649#bib.bib45)]。为了对现有文献进行有条理的总结,本节分为三个部分。第一部分涵盖传统的机器学习技术,第二部分探讨深度学习方法,特别强调基于 Transformer 的模型(如 BERT 和 RoBERTa),这些模型已成为心理健康 NLP 领域进展的关键驱动因素。第三部分涉及已针对心理健康 NLP 领域进行专门定制和适配的大语言模型。

### 2.1 机器学习模型

Jaman 等人[19 (https://arxiv.org/html/2606.12649#bib.bib34)]旨在通过分析来自 Reddit 帖子的文本,对包括精神分裂症、PTSD、双相障碍和抑郁症在内的多种心理健康障碍进行分类。他们的研究采用了多种机器学习分类器——即 SVM、逻辑回归、GRU 和 BERT——来检测这些状况的指标。每个模型均针对每种障碍的对照组进行评估。结果显示,SVM 在 PTSD 检测中达到了 87% 的最高准确率,而逻辑回归在双相障碍分类中达到了 82% 的准确率。Alzoubi 等人[4 (https://arxiv.org/html/2606.12649#bib.bib73)]收集了一个阿拉伯语推文数据集,用以研究通过机器学习自动检测抑郁症状。在测试的算法中,结合 TF-IDF 的突变朴素贝叶斯表现最佳,在将推文分类为抑郁或非抑郁方面达到了 86% 的准确率。Lorenzoni 等人[23 (https://arxiv.org/html/2606.12649#bib.bib45)]使用 DAIC-WOZ 数据集(一个用于诊断抑郁症、焦虑症和 PTSD 的临床访谈数据集,特别关注抑郁症检测)对多种机器学习和 NLP 方法进行了比较评估。实施并基准测试了三个分类器:随机森林、XGBoost 和 SVM。结果表明,随机森林和 XGBoost 取得了最强结果,均达到约 84% 的准确率,而 SVM 落后,约为 72%。

### 2.2 深度学习与基于 Transformer 的模型

Qayyum 等人[27 (https://arxiv.org/html/2606.12649#bib.bib36)]提出了一个使用 Reddit 数据诊断心理健康状况的框架,涵盖六种障碍:抑郁症、焦虑症、双相障碍、精神分裂症、自闭症和一般心理健康。该研究评估了一系列模型,包括 CNN、LSTM、GRU、双向 GRU、BERT 和 RoBERTa。引入了一个基于 RoBERTa 的分层框架,将障碍组织成层次结构,达到了 84% 的准确率。Arif 等人[7 (https://arxiv.org/html/2606.12649#bib.bib58)]开发了一个多类分类模型,用于从 Reddit 帖子中检测常见的精神疾病。比较了深度学习架构(如 CNN、LSTM 和 Bi-LSTM)以及迁移学习模型(包括 BERT、XLNet 和 RoBERTa)。在所有评估模型中,RoBERTa 取得了最高的整体准确率,为 83%。Xu 等人[31 (https://arxiv.org/html/2606.12649#bib.bib53)]考察了大语言模型从在线文本预测心理健康状况的能力,评估了 FLAN-T5、GPT-3.5、GPT-4 和 Alpaca 等模型在压力、抑郁和自杀风险预测任务上的表现。微调后的模型始终优于其零样本对应模型。Hassan 等人[14 (https://arxiv.org/html/2606.12649#bib.bib54)]介绍了一种使用大语言模型进行心理健康障碍自动多标签标注的方法,以及为捕捉共现状况而设计的 SPAADE-DR 数据集。在评估的模型中,Llama-3 70B 在多标签分类中取得了最高的平衡准确率 78%。Elmajali 等人[11 (https://arxiv.org/html/2606.12649#bib.bib55)]研究了在阿拉伯语推文中使用 AraBERT 和 MARBERT 进行抑郁症早期检测和多类症状分类。AraBERT 表现最佳,达到了 99.3% 的准确率和 98.9% 的 F1 分数。Ilias 等人[17 (https://arxiv.org/html/2606.12649#bib.bib38)]提出了结合语言外特征(包括情感词汇和语言标记)的基于 Transformer 的模型,用于社交媒体中的压力和抑郁症检测。该方法在抑郁症分类中达到了 83.10% 的 F1 分数。Pourkeyvan 等人[26 (https://arxiv.org/html/2606.12649#bib.bib39)]评估了多个 Hugging Face 预训练 BERT 变体(包括 DistilBERT、BERT-base-uncased、MentalBERT 和 DistilRoBERTa)在心理健康检测方面的性能,数据来自 Twitter,包含超过 1180 万条推文和 553 个用户简介。DistilBERT 表现最强,达到了 97% 的准确率。

### 2.3 面向心理健康领域的专用大语言模型

大语言模型(LLMs)已成为心理健康领域的关键工具,特别是在利用社交媒体内容早期检测和治疗心理障碍方面[16 (https://arxiv.org/html/2606.12649#bib.bib28)]。基于自然语言处理(NLP)的进展,基于 Transformer 的编码器架构(如 BERT 及其变体)已被适配用于心理健康相关任务,在处理和理解领域特定文本数据方面展现出巨大潜力[20 (https://arxiv.org/html/2606.12649#bib.bib12)]。尽管如此,通用模型在该领域的有效性仍然受到其依赖缺乏心理健康特定知识的广泛预训练语料库的限制。为克服这一限制,研究人员开发了针对心理健康领域的专用模型,最著名的是 MentalBERT、MentalRoBERTa 和 Chinese-MentalBERT。Ji 等人[20 (https://arxiv.org/html/2606.12649#bib.bib12)]介绍了 MentalBERT 和 MentalRoBERTa,这是两个面向心理健康研究社区的领域特定预训练掩码语言模型。这些模型通过对 BERT-base 和 RoBERTa 应用领域自适应预训练(DAPT)而开发,使用了从 Reddit 子版块(包括 r/depression、r/SuicideWatch 和 r/Anxiety)收集的大规模心理健康相关帖子语料库。随后对模型进行微调,并在八个下游分类任务上进行了评估,涵盖抑郁症检测(eRisk、CLPsych 2015、Depression Reddit)、压力(Dreaddit)、自杀意念(UMD Suicidality、T-SID)、多标签障碍检测(SWMH)和压力源分类(SAD)。结果表明,领域自适应模型在大多数任务上始终优于通用模型(BERT 和 RoBERTa)以及生物医学(BioBERT)和临床(ClinicalBERT)变体。具体来说,MentalBERT 在 UMD Suicidality 数据集上取得了最高的 F1 分数,而 MentalRoBERTa 在 T-SID、Dreaddit、SAD 和 SWMH 基准测试中领先,表明针对目标领域语料库的持续预训练,随后进行任务特定微调,是心理健康障碍检测的有效策略。基于这一方向,Zhai 等人[32 (https://arxiv.org/html/2606.12649#bib.bib47)]开发了 Chinese-MentalBERT,以解决非英语语言缺乏领域自适应心理健康模型的问题。利用 DAPT,作者在从中文社交媒体平台收集的帖子上继续预训练 Chinese-BERT-wwm-ext 模型,并加入了公开可用

相似文章

心理健康对话中的专家级危机检测

arXiv cs.CL

介绍了CRADLE-Dialogue,一个由临床医生标注的基准数据集,用于心理健康对话中的对话轮次级危机检测,同时包含Alert–Confirm评估协议、合成训练语料库以及一个32B参数模型,该模型在性能上优于现有的开放源代码和专有模型。