基于AI心理健康对话的被动抑郁严重程度评估的LLMs微调

arXiv cs.CL 2026/06/17 04:00 论文

fine-tuning llm mental-health depression passive-monitoring phq-9 clinical-ai

摘要

本文提出一种对LLMs进行微调的方法，用于从AI心理健康应用的对话记录中直接预测PHQ-9抑郁严重程度评分，通过包含6,283名用户的增强数据集，实现了与临床阈值的强相关性。

arXiv:2606.17973v1 Announce Type: new 摘要：抑郁症是全球致残的主要原因，早期发现症状变化对于及时干预至关重要。经过验证的工具如患者健康问卷-9（PHQ-9）支持大规模症状监测，但实际完成率低，导致响应偏差和系统性缺失。从常规生成数据推断严重程度的被动方法可以弥补这一差距。我们通过直接预测用户与AI心理健康应用对话记录中的PHQ-9总得分来解决这一问题，仅需对话文本，无需额外临床数据。我们微调了Qwen3.5-27B骨干网络并添加回归头，用推理模型（Claude Opus）生成的伪标签和迭代训练的中间模型扩充了3,111个真实标签，最终形成包含6,283名用户的组合数据集。在包含842名用户的保留测试集上，我们的最佳模型在PHQ-9 >= 10的临床阈值下取得了MAE = 2.6、RMSE = 4.0、Pearson r = 0.80和AUC = 0.91的结果。我们还发现从PHQ-9 >= 3到PHQ-9 >= 24的每个严重程度阈值下AUC > 0.87，表明模型捕捉了完整临床谱系的抑郁严重程度。这项工作为AI心理健康平台中的被动、连续症状监测打开了大门，无需用户完成自我报告测量。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:42

# 针对AI心理健康对话的被动抑郁严重程度评估中的LLM微调

来源：https://arxiv.org/html/2606.17973

###### 摘要

抑郁症是全球致残的首要原因，早期发现症状变化对及时干预至关重要。患者健康问卷-9（PHQ-9）等经过验证的工具可以支持大规模症状监测，但现实世界中的完成率很低，导致应答偏倚和系统性缺失。利用常规生成数据推断严重程度的被动方法有望弥补这一差距。本文通过直接预测用户与AI心理健康应用之间对话记录的PHQ-9总分来解决这一问题，只需要对话文本，无需额外的临床数据。我们使用回归头对Qwen3.5-27B骨干网络进行微调，用推理模型（Claude Opus）生成的伪标签以及迭代训练的中间模型来增强3,111个真实标签，最终得到包含6,283个用户的组合数据集。在包含842个用户的保留测试集上，我们的最佳模型在PHQ-9≥10临床阈值上取得了MAE=2.6、RMSE=4.0、Pearson r=0.80、AUC=0.91的成绩。我们还发现在从PHQ-9≥3到PHQ-9≥24的每个严重程度阈值上AUC>0.87，表明该模型能够捕捉整个临床谱系中的抑郁严重程度。这项工作为在AI心理健康平台中实现被动、连续的症状监测开辟了道路，无需用户完成自我报告测量。

## 1 引言

抑郁症是全球致残的首要原因（Friedrich, 2017），影响全球超过2.8亿人（WHO, 2023），早期发现症状恶化对及时干预至关重要。越来越多的人现在使用AI驱动的心理健康平台，这些平台通过多轮文本对话提供心理教育、认知行为技术和支持性咨询（Rousmaniere et al., 2026）。这些互动生成了丰富的完整对话记录，捕捉用户的自我报告体验、情感语言和行为模式——这些信号可能与抑郁症状严重程度相关。

然而，这些平台的架构通常侧重于利用已有知识，LLM在大规模文本语料上的训练就是典型例子。因此，它们非常以咨询师为中心，有可能忽视用户。通过建模（Zhu et al., 2025）或预测标准临床构念（如本文及引用的先前研究）来更好地理解用户，对于确保积极影响同样至关重要。

我们试图从这些对话中实现对抑郁严重程度的可靠估计。如果成功部署到生产系统中，这项技术可以实现被动症状监测、早期恶化检测、自适应治疗规划和可扩展的筛查，无需用户重复填写问卷（Teferra et al., 2024）。

PHQ-9（患者健康问卷-9）是一种标准化的自我管理问卷，被医疗专业人员广泛用于筛查、诊断和测量抑郁严重程度。它包含九个问题，涵盖快感缺失、疲劳、自尊、精神运动性改变和自杀意念等一系列症状。

现有关于从文本预测PHQ-9分数的研究在不同场景中零散分布，数据来源从结构化临床访谈（Gratch et al., 2014; Ringeval et al., 2019）和临床记录（Alves, P., et al., 2025），到用户生成的日记文本（Shin et al., 2024）甚至短信数据（Stamatis et al., 2022）。这些研究通常样本量较小（n=89到n=335），并采用可能无法推广到其他场景的专门方法和模型，这阻碍了进展；评估工具、人群和互动格式在不同研究中差异很大，使得直接数值比较变得困难。

从商用心理健康AI工具（即用户与AI之间数百万条对话记录）生成的数据规模为解决这些问题提供了独特机会。然而，此前没有针对大规模自然AI心理健康对话记录的PHQ-9预测研究。

我们的方法包括以下阶段：

1. 1. 伪标签增强。使用Claude Opus对未标记的对话进行标注，平衡初始训练集（该训练集严重偏向高PHQ-9分数，即重度抑郁）。
2. 2. 中间模型伪标注。Claude Opus的表现高于噪声水平，但并不完美。在包含Claude伪标签的真实训练集上训练的模型比仅在真实集上训练的模型更好，也比Claude本身更好。我们使用该模型将有效训练集从3,111个用户增加到6,283个用户，从而在有限的真实数据上实现更稳健的回归。
3. 3. 迭代重新标注。两步伪标注产生了更好的模型（在保留集上衡量）。我们使用该模型重新标注所有伪标记的用户，并训练新模型。
4. 4. 集成。PHQ-9预测是一项有噪声的任务，适配器初始化最终可能捕捉到各种虚假信号。我们发现，最佳性能是通过对在重新伪标记数据集（结合真实标签）上训练的模型集成进行预测平均获得的。

我们的模型在从PHQ-9≥3到PHQ-9≥24的每个严重程度阈值上AUC>0.87，实现了轻度、中度、中重度和重度抑郁之间具有临床意义的区分——而不仅仅是病例检测。这种跨严重程度的区分本身就是一项贡献：即使是广泛引用的先前模型在范围的高端也会退化，在较高PHQ-9分数上的区分能力比较低分段差（Alves, P., et al., 2025）。在标准的PHQ-9≥10阈值上，我们的模型AUC达到0.91。

我们的工作与先前研究在规模（约4,000个用户 vs. 先前基于对话的语料库中的89-275个用户）、生态效度（自然的求助对话而非结构化评估）以及使用完整的PHQ-9（包括第9项自杀意念，而大多数基于对话的先前工作使用的PHQ-8目标中缺失该项，尽管完整的9项版本才是临床筛查中使用的版本）上有所不同。关键的是，我们的模型是从非引导性的治疗对话中推断严重程度，而不是从临床医生使用结构化工具进行访谈所引发的话语中推断——这是一个更难的推理问题，也是自动评估具有实际用途的主要场景，因为已经提供结构化评估的场景不需要它。

## 2 相关工作

### 2.1 从文本预测PHQ-9和抑郁

大量的NLP工作从文本预测抑郁症状严重程度。这些文献根据所依赖的语言类型划分：在结构化临床评估中*引发的*语言，以及在评估情境之外产生的自然语言。这一区分对本文具有重要意义，因为只有后一种情境中，自动严重程度估计才能提供尚未被捕获的信息。

#### 临床访谈情境。

PHQ预测最基准化的场景是DAIC-WOZ语料（Gratch et al., 2014）及其扩展E-DAIC（Ringeval et al., 2019），分别包含189名和275名参与者的脚本化虚拟访谈会话，使用PHQ-8作为回归目标。最强的纯文本模型达到MAE 3.55-3.85（Schmidt et al., 2025）。在相关设计中，Weber等人（2025）使用微调的BERT回归头在126次会话中从结构化临床访谈文本预测个体MADRS项目。虽然这些结果令人鼓舞，但Burdisso等人（2024）表明，许多DAIC模型通过利用访谈者的脚本化提示而非真正从患者言语中推断抑郁来实现准确性。这种混杂因素揭示了一个更根本的局限性：在这些场景中，语言存在只是因为临床医生——或脚本化的代理——已经在进行结构化抑郁评估。从这样的访谈中推断PHQ严重程度的模型预设了它本应替代的工具，并且只能推广到已经提供结构化评估的语境——恰恰是最不需要被动推断的语境。自然的求助对话没有这样的访谈者信号可利用，代表了自动严重程度估计最有用的场景。

#### 自然语言。

第二类工作从评估情境之外产生的语言预测抑郁。早期方法使用手工构建的语言特征——第一人称代词使用（De Choudhury et al., 2013）、负面情感词频率（Resnik et al., 2015）和绝对化语言（Al-Mosaiwi and Johnstone, 2018）——应用于社交媒体、临床记录和短信数据，最近的工作用预训练transformer编码器（BERT, RoBERTa）替代手工特征（Jiang et al., 2020; Lau et al., 2023）。与我们的场景更接近的是，Shin等人（2024）使用GPT-3.5对91名用户的心理健康应用日记条目预测二分类PHQ-9抑郁状态（≥10），Alves, P.等人（2025）从处方医生的临床记录估计PHQ-9，Stamatis等人（2022）从自然的短信语言预测抑郁症状严重程度。心理治疗对话研究（Althoff et al., 2016; Ewbank et al., 2020; Lalk et al., 2024）将对话特征与临床症状严重程度联系起来，但报告的相关性较为温和，相关系数约r=0.45或更低。在整个文献中，样本量相对较小（n=89到n=335），目标和工具异质性强；没有先前工作从大规模自然AI治疗对话中建模PHQ-9严重程度。

### 2.2 半监督和伪标签方法

限制上述研究的标记数据稀缺是临床NLP中反复出现的障碍，半监督方法提供了一条绕过它的途径。伪标签——使用教师模型为未标记数据生成标签——在标记数据有限的语言建模场景中被广泛使用（Xie et al., 2020; He et al., 2020），并应用于临床NLP中的病历分类和症状抽取。我们在此使用它通过推理模型（Claude Opus）和迭代自标签来扩展标记训练数据。

## 3 数据

### 3.1 研究人群

我们的数据集来自Ash，这是一个由Slingshot AI开发的AI驱动心理健康平台。用户与一个AI心理健康工具进行多轮文本对话，该工具经过训练，采用基于证据的策略，如认知行为疗法（CBT）和接纳承诺疗法（ACT）。在本研究中，随机选择的新用户在基线和与Ash进行第一次对话之前完成PHQ-9。我们纳入以下用户：(a) 在基线完成完整PHQ-9，(b) 在使用的前七天内至少与Ash有一次对话，且至少交换了10条消息。经过这些排除后，最终样本包含3,953名用户。

### 3.2 PHQ-9评估

患者健康问卷-9（PHQ-9; Kroenke et al., 2001）是最广泛使用的抑郁症状严重程度筛查和监测自评工具之一。九个项目每个对应DSM-5中重度抑郁障碍的一个诊断标准，评分从0（"完全没有"）到3（"几乎每天"），总分范围0-27。标准临床严重程度阈值将0-4分归类为无抑郁，5-9分为轻度，10-14分为中度，15-19分为中重度，20-27分为重度抑郁（Kroenke et al., 2001）。我们样本中的PHQ-9分数相对于一般人群显著偏高，符合求助人群的预期：均值15.87（SD 6.42），中位数16。表1（https://arxiv.org/html/2606.17973#S3.T1）显示了使用标准临床严重程度分段的分布。

表1：使用标准临床严重程度分段的PHQ-9严重程度分布（Kroenke et al., 2001）。该分布相对于基于人群的样本显著右偏，可能反映了人群的求助性质。最常被认可的项目是内疚/无价值感（项目5，均值2.14）、疲劳（项目3，均值2.13）和抑郁情绪（项目2，均值2.01）。精神运动性障碍（项目7，均值1.21）和自杀意念（项目9，均值1.12）平均而言被认可最少，尽管自杀意念仍然以非微不足道的比率被认可，考虑到PHQ-8基准完全省略了该项目，这一点很重要。

### 3.3 对话数据

每个用户的输入由他们使用前七天内的Ash对话消息构建而成。消息格式化为交替的用户和助手轮次。消息少于10条的用户被排除。当用户消息历史超过300条时，我们通过在前一周窗口内均匀间隔的索引抽取来子采样到恰好300条，保留对话的时间弧线而非截断。在最终数据集中，对话长度范围从10到300条消息（均值125.6，中位数86）。

### 3.4 训练/测试分割

我们在用户层面划分具有真实PHQ-9标签的用户以防止泄漏：3,111个用户分配给训练，842个用户分配给保留测试集。分割按PHQ-9严重程度类别分层。另外3,172个未标记用户通过伪标签（第4.1节）纳入训练，使总训练集达到6,283个用户。

## 4 方法

本研究由纽约生物医学研究联盟（BRANY）独立机构审查委员会（IRB）审核，并确定为第4(ii)类豁免（BRANY IRB文件编号：26-081-239）。

基于AI心理健康对话的被动抑郁严重程度评估的LLMs微调

相似文章

Dep-LLM：基于证据引导的结构化多因素与可靠LLM推理的无需训练抑郁症诊断

基于大语言模型的社交媒体抑郁风险评估

利用大语言模型从自发语音中预测心理健康状况

长期历史感知的医疗对话合成与评估

MA-DLE：基于记忆增强的语音自动抑郁程度评估

提交意见反馈