利用大语言模型从自发语音中预测心理健康状况

arXiv cs.CL 论文

摘要

这篇学术论文探讨了利用大语言模型(LLMs)从零样本预测自发语音中的心理健康评分,评估了12个模型,并实现了与临床指标的高度相关性。

arXiv:2605.11303v1 公告类型:新论文 摘要:我们研究了使用大语言模型(LLMs)从零样本预测自发语音中的 Ryff 心理健康(PWB)评分。利用 PsyVoiD 数据库中 111 名参与者几分钟的语音录音,我们评估了 12 个经过指令微调的大语言模型,包括 Llama-3(8B、70B)、Ministral、Mistral、Gemma-2-9B、Gemma-3(1B、4B、27B)、Phi-4、DeepSeek(Qwen 和 Llama)以及 QwQ-Preview。我们与临床心理学和语言学专家合作开发了一个领域提示(domain-informed prompt)。结果显示,大语言模型能够从自发语音中提取具有语义意义的线索,在 80% 的数据上实现了高达 0.8 的斯皮尔曼(Spearman)相关系数。此外,为了提高可解释性,我们进行了统计分析以描述预测的变异性和系统性偏差,并结合基于关键词的词云分析来突出驱动模型预测的语言特征。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:11

# 利用大语言模型从自发言语中预测心理幸福感

来源:https://arxiv.org/html/2605.11303
Erfan Loweimi<sup>1,2†</sup> <https://orcid.org/0000-0002-8761-021X> <sup>†</sup>本工作是在作者任职于爱丁堡大学 Usher 学院医学信息学中心(CMI)期间完成的。 Saturnino Luz <https://orcid.org/0000-0001-8430-7875>

###### 摘要

我们调查了使用大语言模型(LLMs)从自发言语中进行 Ryff 心理幸福感(PWB)评分的零样本预测。利用 PsyVoiD 数据库中 111 名参与者几分钟的语音录音,我们评估了 12 种指令微调的大语言模型,包括 Llama-3(8B, 70B)、Ministral、Mistral、Gemma-2-9B、Gemma-3(1B, 4B, 27B)、Phi-4、DeepSeek(Qwen 和 Llama)以及 QwQ-Preview。我们通过与临床心理学和语言学专家合作,开发了一个基于领域知识的提示词。结果表明,LLM 能够从自发言语中提取具有语义意义的线索,在 80% 的数据上实现了高达 0.8 的斯皮尔曼(Spearman)相关系数。此外,为了增强可解释性,我们进行了统计分析以刻画预测变异性和系统偏差,并结合基于关键词的词云分析,突出了驱动模型预测的语言特征。

## I 引言

心理幸福感是整体健康、应对不良事件的韧性以及日常功能的核心。最近的全球趋势突显了其重要性,心理健康挑战每年影响数以百万计的人口 \[30 (https://arxiv.org/html/2605.11303#bib.bib130)\]。例如,COVID-19 大流行及其对健康、经济和其他领域的广泛影响, substantially 加剧了全球范围内的心理痛苦 \[20 (https://arxiv.org/html/2605.11303#bib.bib131), 12 (https://arxiv.org/html/2605.11303#bib.bib8)\]。因此,及时识别和纵向监测幸福感至关重要。

传统的心理幸福感评估依赖于临床访谈 \[35 (https://arxiv.org/html/2605.11303#bib.bib132), 31 (https://arxiv.org/html/2605.11303#bib.bib133)\] 和自陈量表。尽管这些信息具有信息量,但这些方法具有主观性、资源密集性,并且面临显著的扩展性挑战 \[18 (https://arxiv.org/html/2605.11303#bib.bib135), 19 (https://arxiv.org/html/2605.11303#bib.bib134)\]。由于 spoken language 固有地通过语音和语言线索编码内部状态 \[37 (https://arxiv.org/html/2605.11303#bib.bib7)\],人工智能的最新进展为利用这些信号进行非侵入性、低成本筛查创造了新机会 \[6 (https://arxiv.org/html/2605.11303#bib.bib6), 26 (https://arxiv.org/html/2605.11303#bib.bib157), 14 (https://arxiv.org/html/2605.11303#bib.bib136), 4 (https://arxiv.org/html/2605.11303#bib.bib168), 36 (https://arxiv.org/html/2605.11303#bib.bib169)\]。

大语言模型(LLMs)通过从自发语言中提取心理标记来增强基于言语的评估。研究表明,LLM 能够近似医院焦虑和抑郁量表(HADS)等临床评分系统 \[39 (https://arxiv.org/html/2605.11303#bib.bib43)\],并与人工编码评估达到合理的一致性 \[15 (https://arxiv.org/html/2605.11303#bib.bib165)\]。类似的方法已应用于使用多模态 LLM 架构从言语中检测抑郁症 \[13 (https://arxiv.org/html/2605.11303#bib.bib172), 22 (https://arxiv.org/html/2605.11303#bib.bib173)\]。通过精心设计的提示词,LLM 可以作为传统筛查工具的快速且可扩展的替代品,特别是在标注数据有限或获取成本高昂的情况下。尽管在心理健康监测方面前景广阔 \[9 (https://arxiv.org/html/2605.11303#bib.bib120), 10 (https://arxiv.org/html/2605.11303#bib.bib170)\],但在*零样本* \[21 (https://arxiv.org/html/2605.11303#bib.bib160), 3 (https://arxiv.org/html/2605.11303#bib.bib161)\] 设置下,即不进行特定任务的微调,从自发言语中预测心理幸福感的研究仍然较少。

在此基础上,我们将零样本评估范式从预测以症状为主的措施(如 HADS)扩展到 Ryff 的心理幸福感(PWB)框架 \[28 (https://arxiv.org/html/2605.11303#bib.bib1), 27 (https://arxiv.org/html/2605.11303#bib.bib3)\]。与主要评估痛苦或功能障碍的临床工具不同,Ryff 的框架提供了一种整体的、实现论(eudaimonic)的幸福感观点,这为评估 LLM 是否可以从自发言语中推断高阶心理构念提供了一个严格的测试平台 \[29 (https://arxiv.org/html/2605.11303#bib.bib166)\]。

最近的工作质疑了以人为中心的框架(如 Ryff 的框架)是否与 LLM 概念化幸福感的方式一致。例如,\[11 (https://arxiv.org/html/2605.11303#bib.bib167)\] 分析了 LLM 对关于“繁荣”的开放式提示词的响应,并引入了 PAPERS 框架(目的性贡献、适应性成长、积极关系、伦理完整性、稳健功能、自我实现的自主性)。他们的研究结果表明,LLM 生成的幸福感描述在内部是一致的,但偏向机器导向,强调有效性和对指令的依从性,而不是自主性或存在意义。这提出了一个核心问题:LLM 捕捉到了人类心理状态的真实标志,还是仅仅捕捉到了近似它们的计算类似物?

为了解决这个问题,我们预测 Ryff 的量表,以评估 LLM 从非结构化个人叙述中推断 PWB 的能力。具体而言,我们测试指令微调的 LLM 是否可以根据 PsyVoiD 数据集 \[5 (https://arxiv.org/html/2605.11303#bib.bib5)\] 中收集的 COVID-19 封锁期间拍摄的简短自发言语录音来估计 Ryff PWB 分数 \[28 (https://arxiv.org/html/2605.11303#bib.bib1), 27 (https://arxiv.org/html/2605.11303#bib.bib3)\]。参与者提供了简短的独白,描述他们在封锁期间的日常经历。性能报告使用皮尔逊相关系数(PCC)和斯皮尔曼相关系数(SCC),并辅以额外的统计检验。

我们的贡献有三方面:

- •零样本幸福感预测:我们评估了十二种指令微调的大语言模型(LLMs)——Meta-Llama \[8 (https://arxiv.org/html/2605.11303#bib.bib149)\](3.1-8B \[2 (https://arxiv.org/html/2605.11303#bib.bib150)\] 和 3.3-70B \[8 (https://arxiv.org/html/2605.11303#bib.bib149)\])、Microsoft Phi-4 \[1 (https://arxiv.org/html/2605.11303#bib.bib152)\]、Google Gemma-2-9B \[32 (https://arxiv.org/html/2605.11303#bib.bib153)\]、Google Gemma-3(1B, 4B, 27B) \[33 (https://arxiv.org/html/2605.11303#bib.bib154)\]、Ministral-2410 \[16 (https://arxiv.org/html/2605.11303#bib.bib155)\]、Mistral-NeMo-2407 \[17 (https://arxiv.org/html/2605.11303#bib.bib156)\]、QwQ-32B-Preview \[34 (https://arxiv.org/html/2605.11303#bib.bib146), 38 (https://arxiv.org/html/2605.11303#bib.bib147)\]、DeepSeek-R1-Distill-Qwen-32B(DeepSeek Qwen) \[7 (https://arxiv.org/html/2605.11303#bib.bib148)\] 以及 DeepSeek-R1-Distill-Llama-70B(DeepSeek Llama) \[7 (https://arxiv.org/html/2605.11303#bib.bib148)\],用于从自发言语转录本中零样本预测 Ryff 的心理幸福感(PWB)维度。
- •基于心理学知识的提示词设计:我们开发并评估了将成熟的提示词工程策略与心理幸福感研究的领域知识相结合的提示词,以指导 LLM 的推理和输出结构。
- •模型行为分析与可解释性:我们对 LLM 输出进行了广泛的统计分析和语言特征剖析,以刻画与幸福感预测相关的行为模式和语言线索。

本文其余部分结构如下。在 Section II (https://arxiv.org/html/2605.11303#S2) 描述数据和 Ryff 量表后,Section III (https://arxiv.org/html/2605.11303#S3) 介绍了工作流程,包括提示词工程方法(Section III-B (https://arxiv.org/html/2605.11303#S3.SS2));Section IV (https://arxiv.org/html/2605.11303#S4) 展示了结果、讨论、统计分析和关键词可视化;Section V (https://arxiv.org/html/2605.11303#S5) 总结了全文。

## II 心理评估

### II-A PsyVoiD 数据集

PsyVoiD 数据集 \[5 (https://arxiv.org/html/2605.11303#bib.bib5)\] 通过大规模匿名调查收集,包含 111 名参与者(70 名女性,41 名男性),年龄 21-86 岁,均居住在苏格兰,处于 COVID-19 封锁期间。其中,34 名参与者(31%)报告有抑郁症病史。每次录音持续一到两分钟,每个样本平均包含 150 个单词和 92 个唯一单词,平均发音率约为每秒 2 个单词。表 I (https://arxiv.org/html/2605.11303#S2.T1) 展示了一些数据集属性的描述性统计(均值、中位数、标准差(STD)、最小值和最大值)。

### II-B 心理幸福感测量

本研究心理评估的参考标准是 Ryff 心理幸福感(PWB)量表 \[28 (https://arxiv.org/html/2605.11303#bib.bib1), 27 (https://arxiv.org/html/2605.11303#bib.bib3)\],这是一种广泛验证的自陈量表。PWB 框架包括六个维度:自主性(autonomy)、环境掌控(environmental mastery)、个人成长(personal growth)、积极人际关系(positive relations with others)、生活目的(purpose in life)和自我接纳(self-acceptance)。项目采用李克特类型量表评分,数值越高反映幸福感越高(反向计分项目相应处理)。分量表分数是通过汇总每个维度的项目反应获得的;总体指数也可以遵循标准评分实践得出。Ryff PWB 量表的描述性统计也在表 I (https://arxiv.org/html/2605.11303#S2.T1) 中报告。

表 I: PsyVoiD 111 名受试者的描述性统计
参见图注
图 1: 零样本 Ryff 幸福感估计工作流程:ASR 前端、提示阶段和 LLM 推理。
表 II: 各种 Whisper 模型在 PsyVoiD 上的 WER

## III 工作流程

图 1 (https://arxiv.org/html/2605.11303#S2.F1) 展示了系统架构,包括语音转文本(自动语音识别)前端、提示词工程模块和基于 LLM 的决策后端。

### III-A 语音转文本转换

语音录音可以通过手动标注或使用自动语音识别(ASR)系统转换为文本。最近最先进的 ASR 模型,如 OpenAI 的 Whisper \[25 (https://arxiv.org/html/2605.11303#bib.bib162)\],表现出色,并对噪声、说话人差异和自发言语具有鲁棒性。尽管如此,转录错误仍然不可忽略。

如表 II (https://arxiv.org/html/2605.11303#S2.T2) 所示,即使在 PsyVoiD 数据上,WhisperLarge-v3 的词错误率(WER)也约为 9.2%,这意味着平均每十一个单词中就有一个转录错误。除了典型的替换、删除和插入错误外,ASR 模型还会产生幻觉,例如生成原始言语中不存在的重复或多余短语。这些转录错误,包括语言内容的扭曲和幻觉,可能会误导语言模型,并损害对心理相关特征(如犹豫标记、自我参照语言和情感表达)的分析。

为了消除 ASR 错误的混淆效应,并确保输入文本准确反映原始言语,我们在本研究中依赖手动标注的转录本。这一选择使我们能够隔离下游大语言模型的性能,并确保观察到的效应归因于语言建模而非转录噪声。

### III-B LLM 提示词工程

我们将手动转录本输入 LLM,以从自发言语中估计心理幸福感(即 Ryff 分数)。与需要特定任务训练的传统监督方法不同,LLM 可以在*零样本*模式下运行 \[21 (https://arxiv.org/html/2605.11303#bib.bib160), 3 (https://arxiv.org/html/2605.11303#bib.bib161)\],利用在预训练期间学到的广泛语言和心理社会先验知识来推断相关构念 \[9 (https://arxiv.org/html/2605.11303#bib.bib120)\]。为了提高可靠性和可解释性,我们设计了一个基于领域知识的提示词,该提示词是在临床心理学和语言学专家的投入下共同开发的,将任务框架化为由临床医生-语言学家团队进行的结构化评估。这种基于角色的提示策略已被证明能更好地使模型输出与特定领域任务中的专家推理保持一致 \[9 (https://arxiv.org/html/2605.11303#bib.bib120), 24 (https://arxiv.org/html/2605.11303#bib.bib171)\]。

提示词(图 2 (https://arxiv.org/html/2605.11303#S3.F2))旨在引导 LLM 作为评估自发言语中心理幸福感的专家临床心理学家。模型分析参与者在 COVID-19 封锁期间描述其典型一天的转录本,将内容映射到 Ryff PWB 的六个维度:自主性、环境掌控、个人成长、积极人际关系、生活目的和自我接纳。对于每个维度,LLM 分配一个分数(3-21),解释低、中、高幸福感的含义,并通过提取指示性关键词和相关转录片段提供支持证据。预测的总体 Ryff 分数计算为所有六个维度分数之和。输出采用 JSON 格式,包含所有六个维度的分数、关键词和证据。

通过将这种基于心理学基础的基于角色的提示词与结构化语言分析和明确论证相结合,该方法增强了零样本 LLM 基于多维度幸福感评估的鲁棒性、可解释性和透明可解释性。

参见图注
图 2: 通过 LLM 进行 Ryff PWB 推理的提示词设计:每种颜色对应提示词的不同方面。

## IV 实验结果与讨论

### IV-A 性能评估

表 III (https://arxiv.org/html/2605.11303#S4.T3) 报告了参与者完成的标准问卷得出的真实 Ryff 分数与 LLM 预测的 Ryff 分数之间的皮尔逊相关系数和斯皮尔曼相关系数。Meta-Llama-3.3-70B 和 DeepSeek-Qwen 实现了最高的皮尔逊相关系数,而 DeepSeek-Llama 和 Meta-Llama-3.3-70B 观察到最高的斯皮尔曼相关系数。<sup>111</sup>作为一个实际说明,在我们的实验中,DeepSeek-R1-Distill-Llama-70B 和 Llama-3.3-70B-Instruct 模型——这两个拥有 70B 参数的大型模型——由于 GPU 内存限制,被量化为 8 位精度,而所有其他模型均以 bfloat16 精度运行。因此,这两个模型报告的結果可能无法完全反映其在更高精度设置下的性能。

尽管模型在两个相关系数指标上的排名大致相似,但一些差异突显了考虑哪种指标更适当的必要性。皮尔逊相关系数假设线性关系和高斯分布数据;然而,这些假设在 Ryff 分数中被违反,因为它们是有限且有偏斜的(如图 5 (https://arxiv.org/html/2605.11303#S4.F5) 所示)。相比之下,斯皮尔曼相关系数基于秩次,对这些问题的鲁棒性更强,在此背景下为预测和实际 Ryff 分数之间的一致性提供了更可靠的度量。

所有这些相关

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。