Dep-LLM：基于证据引导的结构化多因素与可靠LLM推理的无需训练抑郁症诊断

arXiv cs.CL 2026/06/10 04:00 论文

depression-diagnosis mental-health llm training-free chain-of-thought confidence-analysis clinical-interview

摘要

Dep-LLM是一个无需训练的框架，利用冻结的大型语言模型，通过将对话分解为五个临床对齐的主题，并采用基于证据的推理和置信度调制，从临床访谈中诊断抑郁症。在DAIC-WOZ和E-DAIC数据集上，其性能优于零样本和一些监督方法。

arXiv:2606.10796v1 Announce Type: new 摘要：从临床访谈中进行自动抑郁症检测（ADD）是计算精神健康领域的一项关键任务，但由于两个关键障碍仍然具有挑战性：1) 难以对冗长、多主题的临床访谈中复杂但稀疏分布的抑郁症线索进行建模，导致推理表面化且不可靠；2) 临床隐私导致标注数据稀缺，以及训练和微调的高成本，限制了监督式ADD系统的部署。为了共同应对这些挑战，我们提出了Dep-LLM，这是一个无需训练的框架，它模拟临床精神科医生的逐步推理过程，并完全在冻结的现成基础LLM上运行。Dep-LLM包含三个阶段。首先，思维链（CoT）抑郁症多因素分析模块将长对话结构分解为五个临床对齐的主题，并生成基于证据的推理依据，有效处理长上下文依赖。其次，我们引入了置信度分析与调制模块，该模块从每个推理依据的令牌级熵中量化认知可靠性，并应用标签内和主题间的调制，增强可信信号同时抑制不确定信号，无需额外训练。第三，协作多因素预测模块将经过置信度加权后的多因素信号动态整合到最终诊断中。在DAIC-WOZ和E-DAIC数据集上的大量实验证明了Dep-LLM的有效性和泛化能力：它在几乎所有21个基础LLM上，在准确率、宏F1和加权平均F1等9个指标上超越了零样本基线，并且进一步优于最先进的监督式领域专用LLM以及最新的闭源商业LLM，同时无需额外训练。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:12

# Dep-LLM: 基于证据引导的结构化多因素与可靠大语言模型推理的无训练抑郁症诊断
来源：https://arxiv.org/html/2606.10796
Yiqing Lyu, Xianbing Zhao, Buzhou Tang, Ronghuan Jiang

Yiqing Lyu 就读于哈尔滨工业大学（深圳）计算机科学与技术学院，广东深圳 \(e-mail: [email protected]\)。
Xianbing Zhao 就读于江南大学人工智能与计算机学院，无锡，哈尔滨工业大学（深圳），广东深圳，以及广东省智能信息处理重点实验室 \(e-mail: [email protected]\)。
Buzhou Tang（通讯作者）就读于哈尔滨工业大学（深圳）计算机科学与技术学院，鹏城实验室，广东省智能信息处理重点实验室 \(e-mail: [email protected]\)。
Ronghuan Jiang（通讯作者）任职于中国人民解放军总医院，北京 \(e-mail: [email protected]\)。
本研究部分受国家重点研发计划（2023YFC3502900）、国家自然科学基金（62276082）、深圳市科技研发资金（KJZD20240903102802003）、深圳市科技研发资金可持续发展项目（GXWD20231128103819001, 20230706140548006）和广东省重点实验室项目（2023B1212060076）资助。

###### 摘要
从临床访谈中进行自动抑郁症检测（ADD）是计算心理健康领域的关键任务，但由于两个关键障碍，它仍然具有挑战性：1) 在冗长、多主题的临床访谈中，难以建模复杂但稀疏分布的抑郁线索，导致推理表面化且不可靠；2) 由于临床隐私导致标注数据稀缺，加上训练和微调的高昂成本，限制了监督式ADD系统的部署。为了共同应对这些挑战，我们提出了Dep-LLM，一个完全冻结的现成基础LLM上无需训练即可运行的框架，模拟临床精神科医生的逐步推理过程。Dep-LLM包含三个阶段。首先，一个思维链（CoT）抑郁症多因素分析模块将长对话结构性地分解为五个临床对齐的主题，并产生基于证据的推理，有效处理长上下文依赖。其次，我们引入了置信度分析与调制模块，该模块从每个推理的token级熵中量化认知可靠性，并应用标签内和主题间的调制，放大可信信号同时抑制不确定信号，无需额外训练。第三，一个协作式多因素预测模块动态地将由置信度加权的多因素信号整合到最终诊断中。在DAIC-WOZ和E-DAIC数据集上的大量实验证明了Dep-LLM的有效性和泛化能力：它在21个基础LLM上几乎全面超越了零样本基线，涵盖了准确性、宏F1和加权平均F1等9个指标，并且进一步超越了最先进的监督式领域特定LLM以及最新的闭源商业LLM，同时不需要额外训练。

## I. 引言

参见图1
图1：Dep-LLM通过结构化多因素模式分解和分析对话，并通过置信度机制验证其可靠性。无需额外训练，Dep-LLM在一系列基础LLM上均优于零样本设置。

精神障碍，尤其是抑郁症，已成为一个主要的全球健康挑战。根据WHO的最新统计数据，抑郁症影响着全球数百万人，是导致残疾的主要原因之一，并显著增加了全球疾病负担[47,27]。权威的精神病学文献DSM-5[1]建立了抑郁症诊断的金标准，通过DSM-5结构化临床访谈（SCID）来实现，临床医生通过复杂的对话互动评估患者的精神状态。精神病学工作[4,41]也提出了SCID设计的综合方法，通过结构性地整合家庭关系、工作满意度、病史等主题。虽然这种综合方法在临床上得到了验证，但手动进行和分析这类访谈资源密集，难以扩展以满足日益增长的心理健康服务需求[43]。因此，从临床访谈记录中进行自动抑郁症检测（ADD）引起了广泛关注，旨在通过客观地从自然语言中识别抑郁风险来辅助临床医生[58,11]。

早期的ADD研究集中于对访谈记录进行监督式深度学习[37,19,63]，这受到可解释性有限和对标注临床数据严重依赖[56]的困扰。大语言模型（LLMs）的兴起将ADD转向生成式推理、领域自适应预训练[18]、指令微调[50,52]、检索增强生成[57,58]以及多智能体流水线[16,62]。尽管取得了进展，但ADD仍然存在两个瓶颈，这些瓶颈在监督式和基于LLM的方法中都持续存在：在长临床访谈对话中建模稀疏抑郁线索的困难，以及数据稀缺和高训练成本的实际障碍。

**挑战1：在长上下文中建模抑郁线索的困难。**
临床访谈本质上是冗长的，涵盖多个主题，其中抑郁线索复杂但分布稀疏，并且与抑郁诊断无关的内容（例如问候语和过渡句）交织在一起[53,19]。这种复杂的语义性质使得现成LLM难以捕捉与抑郁相关的细微症状。如图1所示，零样本LLM倾向于将整个对话压缩为一个整体判断，并产生诸如“总体积极 outlook”之类的肤浅理由，忽略了临床上相关的具体线索[57,38]。此外，即使LLM产生了详细的推理，这些推理可能在局部看似合理，但由于医学幻觉[21,2]，在临床上可能不可靠。因此，需要一个与临床标准（例如SCID）良好对齐的结构化分析模式，将多因素访谈对话分解为基于证据的推理[59,40,24]，并伴有一个可靠性验证机制，以区分可信推理和不确定推理。

**挑战2：数据稀缺和高训练成本。**
监督式方法[63,30]和微调LLMs[18,52,50]严重依赖大规模标注临床数据，由于隐私和伦理问题，这些数据稀缺且难以获取。缺乏这样的数据，这些模型在特定领域的临床环境中难以优化和部署。此外，训练或微调LLMs需要昂贵的计算资源，为预算有限的临床机构设置了难以逾越的障碍[61,31]。因此，迫切需要利用冻结的基础LLM、无需额外数据或训练开销的无训练方法，同时其性能必须与监督式模型保持竞争力。

为了共同应对这两个挑战，我们提出了 **Dep-LLM**，一个新颖的用于ADD的无训练框架，模拟临床精神科医生的逐步推理过程。如图1和图2所示，Dep-LLM是一个三阶段流水线，完全在冻结的现成基础LLM上运行：1) **CoT抑郁多因素分析** 模块使用思维链提示[46,44]将长对话结构性地分解为五个与SCID对齐的主题[38,59]（家庭关系、工作满意度、精神状态、病史、整体评估），并在细粒度的可能性空间上提取基于证据的推理，有效处理长上下文中的语义依赖；2) **语义置信度分析与调制** 模块从token级熵中量化每个推理的认知可靠性，并应用标签内和主题间的对比调制，放大可靠信号同时抑制不确定信号[9,33,35]；3) **协作式多因素预测** 模块动态整合这些由置信度加权的信号到诊断决策中。整个流水线没有引入可学习参数，也不需要标注临床数据，使得Dep-LLM在真实临床环境中典型的数据和计算预算受限情况下易于部署。

在广泛使用的DAIC-WOZ[13]和E-DAIC[8]数据集上的大量实验证明了Dep-LLM的有效性。相对于零样本基线，Dep-LLM在几乎所有测试的21个基础LLM（Llama-2/3/4、Qwen-2.5/3/3.5、Gemma-2/3系列，参数量从4B到17B）上取得了显著改进，并且在大多数指标上进一步超越了具有代表性的监督式领域特定LLM（例如 MentalBERT、MentaLLaMA、BioMistral、Meditron）以及最新的闭源商业LLM（GPT-5.5、Gemini-3.1-Pro、Claude-Opus-4.6、Grok-4.3、DeepSeek-V4）。我们的主要贡献有三点：
- • 我们提出了 **Dep-LLM**，一个新颖的抑郁症检测框架，通过引入结构化多因素分析模式和LLM可靠性验证，解决了长SCID对话中的推理挑战。
- • 我们在完全无训练设置下实现了Dep-LLM框架，消除了昂贵模型训练的开销和对稀缺数据的需求，同时在临床场景中保持强劲性能。
- • 我们实现了Dep-LLM架构，集成了CoT推理、语义置信度分析和协作式多因素融合，共同增强了自动诊断的可解释性和合理性。

## II. 相关工作

### II-A. 自动抑郁症检测

自动抑郁症检测（ADD）的方法论已经经历了从监督式深度学习和多模态融合，到当前以大语言模型（LLMs）进行生成式推理的清晰轨迹。早期的ADD研究利用CNN和RNN等神经网络进行序列对话特征建模[12,37]，同时采用TFN[55]、MulT[45]和MISA[14]等框架进行多模态融合。HAN[28]通过分层注意力进一步改进了这一点。最近的研究优先考虑复杂融合：DepMSTAT[42]和TTFNet[5]利用时空和频域网络，而DepMamba[54]采用状态空间模型以提高效率。MMPF[51]和WavFace[10]等专注于信号过滤和对齐。SEGA[7]和HiQuE[19]等结构化方法专注于通过嵌入网络重建语义结构。然而，这些监督式模型普遍存在可解释性低和对训练数据高度依赖[56]的问题。

LLMs的进步已将焦点转向生成式推理。初期工作利用预训练模型，如MentalBERT[18]，或指令微调模型，如MentalAlpaca[50]，以使模型与心理健康任务对齐。最近更多的监督式领域特定LLMs，如PsycoLLM[15]和DepressLLM[32]，进一步向主干模型注入心理学知识和可解释的置信度。除了文本之外，多模态LLMs将语言线索与声学和面部信号融合，用于基于访谈的评估[39,25]。同时，智能体框架将诊断分解到多个协作角色中，包括医-患-家属互动[62]、多智能体引导访谈[3,16]、知识引导的精神病学推理[49]以及现实患者模拟[26]。

为了解决现成LLM的幻觉和缺乏临床依据[34]的问题，检索增强生成（RAG）方法如SpeechT-RAG[58]和RED[57]将诊断建立在外部证据之上。此外，思维链（CoT）框架如Doris[23]和EMDRC[60]等也被提出。

Dep-LLM：基于证据引导的结构化多因素与可靠LLM推理的无需训练抑郁症诊断

相似文章

基于AI心理健康对话的被动抑郁严重程度评估的LLMs微调

基于大语言模型的社交媒体抑郁风险评估

LingxiDiagBench：一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架

基于LLM推理的多视角注意力多示例学习在认知扭曲检测中的应用

MA-DLE：基于记忆增强的语音自动抑郁程度评估

提交意见反馈