当症状不足以诊断：大型语言模型在精神科筛查中的证据加权模式

arXiv cs.CL 2026/05/25 04:00 论文

摘要

本文介绍了一个以SCID为锚定的555次访谈基准，用于评估五种大型语言模型（LLMs）在精神科筛查中的表现。研究发现，虽然模型展现出潜力，但它们在存在功能保留或保护性背景的情况下倾向于低估症状证据，因此需要谨慎验证。

arXiv:2605.23148v1 公告类型：新摘要：随着精神卫生保健需求超过临床医生提供的评估，对可扩展筛查工具的需求日益增加。大型语言模型（LLMs）可能从患者叙述中识别精神科风险，但其在诊断、人口亚组和证据使用模式上的可靠性仍不确定。我们介绍了一个以SCID为锚定的555次半结构化体验访谈基准，并附有焦虑症、重度抑郁症、创伤后应激障碍和任何当前精神障碍的诊断参考标签。采用零样本任务特定提示，我们评估了五种最先进的大型语言模型，并考察了假阴性错误是否源于遗漏精神科证据或对症状、功能损害和保护性背景线索的差异加权。各任务和模型的表现有所不同，准确率范围为0.49至0.86，马修斯相关系数范围为0.16至0.38。GPT-4.1 Mini和GPT-5 Mini在特定诊断一致性上表现最佳。亚组分析发现，男性参与者的抑郁分类准确率高于女性，未发现一致的年龄相关模式，种族分层上存在适度的非均匀变化。证据整合分析显示，焦虑症和PTSD的假阴性分类通常包含明确的症状证据，但伴随功能保留、应对能力或社会支持。功能损害证据使模型输出倾向于阳性分类，而保护性背景证据使输出偏离。这些发现表明，LLMs可能支持可扩展的精神科筛查，但它们在功能保留或保护性背景下倾向于低估症状证据，因此在临床部署前需要谨慎验证。

查看原文

查看缓存全文

缓存时间: 2026/05/25 08:59

# 当症状不足时：大型语言模型精神科筛查中的证据加权模式

来源：https://arxiv.org/abs/2605.23148  
查看 PDF（https://arxiv.org/pdf/2605.23148）

> **摘要：** 随着心理健康护理需求超出临床医生提供的评估能力，可扩展的筛查工具日益迫切。大型语言模型（LLM）或许能从患者叙述中识别精神科风险，但其在不同诊断、人口统计学亚组以及证据使用模式中的可靠性仍不确定。我们引入了一个以 SCID 为锚定的基准，包含 555 个半结构化体验式访谈，并配有焦虑障碍、重性抑郁障碍、创伤后应激障碍以及任何当前心理健康障碍的诊断参考标签。利用零样本任务特定提示，我们评估了五种最先进的 LLM，并考察假阴性错误是否源于遗漏精神科证据，或对症状、功能损害和保护性情境线索的差异性加权。不同任务和模型的性能各异，准确率在 0.49 到 0.86 之间，马修斯相关系数在 0.16 到 0.38 之间。GPT-4.1 Mini 和 GPT-5 Mini 展现出最一致的疾病特异性准确率。亚组分析发现，男性参与者的抑郁分类准确率高于女性参与者，未发现一致的年龄相关模式，且在不同种族分层中存在适度的非均匀变异。证据整合分析表明，假阴性的焦虑和 PTSD 分类通常包含明确的症状证据，但同时伴有功能完好、应对能力或社会支持。功能损害证据使模型输出偏向阳性分类，而保护性情境证据则使输出偏离。这些发现表明，LLM 可能支持可扩展的精神科筛查，但在功能完好或保护性情境存在时，其倾向于低估症状证据的偏差，需要在临床部署前进行审慎验证。

## 提交历史

来自：朱剑锋 \[查看邮箱（https://arxiv.org/show-email/c8efb6c7/2605.23148）\] **\[v1\]**  
2026 年 5 月 22 日星期五 01:53:03 UTC（1,302 KB）

当症状不足以诊断：大型语言模型在精神科筛查中的证据加权模式

相似文章

诊断之前先询问：Safe-Psych，面向精神科领域大语言模型的序贯评估基准

LingxiDiagBench：一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架

在标准化病例中评估大语言模型在动态临床决策中的表现

CalBrief：大型语言模型证据校准式科学简报的试点诊断基准

重新思考LLMs的心理测量学评估：自我报告何时以及为何能预测行为

提交意见反馈