LingxiDiagBench：一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架

Hugging Face Daily Papers 2026/06/11 00:00 论文

multi-agent benchmark llm psychiatric-diagnosis chinese mental-health kdd

摘要

介绍了LingxiDiagBench，这是一个大规模多智能体基准，用于评估LLM在中文精神科咨询与诊断中的表现。关键发现表明：二分类任务上准确率高（最高达92.3%），但多分类鉴别诊断性能较差（抑郁-焦虑共病识别43.0%，12类鉴别诊断28.5%），揭示了对话质量与诊断准确性之间的脱节。

精神障碍在全球范围内非常普遍，但精神科医生短缺以及基于面谈的诊断固有的主观性，给及时、一致的心理健康评估造成了巨大障碍。AI辅助的精神科诊断的进展受到缺乏基准的限制，这些基准需要同时提供逼真的患者模拟、临床医生验证的诊断标签，并支持动态多轮咨询。我们提出了LingxiDiagBench，这是一个大规模多智能体基准，用于评估LLM在中文环境下的静态诊断推理和动态多轮精神科咨询。其核心是LingxiDiag-16K，这是一个包含16,000个与电子病历对齐的合成咨询对话的数据集，旨在再现12个ICD-10精神科类别中真实的临床人口统计学和诊断分布。通过对最先进的LLM进行广泛实验，我们得到了关键发现：（1）虽然LLM在抑郁-焦虑二分类任务上准确率高（最高达92.3%），但在抑郁-焦虑共病识别（43.0%）和12类鉴别诊断（28.5%）上性能显著下降；（2）动态咨询的表现通常不如静态评估，表明无效的信息收集策略严重损害了下游诊断推理；（3）通过LLM作为评判者评估的咨询质量与诊断准确性仅表现出中等相关性，表明仅凭结构良好的提问并不能确保正确的诊断决策。我们发布了LingxiDiag-16K和完整的评估框架，以支持可重复研究，网址为https://github.com/Lingxi-mental-health/LingxiDiagBench。

查看原文

查看缓存全文

缓存时间: 2026/06/24 09:47

论文页 - LingxiDiagBench：用于评估大语言模型在中文精神科咨询与诊断中表现的多智能体框架

来源：https://huggingface.co/papers/2602.09379

https://huggingface.co/papers/2602.09379#lingxidiagbench-评估大语言模型在中文精神科咨询与诊断中的表现-已被-kdd-2026-接收LingxiDiagBench：评估大语言模型在中文精神科咨询与诊断中的表现 [已被 KDD 2026 接收]

**TL;DR：**一个大规模多智能体基准测试揭示，虽然大语言模型能够以 92.3% 的准确率区分抑郁和焦虑，但在 12 类鉴别诊断中表现糟糕（28.5%）——并且更好的对话质量并不保证更好的诊断效果。

image (https://cdn-uploads.huggingface.co/production/uploads/6488a18de22a0081a550c514/6p4JZmA4ojnV8JrTYvmLQ.png)

https://huggingface.co/papers/2602.09379#数据集链接-httpshuggingfacecodatasetsxushihao6715lingxidiag-16k数据集链接：https://huggingface.co/datasets/XuShihao6715/LingxiDiag-16K

https://huggingface.co/papers/2602.09379#问题问题

精神卫生保健面临全球性的人才短缺危机。精神科诊断依赖于细致入微的多轮临床访谈，但现有的 AI 基准测试在三个关键方面存在不足：它们使用基于模板的合成对话，缺乏变异性；忽略了鉴别诊断所需的信息；并且很少支持动态多轮咨询评估。

https://huggingface.co/papers/2602.09379#创新之处创新之处

本文介绍了LingxiDiagBench，这是首个大规模、基于真实数据驱动、多疾病中文精神科 AI 诊断基准。其核心是LingxiDiag-16K——基于从上海市精神卫生中心收集的 1709 份真实门诊病历生成的 16,000 份合成咨询对话，这些对话精心保留了 12 个 ICD-10 类别中真实的临床人口统计和诊断分布。

该基准涵盖两种评估范式：

**静态：**固定的对话转录文本，用于可重复的诊断和下一问题预测任务
**动态：**实时的多轮咨询，大语言模型充当医生智能体，与由大语言模型驱动的患者智能体进行访谈

比较了四种医生咨询策略：自由形式、症状树、APA 引导和APA 引导 + MRD-RAG。

https://huggingface.co/papers/2602.09379#主要发现主要发现

🟢二分类（抑郁 vs. 焦虑）基本解决——顶尖模型达到92.3% 准确率
🟡四分类（含共病）降至43.0%——共病识别仍然困难
🔴12 类鉴别诊断仅达到28.5%——仍是一个重大开放挑战
⚠️**动态 < 静态：**交互式咨询的表现始终低于静态评估，表明不良的信息收集策略会损害下游推理
🔍**咨询质量 ≠ 诊断准确率：**LLM 作为裁判的评分与诊断准确率的相关性仅为 r = 0.43，表明提出好问题和做出正确诊断是两种分离的技能
✅**RAG 有帮助：**APA 引导 + MRD-RAG 相比单独的 APA 引导，整体分类提升约 5%

https://huggingface.co/papers/2602.09379#为何重要为何重要

LingxiDiagBench 提供了一个标准化、可复现的平台，用于系统评估和改进 AI 精神科诊断——这正是该领域一直以来所缺乏的。该基准设计是语言无关的，并基于国际临床标准（DSM-5/ICD-10），因此可扩展至中文以外的场景。

https://huggingface.co/papers/2602.09379#基准测试结果要点基准测试结果要点

https://huggingface.co/papers/2602.09379#%F0%9F%93%8A-静态评估-每个任务的最佳模型📊 静态评估 —— 每个任务的最佳模型

在合成（LingxiDiag-16K）和真实临床（LingxiDiag-Clinical）测试集上的固定咨询转录文本性能：

任务	最佳模型（合成）	准确率（合成）	最佳模型（真实）	准确率（真实）
二分类（抑郁 vs. 焦虑）	Gemini-3-Flash	0.854	Qwen3-4B	0.887
四分类（+ 共病 + 其他）	Grok-4.1-Fast	0.470	Qwen3-32B	0.524
12 类（完整 ICD-10 鉴别）	GPT-5-Mini	0.409	TF-IDF + SVM	0.320
12 类 Top-3 准确率	TF-IDF + LR	0.645	Qwen3-4B	0.698
总体得分	TF-IDF + LR	0.533	Qwen3-32B	0.548

https://huggingface.co/papers/2602.09379#%F0%9F%A4%96-动态评估-每个数据集的最佳策略🤖 动态评估 —— 每个数据集的最佳策略

端到端咨询流程（医生智能体 → 患者智能体 → 诊断）在不同数据设置下的性能：

策略	最佳模型	二分类准确率	四分类准确率	12 类准确率	分类重叠率
		合成（LingxiDiag-16K）
自由形式	Grok-4.1-Fast	88.6%	34.0%	25.5%	40.1%
症状树	DeepSeek-V3.2	86.5%	31.0%	21.5%	38.0%
APA 引导	DeepSeek-V3.2	88.5%	31.5%	23.0%	41.2%
APA 引导 + MRD-RAG	Grok-4.1-Fast	88.5%	43.0%	28.5%	45.4%
		真实（LingxiDiag-Clinical）
自由形式	Qwen3-8B	88.8%	40.0%	43.0%	49.0%
症状树	GPT-OSS-20B	91.2%	43.0%	44.5%	50.0%
APA 引导	Qwen3-32B	80.0%	36.0%	46.5%	48.3%
APA 引导 + MRD-RAG	GPT-OSS-20B	78.8%	37.5%	45.5%	47.2%

https://huggingface.co/papers/2602.09379#%F0%9F%94%81-跨数据集迁移-合成训练能否泛化到真实数据🔁 跨数据集迁移 —— 合成训练能否泛化到真实数据？

为了验证 LingxiDiag-16K 编码了临床上有意义的知识（而不仅仅是表面统计信息），在合成数据上微调的模型在真实临床病例上进行了评估：

模型	12 类准确率（真实，零样本）	12 类准确率（真实，+LoRA SFT）	提升
Qwen3-8B	4.1%	41.4%	+37.3%
Qwen3-32B	20.4%	39.7%	+19.3%
作者强调，该基准仅用于研究目的，未经严格验证和人工监督，不得部署到临床环境中。

LingxiDiagBench：一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架

论文页 - LingxiDiagBench：用于评估大语言模型在中文精神科咨询与诊断中表现的多智能体框架

https://huggingface.co/papers/2602.09379#lingxidiagbench-评估大语言模型在中文精神科咨询与诊断中的表现-已被-kdd-2026-接收LingxiDiagBench：评估大语言模型在中文精神科咨询与诊断中的表现 [已被 KDD 2026 接收]

https://huggingface.co/papers/2602.09379#数据集链接-httpshuggingfacecodatasetsxushihao6715lingxidiag-16k数据集链接：https://huggingface.co/datasets/XuShihao6715/LingxiDiag-16K

https://huggingface.co/papers/2602.09379#问题问题

https://huggingface.co/papers/2602.09379#创新之处创新之处

https://huggingface.co/papers/2602.09379#主要发现主要发现

https://huggingface.co/papers/2602.09379#为何重要为何重要

https://huggingface.co/papers/2602.09379#基准测试结果要点基准测试结果要点

https://huggingface.co/papers/2602.09379#%F0%9F%93%8A-静态评估-每个任务的最佳模型📊 静态评估 —— 每个任务的最佳模型

https://huggingface.co/papers/2602.09379#%F0%9F%A4%96-动态评估-每个数据集的最佳策略🤖 动态评估 —— 每个数据集的最佳策略

https://huggingface.co/papers/2602.09379#%F0%9F%94%81-跨数据集迁移-合成训练能否泛化到真实数据🔁 跨数据集迁移 —— 合成训练能否泛化到真实数据？

相似文章

ClinicalMC：面向大语言模型的多疗程临床决策基准

DLawBench：通过多轮法律咨询评估大语言模型

AgentCollabBench：诊断优秀智能体为何成为糟糕的协作者

当症状不足以诊断：大型语言模型在精神科筛查中的证据加权模式

在标准化病例中评估大语言模型在动态临床决策中的表现

提交意见反馈