LingxiDiagBench:一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架
摘要
介绍了LingxiDiagBench,这是一个大规模多智能体基准,用于评估LLM在中文精神科咨询与诊断中的表现。关键发现表明:二分类任务上准确率高(最高达92.3%),但多分类鉴别诊断性能较差(抑郁-焦虑共病识别43.0%,12类鉴别诊断28.5%),揭示了对话质量与诊断准确性之间的脱节。
查看缓存全文
缓存时间: 2026/06/24 09:47
论文页 - LingxiDiagBench:用于评估大语言模型在中文精神科咨询与诊断中表现的多智能体框架
来源:https://huggingface.co/papers/2602.09379
https://huggingface.co/papers/2602.09379#lingxidiagbench-评估大语言模型在中文精神科咨询与诊断中的表现-已被-kdd-2026-接收LingxiDiagBench:评估大语言模型在中文精神科咨询与诊断中的表现 [已被 KDD 2026 接收]
**TL;DR:**一个大规模多智能体基准测试揭示,虽然大语言模型能够以 92.3% 的准确率区分抑郁和焦虑,但在 12 类鉴别诊断中表现糟糕(28.5%)——并且更好的对话质量并不保证更好的诊断效果。
image (https://cdn-uploads.huggingface.co/production/uploads/6488a18de22a0081a550c514/6p4JZmA4ojnV8JrTYvmLQ.png)
https://huggingface.co/papers/2602.09379#数据集链接-httpshuggingfacecodatasetsxushihao6715lingxidiag-16k数据集链接:https://huggingface.co/datasets/XuShihao6715/LingxiDiag-16K
https://huggingface.co/papers/2602.09379#问题问题
精神卫生保健面临全球性的人才短缺危机。精神科诊断依赖于细致入微的多轮临床访谈,但现有的 AI 基准测试在三个关键方面存在不足:它们使用基于模板的合成对话,缺乏变异性;忽略了鉴别诊断所需的信息;并且很少支持动态多轮咨询评估。
https://huggingface.co/papers/2602.09379#创新之处创新之处
本文介绍了LingxiDiagBench,这是首个大规模、基于真实数据驱动、多疾病中文精神科 AI 诊断基准。其核心是LingxiDiag-16K——基于从上海市精神卫生中心收集的 1709 份真实门诊病历生成的 16,000 份合成咨询对话,这些对话精心保留了 12 个 ICD-10 类别中真实的临床人口统计和诊断分布。
该基准涵盖两种评估范式:
- **静态:**固定的对话转录文本,用于可重复的诊断和下一问题预测任务
- **动态:**实时的多轮咨询,大语言模型充当医生智能体,与由大语言模型驱动的患者智能体进行访谈
比较了四种医生咨询策略:自由形式、症状树、APA 引导和APA 引导 + MRD-RAG。
https://huggingface.co/papers/2602.09379#主要发现主要发现
- 🟢二分类(抑郁 vs. 焦虑)基本解决——顶尖模型达到92.3% 准确率
- 🟡四分类(含共病)降至43.0%——共病识别仍然困难
- 🔴12 类鉴别诊断仅达到28.5%——仍是一个重大开放挑战
- ⚠️**动态 < 静态:**交互式咨询的表现始终低于静态评估,表明不良的信息收集策略会损害下游推理
- 🔍**咨询质量 ≠ 诊断准确率:**LLM 作为裁判的评分与诊断准确率的相关性仅为 r = 0.43,表明提出好问题和做出正确诊断是两种分离的技能
- ✅**RAG 有帮助:**APA 引导 + MRD-RAG 相比单独的 APA 引导,整体分类提升约 5%
https://huggingface.co/papers/2602.09379#为何重要为何重要
LingxiDiagBench 提供了一个标准化、可复现的平台,用于系统评估和改进 AI 精神科诊断——这正是该领域一直以来所缺乏的。该基准设计是语言无关的,并基于国际临床标准(DSM-5/ICD-10),因此可扩展至中文以外的场景。
https://huggingface.co/papers/2602.09379#基准测试结果要点基准测试结果要点
https://huggingface.co/papers/2602.09379#%F0%9F%93%8A-静态评估-每个任务的最佳模型📊 静态评估 —— 每个任务的最佳模型
在合成(LingxiDiag-16K)和真实临床(LingxiDiag-Clinical)测试集上的固定咨询转录文本性能:
| 任务 | 最佳模型(合成) | 准确率(合成) | 最佳模型(真实) | 准确率(真实) |
|---|---|---|---|---|
| 二分类(抑郁 vs. 焦虑) | Gemini-3-Flash | 0.854 | Qwen3-4B | 0.887 |
| 四分类(+ 共病 + 其他) | Grok-4.1-Fast | 0.470 | Qwen3-32B | 0.524 |
| 12 类(完整 ICD-10 鉴别) | GPT-5-Mini | 0.409 | TF-IDF + SVM | 0.320 |
| 12 类 Top-3 准确率 | TF-IDF + LR | 0.645 | Qwen3-4B | 0.698 |
| 总体得分 | TF-IDF + LR | 0.533 | Qwen3-32B | 0.548 |
https://huggingface.co/papers/2602.09379#%F0%9F%A4%96-动态评估-每个数据集的最佳策略🤖 动态评估 —— 每个数据集的最佳策略
端到端咨询流程(医生智能体 → 患者智能体 → 诊断)在不同数据设置下的性能:
| 策略 | 最佳模型 | 二分类准确率 | 四分类准确率 | 12 类准确率 | 分类重叠率 |
|---|---|---|---|---|---|
| 合成(LingxiDiag-16K) | |||||
| 自由形式 | Grok-4.1-Fast | 88.6% | 34.0% | 25.5% | 40.1% |
| 症状树 | DeepSeek-V3.2 | 86.5% | 31.0% | 21.5% | 38.0% |
| APA 引导 | DeepSeek-V3.2 | 88.5% | 31.5% | 23.0% | 41.2% |
| APA 引导 + MRD-RAG | Grok-4.1-Fast | 88.5% | 43.0% | 28.5% | 45.4% |
| 真实(LingxiDiag-Clinical) | |||||
| 自由形式 | Qwen3-8B | 88.8% | 40.0% | 43.0% | 49.0% |
| 症状树 | GPT-OSS-20B | 91.2% | 43.0% | 44.5% | 50.0% |
| APA 引导 | Qwen3-32B | 80.0% | 36.0% | 46.5% | 48.3% |
| APA 引导 + MRD-RAG | GPT-OSS-20B | 78.8% | 37.5% | 45.5% | 47.2% |
https://huggingface.co/papers/2602.09379#%F0%9F%94%81-跨数据集迁移-合成训练能否泛化到真实数据🔁 跨数据集迁移 —— 合成训练能否泛化到真实数据?
为了验证 LingxiDiag-16K 编码了临床上有意义的知识(而不仅仅是表面统计信息),在合成数据上微调的模型在真实临床病例上进行了评估:
| 模型 | 12 类准确率(真实,零样本) | 12 类准确率(真实,+LoRA SFT) | 提升 |
|---|---|---|---|
| Qwen3-8B | 4.1% | 41.4% | +37.3% |
| Qwen3-32B | 20.4% | 39.7% | +19.3% |
| 作者强调,该基准仅用于研究目的,未经严格验证和人工监督,不得部署到临床环境中。 |
相似文章
ClinicalMC:面向大语言模型的多疗程临床决策基准
ClinicalMC是一个基准,旨在评估大语言模型在多疗程临床决策中的表现,包含中文和英文数据集以及一个多智能体评估框架。
DLawBench:通过多轮法律咨询评估大语言模型
DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。
AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者
本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。
当症状不足以诊断:大型语言模型在精神科筛查中的证据加权模式
本文介绍了一个以SCID为锚定的555次访谈基准,用于评估五种大型语言模型(LLMs)在精神科筛查中的表现。研究发现,虽然模型展现出潜力,但它们在存在功能保留或保护性背景的情况下倾向于低估症状证据,因此需要谨慎验证。
在标准化病例中评估大语言模型在动态临床决策中的表现
研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。