LingxiDiagBench:一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架

Hugging Face Daily Papers 论文

摘要

介绍了LingxiDiagBench,这是一个大规模多智能体基准,用于评估LLM在中文精神科咨询与诊断中的表现。关键发现表明:二分类任务上准确率高(最高达92.3%),但多分类鉴别诊断性能较差(抑郁-焦虑共病识别43.0%,12类鉴别诊断28.5%),揭示了对话质量与诊断准确性之间的脱节。

精神障碍在全球范围内非常普遍,但精神科医生短缺以及基于面谈的诊断固有的主观性,给及时、一致的心理健康评估造成了巨大障碍。AI辅助的精神科诊断的进展受到缺乏基准的限制,这些基准需要同时提供逼真的患者模拟、临床医生验证的诊断标签,并支持动态多轮咨询。我们提出了LingxiDiagBench,这是一个大规模多智能体基准,用于评估LLM在中文环境下的静态诊断推理和动态多轮精神科咨询。其核心是LingxiDiag-16K,这是一个包含16,000个与电子病历对齐的合成咨询对话的数据集,旨在再现12个ICD-10精神科类别中真实的临床人口统计学和诊断分布。通过对最先进的LLM进行广泛实验,我们得到了关键发现:(1)虽然LLM在抑郁-焦虑二分类任务上准确率高(最高达92.3%),但在抑郁-焦虑共病识别(43.0%)和12类鉴别诊断(28.5%)上性能显著下降;(2)动态咨询的表现通常不如静态评估,表明无效的信息收集策略严重损害了下游诊断推理;(3)通过LLM作为评判者评估的咨询质量与诊断准确性仅表现出中等相关性,表明仅凭结构良好的提问并不能确保正确的诊断决策。我们发布了LingxiDiag-16K和完整的评估框架,以支持可重复研究,网址为https://github.com/Lingxi-mental-health/LingxiDiagBench。
查看原文
查看缓存全文

缓存时间: 2026/06/24 09:47

论文页 - LingxiDiagBench:用于评估大语言模型在中文精神科咨询与诊断中表现的多智能体框架

来源:https://huggingface.co/papers/2602.09379

https://huggingface.co/papers/2602.09379#lingxidiagbench-评估大语言模型在中文精神科咨询与诊断中的表现-已被-kdd-2026-接收LingxiDiagBench:评估大语言模型在中文精神科咨询与诊断中的表现 [已被 KDD 2026 接收]

**TL;DR:**一个大规模多智能体基准测试揭示,虽然大语言模型能够以 92.3% 的准确率区分抑郁和焦虑,但在 12 类鉴别诊断中表现糟糕(28.5%)——并且更好的对话质量并不保证更好的诊断效果。

image (https://cdn-uploads.huggingface.co/production/uploads/6488a18de22a0081a550c514/6p4JZmA4ojnV8JrTYvmLQ.png)

https://huggingface.co/papers/2602.09379#数据集链接-httpshuggingfacecodatasetsxushihao6715lingxidiag-16k数据集链接:https://huggingface.co/datasets/XuShihao6715/LingxiDiag-16K

https://huggingface.co/papers/2602.09379#问题问题

精神卫生保健面临全球性的人才短缺危机。精神科诊断依赖于细致入微的多轮临床访谈,但现有的 AI 基准测试在三个关键方面存在不足:它们使用基于模板的合成对话,缺乏变异性;忽略了鉴别诊断所需的信息;并且很少支持动态多轮咨询评估。

https://huggingface.co/papers/2602.09379#创新之处创新之处

本文介绍了LingxiDiagBench,这是首个大规模、基于真实数据驱动、多疾病中文精神科 AI 诊断基准。其核心是LingxiDiag-16K——基于从上海市精神卫生中心收集的 1709 份真实门诊病历生成的 16,000 份合成咨询对话,这些对话精心保留了 12 个 ICD-10 类别中真实的临床人口统计和诊断分布。

该基准涵盖两种评估范式

  • **静态:**固定的对话转录文本,用于可重复的诊断和下一问题预测任务
  • **动态:**实时的多轮咨询,大语言模型充当医生智能体,与由大语言模型驱动的患者智能体进行访谈

比较了四种医生咨询策略:自由形式症状树APA 引导APA 引导 + MRD-RAG

https://huggingface.co/papers/2602.09379#主要发现主要发现

  • 🟢二分类(抑郁 vs. 焦虑)基本解决——顶尖模型达到92.3% 准确率
  • 🟡四分类(含共病)降至43.0%——共病识别仍然困难
  • 🔴12 类鉴别诊断仅达到28.5%——仍是一个重大开放挑战
  • ⚠️**动态 < 静态:**交互式咨询的表现始终低于静态评估,表明不良的信息收集策略会损害下游推理
  • 🔍**咨询质量 ≠ 诊断准确率:**LLM 作为裁判的评分与诊断准确率的相关性仅为 r = 0.43,表明提出好问题和做出正确诊断是两种分离的技能
  • ✅**RAG 有帮助:**APA 引导 + MRD-RAG 相比单独的 APA 引导,整体分类提升约 5%

https://huggingface.co/papers/2602.09379#为何重要为何重要

LingxiDiagBench 提供了一个标准化、可复现的平台,用于系统评估和改进 AI 精神科诊断——这正是该领域一直以来所缺乏的。该基准设计是语言无关的,并基于国际临床标准(DSM-5/ICD-10),因此可扩展至中文以外的场景。

https://huggingface.co/papers/2602.09379#基准测试结果要点基准测试结果要点

https://huggingface.co/papers/2602.09379#%F0%9F%93%8A-静态评估-每个任务的最佳模型📊 静态评估 —— 每个任务的最佳模型

在合成(LingxiDiag-16K)和真实临床(LingxiDiag-Clinical)测试集上的固定咨询转录文本性能:

任务最佳模型(合成)准确率(合成)最佳模型(真实)准确率(真实)
二分类(抑郁 vs. 焦虑)Gemini-3-Flash0.854Qwen3-4B0.887
四分类(+ 共病 + 其他)Grok-4.1-Fast0.470Qwen3-32B0.524
12 类(完整 ICD-10 鉴别)GPT-5-Mini0.409TF-IDF + SVM0.320
12 类 Top-3 准确率TF-IDF + LR0.645Qwen3-4B0.698
总体得分TF-IDF + LR0.533Qwen3-32B0.548

https://huggingface.co/papers/2602.09379#%F0%9F%A4%96-动态评估-每个数据集的最佳策略🤖 动态评估 —— 每个数据集的最佳策略

端到端咨询流程(医生智能体 → 患者智能体 → 诊断)在不同数据设置下的性能:

策略最佳模型二分类准确率四分类准确率12 类准确率分类重叠率
合成(LingxiDiag-16K)
自由形式Grok-4.1-Fast88.6%34.0%25.5%40.1%
症状树DeepSeek-V3.286.5%31.0%21.5%38.0%
APA 引导DeepSeek-V3.288.5%31.5%23.0%41.2%
APA 引导 + MRD-RAGGrok-4.1-Fast88.5%43.0%28.5%45.4%
真实(LingxiDiag-Clinical)
自由形式Qwen3-8B88.8%40.0%43.0%49.0%
症状树GPT-OSS-20B91.2%43.0%44.5%50.0%
APA 引导Qwen3-32B80.0%36.0%46.5%48.3%
APA 引导 + MRD-RAGGPT-OSS-20B78.8%37.5%45.5%47.2%

https://huggingface.co/papers/2602.09379#%F0%9F%94%81-跨数据集迁移-合成训练能否泛化到真实数据🔁 跨数据集迁移 —— 合成训练能否泛化到真实数据?

为了验证 LingxiDiag-16K 编码了临床上有意义的知识(而不仅仅是表面统计信息),在合成数据上微调的模型在真实临床病例上进行了评估:

模型12 类准确率(真实,零样本)12 类准确率(真实,+LoRA SFT)提升
Qwen3-8B4.1%41.4%+37.3%
Qwen3-32B20.4%39.7%+19.3%
作者强调,该基准仅用于研究目的,未经严格验证和人工监督,不得部署到临床环境中。

相似文章

DLawBench:通过多轮法律咨询评估大语言模型

arXiv cs.CL

DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。

AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者

arXiv cs.CL

本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。

在标准化病例中评估大语言模型在动态临床决策中的表现

Hugging Face Daily Papers

研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。