标签
介绍了LingxiDiagBench,这是一个大规模多智能体基准,用于评估LLM在中文精神科咨询与诊断中的表现。关键发现表明:二分类任务上准确率高(最高达92.3%),但多分类鉴别诊断性能较差(抑郁-焦虑共病识别43.0%,12类鉴别诊断28.5%),揭示了对话质量与诊断准确性之间的脱节。
WiseMind是一个知识引导的多智能体框架,利用大语言模型进行精神疾病诊断,通过结合用于循证逻辑的“理性思维”智能体和用于共情沟通的“情感思维”智能体,在模拟和真实患者交互中实现了85.6%的诊断准确率。该框架利用DSM-5结构化知识图谱减少幻觉,并在保持临床合理性和心理支持的同时,比单智能体基线高出15-54个百分点。