标签
本文介绍了一个以SCID为锚定的555次访谈基准,用于评估五种大型语言模型(LLMs)在精神科筛查中的表现。研究发现,虽然模型展现出潜力,但它们在存在功能保留或保护性背景的情况下倾向于低估症状证据,因此需要谨慎验证。