evidence-weighting

#evidence-weighting

当症状不足以诊断：大型语言模型在精神科筛查中的证据加权模式

arXiv cs.CL ↗ · 2026-05-25 缓存

本文介绍了一个以SCID为锚定的555次访谈基准，用于评估五种大型语言模型（LLMs）在精神科筛查中的表现。研究发现，虽然模型展现出潜力，但它们在存在功能保留或保护性背景的情况下倾向于低估症状证据，因此需要谨慎验证。

0 人收藏 0 人点赞