临床访谈抑郁检测基准的多探针审计
摘要
本文通过四个互补探针对五个数据集(DAIC/E-DAIC、CMDC、ANDROIDS、MODMA和PDCH)中的临床访谈抑郁检测基准评估进行审计,发现标准评估协议可能高估模型性能,且排行榜排名缺乏稳定性。
查看缓存全文
缓存时间: 2026/05/26 09:00
# 临床访谈抑郁症检测基准的多探针审计 来源:https://arxiv.org/abs/2605.23977 查看 PDF (https://arxiv.org/pdf/2605.23977) > **摘要:**本文通过四个互补探针对 DAIC/E-DAIC、CMDC、ANDROIDS、MODMA 和 PDCH 的临床访谈抑郁症检测基准评估进行审计。首先,我们在严格的受试者分离的留一受试者交叉验证下重新评估 E-DAIC。一个轻量级混合文本加 LLM 分数模型达到了 macro-F1 = 0.723——据我们所知,这是该协议下报告的最高结果——提供了一个保守的折外参考点,不依赖于特权官方保留集。其次,我们通过横跨模态捆绑、池化策略和学习器的 96 种模型配置,测试 E-DAIC 官方划分是否支持细粒度排行榜排名。开发侧交叉验证和官方测试排名仅中等一致:最佳交叉验证配置在官方测试中排名第 20,官方测试获胜者按交叉验证排名第 41,前三重叠为零,且明显获胜者在受试者自助抽样中仅有 32.3% 的概率排名第一。第三,我们外部验证了在领域内达到接近天花板性能的强公共 CMDC 和 ANDROIDS 基线。向外部语料库的零样本迁移则明显较弱。最后,我们使用基于 SRDS 的标注器定义的症状密集与症状稀疏访谈片段对,对 E-DAIC 文本和音频模型进行压力测试。文本分数在症状密集片段上显著上升,而音频分数几乎持平;文本减音频差距在所有五个种子中均为正。 ## 提交历史 来自:Takehiro Ishikawa \[查看邮件 (https://arxiv.org/show-email/0f13edff/2605.23977)\] **\[v1\]** 2026年5月13日星期三 17:32:41 UTC (347 KB)
相似文章
ClinicalBench:对 MIMIC-IV 跨入院临床问答中基于断言感知的检索进行压力测试
本文介绍了 ClinicalBench 和 EpiKG 系统,评估了针对 MIMIC-IV 数据在多个人工智能大语言模型(LLM)上的临床问答中基于断言感知的检索能力。研究证明,在检索过程中处理否定和时态信息,相比标准基线能显著提升性能。
当症状不足以诊断:大型语言模型在精神科筛查中的证据加权模式
本文介绍了一个以SCID为锚定的555次访谈基准,用于评估五种大型语言模型(LLMs)在精神科筛查中的表现。研究发现,虽然模型展现出潜力,但它们在存在功能保留或保护性背景的情况下倾向于低估症状证据,因此需要谨慎验证。
心理健康对话中的专家级危机检测
介绍了CRADLE-Dialogue,一个由临床医生标注的基准数据集,用于心理健康对话中的对话轮次级危机检测,同时包含Alert–Confirm评估协议、合成训练语料库以及一个32B参数模型,该模型在性能上优于现有的开放源代码和专有模型。
AI模型构建者的不稳定指标与基准测试文化
本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。
ASD-Bench:用于自闭症谱系障碍的 AI 模型四维综合基准测试
本文介绍了 ASD-Bench,这是一个全面的基准测试,从预测性能、校准度、可解释性和鲁棒性四个维度评估用于自闭症谱系障碍(ASD)筛查的 AI 模型。该研究使用 AQ-10 数据分析了不同年龄组的多种模型,强调了在临床 AI 应用中采用多指标评估的重要性。