临床访谈抑郁检测基准的多探针审计

arXiv cs.CL 论文

摘要

本文通过四个互补探针对五个数据集(DAIC/E-DAIC、CMDC、ANDROIDS、MODMA和PDCH)中的临床访谈抑郁检测基准评估进行审计,发现标准评估协议可能高估模型性能,且排行榜排名缺乏稳定性。

arXiv:2605.23977v1 公告类型: 新 摘要: 本文通过四个互补探针对DAIC/E-DAIC、CMDC、ANDROIDS、MODMA和PDCH五个数据集中的临床访谈抑郁检测基准评估进行审计。首先,我们在严格的受试者不重叠的留一受试者交叉验证下重新评估E-DAIC。一个轻量级的文本加LLM分数混合模型达到macro-F1=0.723——据我们所知,这是该协议下报告的最高值——提供了一个保守的折叠外参考点,且不依赖于特权的官方保留集。其次,我们通过扫描跨模态组合、池化策略和学习器的96种模型配置,测试E-DAIC官方分割是否支持细粒度的排行榜排名。开发侧交叉验证和官方测试排名仅中等程度一致:最佳交叉验证配置在官方测试中排名第20,官方测试赢家在交叉验证中排名第41,前3名重叠为零,且明显赢家仅在32.3%的受试者自举中排名第一。第三,我们外部验证了在领域内达到接近天花板性能的强公共CMDC和ANDROIDS基线。对外部语料的零样本迁移明显较弱。最后,我们使用由SRDS标注器定义的配对症状密集与症状稀疏访谈片段,对E-DAIC文本和音频模型进行压力测试。文本得分在症状密集片段上急剧上升,而音频得分几乎持平;在所有五个种子中,文本减音频的差距均为正。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:00

# 临床访谈抑郁症检测基准的多探针审计
来源:https://arxiv.org/abs/2605.23977
查看 PDF (https://arxiv.org/pdf/2605.23977)

> **摘要:**本文通过四个互补探针对 DAIC/E-DAIC、CMDC、ANDROIDS、MODMA 和 PDCH 的临床访谈抑郁症检测基准评估进行审计。首先,我们在严格的受试者分离的留一受试者交叉验证下重新评估 E-DAIC。一个轻量级混合文本加 LLM 分数模型达到了 macro-F1 = 0.723——据我们所知,这是该协议下报告的最高结果——提供了一个保守的折外参考点,不依赖于特权官方保留集。其次,我们通过横跨模态捆绑、池化策略和学习器的 96 种模型配置,测试 E-DAIC 官方划分是否支持细粒度排行榜排名。开发侧交叉验证和官方测试排名仅中等一致:最佳交叉验证配置在官方测试中排名第 20,官方测试获胜者按交叉验证排名第 41,前三重叠为零,且明显获胜者在受试者自助抽样中仅有 32.3% 的概率排名第一。第三,我们外部验证了在领域内达到接近天花板性能的强公共 CMDC 和 ANDROIDS 基线。向外部语料库的零样本迁移则明显较弱。最后,我们使用基于 SRDS 的标注器定义的症状密集与症状稀疏访谈片段对,对 E-DAIC 文本和音频模型进行压力测试。文本分数在症状密集片段上显著上升,而音频分数几乎持平;文本减音频差距在所有五个种子中均为正。

## 提交历史

来自:Takehiro Ishikawa \[查看邮件 (https://arxiv.org/show-email/0f13edff/2605.23977)\] **\[v1\]** 2026年5月13日星期三 17:32:41 UTC (347 KB)

相似文章

心理健康对话中的专家级危机检测

arXiv cs.CL

介绍了CRADLE-Dialogue,一个由临床医生标注的基准数据集,用于心理健康对话中的对话轮次级危机检测,同时包含Alert–Confirm评估协议、合成训练语料库以及一个32B参数模型,该模型在性能上优于现有的开放源代码和专有模型。

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。

ASD-Bench:用于自闭症谱系障碍的 AI 模型四维综合基准测试

arXiv cs.LG

本文介绍了 ASD-Bench,这是一个全面的基准测试,从预测性能、校准度、可解释性和鲁棒性四个维度评估用于自闭症谱系障碍(ASD)筛查的 AI 模型。该研究使用 AQ-10 数据分析了不同年龄组的多种模型,强调了在临床 AI 应用中采用多指标评估的重要性。