临床访谈抑郁检测基准的多探针审计

arXiv cs.CL 2026/05/26 04:00 论文

depression-detection clinical-interviews benchmark-audit multi-probe evaluation daic cmdc

摘要

本文通过四个互补探针对五个数据集（DAIC/E-DAIC、CMDC、ANDROIDS、MODMA和PDCH）中的临床访谈抑郁检测基准评估进行审计，发现标准评估协议可能高估模型性能，且排行榜排名缺乏稳定性。

arXiv:2605.23977v1 公告类型: 新摘要: 本文通过四个互补探针对DAIC/E-DAIC、CMDC、ANDROIDS、MODMA和PDCH五个数据集中的临床访谈抑郁检测基准评估进行审计。首先，我们在严格的受试者不重叠的留一受试者交叉验证下重新评估E-DAIC。一个轻量级的文本加LLM分数混合模型达到macro-F1=0.723——据我们所知，这是该协议下报告的最高值——提供了一个保守的折叠外参考点，且不依赖于特权的官方保留集。其次，我们通过扫描跨模态组合、池化策略和学习器的96种模型配置，测试E-DAIC官方分割是否支持细粒度的排行榜排名。开发侧交叉验证和官方测试排名仅中等程度一致：最佳交叉验证配置在官方测试中排名第20，官方测试赢家在交叉验证中排名第41，前3名重叠为零，且明显赢家仅在32.3%的受试者自举中排名第一。第三，我们外部验证了在领域内达到接近天花板性能的强公共CMDC和ANDROIDS基线。对外部语料的零样本迁移明显较弱。最后，我们使用由SRDS标注器定义的配对症状密集与症状稀疏访谈片段，对E-DAIC文本和音频模型进行压力测试。文本得分在症状密集片段上急剧上升，而音频得分几乎持平；在所有五个种子中，文本减音频的差距均为正。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:00

# 临床访谈抑郁症检测基准的多探针审计
来源：https://arxiv.org/abs/2605.23977
查看 PDF (https://arxiv.org/pdf/2605.23977)

> **摘要：**本文通过四个互补探针对 DAIC/E-DAIC、CMDC、ANDROIDS、MODMA 和 PDCH 的临床访谈抑郁症检测基准评估进行审计。首先，我们在严格的受试者分离的留一受试者交叉验证下重新评估 E-DAIC。一个轻量级混合文本加 LLM 分数模型达到了 macro-F1 = 0.723——据我们所知，这是该协议下报告的最高结果——提供了一个保守的折外参考点，不依赖于特权官方保留集。其次，我们通过横跨模态捆绑、池化策略和学习器的 96 种模型配置，测试 E-DAIC 官方划分是否支持细粒度排行榜排名。开发侧交叉验证和官方测试排名仅中等一致：最佳交叉验证配置在官方测试中排名第 20，官方测试获胜者按交叉验证排名第 41，前三重叠为零，且明显获胜者在受试者自助抽样中仅有 32.3% 的概率排名第一。第三，我们外部验证了在领域内达到接近天花板性能的强公共 CMDC 和 ANDROIDS 基线。向外部语料库的零样本迁移则明显较弱。最后，我们使用基于 SRDS 的标注器定义的症状密集与症状稀疏访谈片段对，对 E-DAIC 文本和音频模型进行压力测试。文本分数在症状密集片段上显著上升，而音频分数几乎持平；文本减音频差距在所有五个种子中均为正。

## 提交历史

来自：Takehiro Ishikawa \[查看邮件 (https://arxiv.org/show-email/0f13edff/2605.23977)\] **\[v1\]** 2026年5月13日星期三 17:32:41 UTC (347 KB)

临床访谈抑郁检测基准的多探针审计

相似文章

MedBench v5：面向临床多模态模型的动态、过程导向且具有幻觉感知能力的基准测试

LingxiDiagBench：一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架

基于AI心理健康对话的被动抑郁严重程度评估的LLMs微调

ClinicalBench：对 MIMIC-IV 跨入院临床问答中基于断言感知的检索进行压力测试

当症状不足以诊断：大型语言模型在精神科筛查中的证据加权模式

提交意见反馈