daic

#daic

临床访谈抑郁检测基准的多探针审计

arXiv cs.CL ↗ · 2026-05-26 缓存

本文通过四个互补探针对五个数据集（DAIC/E-DAIC、CMDC、ANDROIDS、MODMA和PDCH）中的临床访谈抑郁检测基准评估进行审计，发现标准评估协议可能高估模型性能，且排行榜排名缺乏稳定性。

0 人收藏 0 人点赞