标签
本文通过四个互补探针对五个数据集(DAIC/E-DAIC、CMDC、ANDROIDS、MODMA和PDCH)中的临床访谈抑郁检测基准评估进行审计,发现标准评估协议可能高估模型性能,且排行榜排名缺乏稳定性。