benchmark-audit

标签

Cards List
#benchmark-audit

临床访谈抑郁检测基准的多探针审计

arXiv cs.CL · 2026-05-26 缓存

本文通过四个互补探针对五个数据集(DAIC/E-DAIC、CMDC、ANDROIDS、MODMA和PDCH)中的临床访谈抑郁检测基准评估进行审计,发现标准评估协议可能高估模型性能,且排行榜排名缺乏稳定性。

0 人收藏 0 人点赞
#benchmark-audit

Physics-R1: 经过审计的奥赛语料库与视觉物理推理配方

arXiv cs.CL · 2026-05-15 缓存

本文对多模态物理评估流程进行了审计,揭示了诸如训练-评估污染、翻译漂移和多项选择题(MCQ)饱和等问题。它发布了新数据集(PhysCorp-A、PhysR1Corp、PhysOlym-A)和一个训练配方(Physics-R1),显著提高了在保留的奥赛问题上的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈