标签
本文报告了一项针对临床AI工具的盲评,采用医生在临床即时提出的真实查询,比较了专用模型与通用模型在五个维度上的表现。专用工具(OpenEvidence)在所有维度上均优于通用模型,作者同时发布了Real-POCQi基准测试集。