clinical-qa

标签

Cards List
#clinical-qa

当病例罕见时:面向非指南临床问答的检索基准

arXiv cs.CL · 2026-05-22 缓存

介绍 OGCaReBench,这是一个自由形式的检索基准,用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明,即使是最好的模型也仅能达到 56% 的准确率,但检索增强将性能提升至 82%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈