clinical-qa

#clinical-qa

当病例罕见时：面向非指南临床问答的检索基准

arXiv cs.CL ↗ · 2026-05-22 缓存

介绍 OGCaReBench，这是一个自由形式的检索基准，用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明，即使是最好的模型也仅能达到 56% 的准确率，但检索增强将性能提升至 82%。

0 人收藏 0 人点赞