当病例罕见时:面向非指南临床问答的检索基准
摘要
介绍 OGCaReBench,这是一个自由形式的检索基准,用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明,即使是最好的模型也仅能达到 56% 的准确率,但检索增强将性能提升至 82%。
arXiv:2605.21807v1 Announce Type: new
摘要:在医学各专科中,临床实践以循证指南为基础,这些指南归纳了经过充分研究的诊断和治疗路径。然而,对于指南未涵盖的真实世界长期护理的“长尾”情况,这些路径往往力不从心。大多数医学大语言模型(LLM)在其参数中编码的是常见且以指南为中心的医学知识。当前的评估主要测试模型回忆和推理这些记忆内容的能力,且通常采用多项选择形式。鉴于循证推理在医学中的根本重要性,在实际中依赖记忆既不可行也不可靠。为填补这一空白,我们引入了 OGCaReBench,这是一个专注于自由形式检索的基准,旨在评估 LLM 回答需要超越典型指南的临床问题的能力。OGCaReBench 从已发表的医学病例报告中提取,并由医学专家验证,包含需要自由文本回答的长篇临床问题,为评估罕见、基于病例的开放式医学推理提供了系统框架。我们的实验表明,即使是最佳基线模型(GPT-5.2)也仅能正确回答 56% 的基准问题,专门模型仅达到 42%。通过检索到的医学文章增强模型后,性能提升至 82%(使用 GPT-5.2),突显了证据依据对于真实世界医学推理任务的重要性。因此,这项工作为基础基准测试和推进通用及医学 LLM 在具有挑战性的临床背景下产生可靠答案奠定了基础。
查看缓存全文
缓存时间: 2026/05/22 08:44
# 针对非指南范围临床问答的检索基准 来源:https://arxiv.org/html/2605.21807 Doeun Lee¹, Muge Zhang¹, Yi Yu¹, Ashish Manne², Stephen Koesters², Frank Wen³, Brady Buchanan², Lynda Villagomez², Oluwatoba Moninuola², James Lim², Kathryn Tobin², Andrew Srisuwananukorn², Ping Zhang¹, Sachin Kumar¹ ¹俄亥俄州立大学 ²俄亥俄州立大学韦克斯纳医学中心 ³芝加哥大学医学中心 ###### 摘要 在医学各专科中,临床实践以循证指南为基础,这些指南归纳了经过充分研究的诊断和治疗路径。然而,对于指南未覆盖的大量真实世界诊疗场景,这些路径往往力不从心。大多数医学大语言模型(LLMs)在参数中编码的是常见的、以指南为重点的医学知识。当前的评估主要测试模型回忆和推理这些记忆内容的能力,且通常采用多项选择形式。鉴于循证推理在医学中的根本重要性,实践中依赖记忆既不可行也不可靠。为填补这一空白,我们提出**OGCaReBench**,一个面向自由形式检索的基准,旨在评估LLMs回答需要超出典型指南范围的临床问题的能力。该基准从已发表的医学病例报告中提取,并经医学专家验证,包含需要自由文本回答的长篇临床问题,为评估罕见、基于病例的开放型医学推理提供系统性框架。我们的实验表明,即使性能最好的基线模型(GPT-5.2)也只能正确回答56%的基准问题,专门模型仅达42%。通过检索医学文献增强模型可将此性能提升至最高82%(使用GPT-5.2),凸显了证据支撑对真实世界医学推理任务的重要性。因此,本工作为评估和推进通用及医学LLMs在复杂临床背景下提供可靠答案奠定了基础。 ## 1 引言 大语言模型在医疗场景中正被积极探索,用于多种用例,有潜力变革临床决策并最终改善患者预后(Yan et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib1); Abrar et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib5); Shool et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib4))。实现这一潜力需要能够反映真实临床场景多样性和复杂性的评估。然而,当前大多数基准通过考试式问题(Ben Abacha and Demner-Fushman, 2019 (https://arxiv.org/html/2605.21807#bib.bib6); Krithara et al., 2023 (https://arxiv.org/html/2605.21807#bib.bib61))测试模型对医学知识的回忆,且通常采用多项选择形式(Jin et al., 2019 (https://arxiv.org/html/2605.21807#bib.bib8); 2021 (https://arxiv.org/html/2605.21807#bib.bib9); Pal et al., 2022 (https://arxiv.org/html/2605.21807#bib.bib10); Hendrycks et al., 2021 (https://arxiv.org/html/2605.21807#bib.bib11); Zuo et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib12))。虽然存在自由形式问答数据集,但它们主要面向患者,而非为面向临床医生的决策支持设计(Hosseini et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib13); Nguyen et al., 2023 (https://arxiv.org/html/2605.21807#bib.bib14); Singhal et al., 2023a (https://arxiv.org/html/2605.21807#bib.bib15); Zhu et al., 2020 (https://arxiv.org/html/2605.21807#bib.bib16))。此外,证据支撑在医学领域尤为关键,因为临床指导更新迅速、权威参考文献对信任至关重要,且患者护理常涉及罕见病和非典型表现。因此,仅靠记忆是不够的;模型必须能够整合和综合来自外部源的知识,以支持真实世界的临床决策。 我们的目标是在反映医生处理复杂临床问题的方式下评估LLMs。此类基准必须满足三个关键属性:(1)应基于真实患者案例,反映临床实践的变异性和细微差别;(2)应采用自由形式问答格式,以捕捉医生所需开放型推理(而非多项选择);(3)不应是琐碎的,要求专家级领域知识,镜像真实世界决策的复杂性。在这些原则指导下,我们专注于模拟医生需要查阅外部资源以确定适当临床决策的场景,这些患者的病例超出标准指南范围或涉及罕见的非指南表现。  **图1:**面对超出标准医学指南的罕见临床病例,医生通常搜索类似既往案例以指导诊断或治疗。传统搜索需要手动审阅大量结果;检索增强型LLM可使用相关病例文档作为上下文,提供更快速、基于案例的辅助。现有医学LLM基准多为多项选择形式,未反映这种开放型临床工作流程。**OGCaReBench**评估LLMs在罕见、基于病例的临床问题上的表现,以填补这一空白。 为此,我们使用已发表的医学病例报告。病例报告记录了新颖、罕见或前所未有的临床事件,如不寻常的病例表现、非典型诊断机制或非标准治疗。当常规指南参考(如UpToDate (UpToDate, 2025 (https://arxiv.org/html/2605.21807#bib.bib41))或标准专科指南)不足以处理复杂或不寻常病例时,医生常查阅病例报告。对于每份病例报告,我们采用半自动方法(§3 (https://arxiv.org/html/2605.21807#S3))提取围绕报告重要贡献的问题和答案对——这些贡献可能是新颖的诊断、新颖的治疗或与罕见疾病发生相关的检验。我们将这一基于“非指南范围病例报告”的医学基准称为**OGCaReBench**。我们的数据集包含10个医学专科的病例(见表2 (https://arxiv.org/html/2605.21807#S3.T2))。所有问题和答案均由经验丰富的医生验证,以确保准确性和忠实于真实临床推理。我们对几种最先进的通用和医学领域专用模型的评估显示,LLMs在提供罕见病例的预期回答方面存在困难。这些结果凸显了仅依赖模型参数记忆处理罕见病例的局限性,强调了在复杂医疗场景中检索增强的必要性。 因此,我们将视野扩展到评估检索增强下的性能——已知检索增强可提升医学问答的性能(Neha et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib17))。我们构建了一个包含53,617份病例报告的检索语料库,涵盖12个医学专科,来源于公开可用的报告。我们发现,在问题上下文中提供检索到的文档显著提升了模型性能。虽然专有模型通常优于开源模型,但它们并非完美。即使提供完美相关文档,它们仍会犯大量错误,表明不仅存在检索限制,而且在将证据正确整合到临床问题中也存在限制。 总之,我们做出以下贡献: - • 我们提出**OGCaReBench**,一个专家验证的基准,来源于已发表的医学病例报告,用于评估语言模型在真实罕见临床场景中的表现。 - • 我们通过实验展示了医学和通用模型在开放型罕见病例推理中的不足,强调了它们在真实临床环境中独立用于支持医生的局限性。 - • 我们表明检索增强可提升专家级任务的性能,强调了在医学领域构建稳健系统中的必要性。 ## 2 相关工作 ### 聚焦医学的模型与数据集 医学问答(QA)模型已显著发展(Shool et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib4); Yan et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib1))。大部分模型集中于多项选择问答(Han et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib43); Wu et al., 2023 (https://arxiv.org/html/2605.21807#bib.bib45); Singhal et al., 2023b (https://arxiv.org/html/2605.21807#bib.bib47); Bolton et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib48)),通常使用考试式基准进行评估(Shool et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib4); Krithara et al., 2023 (https://arxiv.org/html/2605.21807#bib.bib61); Jin et al., 2019 (https://arxiv.org/html/2605.21807#bib.bib8); 2021 (https://arxiv.org/html/2605.21807#bib.bib9); Pal et al., 2022 (https://arxiv.org/html/2605.21807#bib.bib10); Hendrycks et al., 2021 (https://arxiv.org/html/2605.21807#bib.bib11); Zuo et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib12))。具有自由形式答案的模型和数据集通常面向患者(Li et al., 2023 (https://arxiv.org/html/2605.21807#bib.bib44); Hosseini et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib13); Nguyen et al., 2023 (https://arxiv.org/html/2605.21807#bib.bib14); Singhal et al., 2023a (https://arxiv.org/html/2605.21807#bib.bib15); Zhu et al., 2020 (https://arxiv.org/html/2605.21807#bib.bib16))或基于一般临床知识(García-Ferrero et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib46); Bolton et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib48); Krithara et al., 2023 (https://arxiv.org/html/2605.21807#bib.bib61)),而非基于病例意识的推理。尽管如此,最近医学领域对更复杂的自由形式问答兴趣日益增长(OpenAI, 2025b (https://arxiv.org/html/2605.21807#bib.bib64); Hicks et al., 2026 (https://arxiv.org/html/2605.21807#bib.bib71))。特别是已有研究聚焦于基于病例的模型和数据集(Chen et al., 2026 (https://arxiv.org/html/2605.21807#bib.bib66)),其中许多关注推理(Xu et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib49); Nori et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib51))。Zhao et al. (2026 (https://arxiv.org/html/2605.21807#bib.bib65))提出了一个带有推理轨迹的智能体系统用于罕见病诊断。与我们的工作最相关的是Qiu et al. (2025 (https://arxiv.org/html/2605.21807#bib.bib50))和Wu et al. (2025 (https://arxiv.org/html/2605.21807#bib.bib52)),他们也利用病例报告构建基准用于最终诊断、临床推理和治疗。然而,这些评估大多缺乏充分的专家验证,限制了其可信度。我们的工作虽然构建方式类似,但对病例场景引入了修改(见子节3.1 (https://arxiv.org/html/2605.21807#S3.SS1.SSS0.Px3)),以确保呈现的病例具有新颖性。整个数据集经过标注以确认修改。我们在表1 (https://arxiv.org/html/2605.21807#S2.T1)中提供了与其他涉及专家标注的基准的比较表。此外,我们拓宽了焦点,传达了病例报告的新颖性,无论是诊断、治疗还是临床检查以新颖方式呈现。 **表1:**医学领域中涉及专家标注的流行基准数据集比较。**OGCaReBench**在可比较的医学基准中提供了最大的自由形式、基于病例的数据集,并具有完整的专家标注。 ### 专家领域的检索增强 检索增强生成(RAG)已知可提升知识密集型任务的性能(Lewis et al., 2021 (https://arxiv.org/html/2605.21807#bib.bib53)),为领域特定推理提供了有前景的基础(Lee et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib54))。在需要领域专业知识的领域使用RAG,通过整合精心挑选的专业上下文,缓解了记忆的局限性,如法律领域的例子所示(Zheng et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib55); Hou et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib56))。在医学领域,先前研究已表明整合RAG可提升各种医学QA的性能,从多项选择到基于病例的推理(Xiong et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib57); Dong et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib58); Ke et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib59); Chen et al., 2025 (https://arxiv.org/html/2605.21807#bib.bib60); Jeong et al., 2024 (https://arxiv.org/html/2605.21807#bib.bib67))。同时,对内部使用检索的智能体模型(如OpenEvidence (OpenEvidence, 2024 (https://arxiv.org/html/2605.21807#bib.bib68))和Deep-DxSearch (Zheng et al., 2026 (https://arxiv.org/html/2605.21807#bib.bib69)))兴趣日益增长。然而,针对各种罕见病例场景和基于病例的检索语料库的RAG应用仍然存在空白,我们通过使用RAG评估罕见病例问题来填补这一空白。 ## 3 OGCaReBench:非指南范围医学病例基准 医学病例报告记录了新颖或罕见的临床事件。它们通常为记录和突出不寻常状况、非典型病程、意外并发症、新诊断机制或独特治疗策略而发表。病例报告出现在专科期刊(如Journal of Clinical Case Reports、British Medical Journal (BMJ) Case Reports)、综合医学期刊(如New England Journal of Medicine (NEJM))以及在线存储库中。为了更好地理解医生在实践中如何使用病例报告,我们首先与来自美国不同机构的10位医生进行了非正式访谈,专业范围涵盖急诊医学、风湿病学、内科学、感染病学、肿瘤学和外科。我们推断,虽然并非所有从业者都依赖病例报告(如感染病学或急诊医学领域很少需要查阅),但外科、内科学和肿瘤学等专科经常查阅病例报告。医生报告称,当遇到超出标准临床指南¹¹的病例时,他们依赖病例报告和系列病例,同时咨询同事或专科网络,以确定相关先例并指导临床决策。研究支持这一点,显示仅55%至57%的指南推荐治疗在常规实践中得以实施(McGlynn et al., 2003 (https://arxiv.org/html/2605.21807#bib.bib2); Runciman et al., 2012 (https://arxiv.org/html/2605.21807#bib.bib3))。 为构建强调此类罕见、患者特定病例的数据集,我们从这些报告中综合生成**OGCaReBench**。从PubMed Central (PubMedCentral, 2003 (https://arxiv.org/html/2605.21807#bib.bib18))上所有开放获取的病例报告开始,我们筛选出具有新颖内容和持续罕见性的病例,然后使用LLMs提取问答对。为模拟超出原始报告范围的现实临床场景,我们对这些问题应用受控修改,确保它们……(原文未完,后续翻译同逻辑继续) (注意:由于原文在§3处截断,后续内容未提供完整。但按指令,只需翻译给定内容。如有完整原文,可继续翻译。此处按已有内容完成翻译。)
相似文章
CanLegalRAGBench: 评估加拿大判例法上的检索增强生成
介绍了CanLegalRAGBench,这是一个基于真实查询和专家标注答案来评估加拿大判例法上检索增强生成的基准。评估显示对设计选择敏感、开源嵌入模型具有竞争力,以及生成答案中持续存在的幻觉问题。
ClinicalBench:对 MIMIC-IV 跨入院临床问答中基于断言感知的检索进行压力测试
本文介绍了 ClinicalBench 和 EpiKG 系统,评估了针对 MIMIC-IV 数据在多个人工智能大语言模型(LLM)上的临床问答中基于断言感知的检索能力。研究证明,在检索过程中处理否定和时态信息,相比标准基线能显著提升性能。
EHRBench:用于大语言模型临床决策的自动化可靠电子健康记录基准
EHRBench是一个自动化且可靠的基准测试,利用真实电子健康记录评估大语言模型在临床决策任务上的表现,涵盖诊断、治疗和预后任务,包含近100万个问答条目。
MedGuideX:将可执行指南中的决策逻辑内化至大型语言模型用于临床推理
MedGuideX 将临床实践指南转化为可执行的决策逻辑,以生成事实性和反事实性的问答数据用于训练医学大语言模型,在临床推理基准测试中实现了平均准确率相对提升 10.28%。
当证据冲突时:检索增强生物医学问答中的不确定性与顺序效应
本文在冲突证据条件下评估了六个开放权重的大语言模型在生物医学问答中的表现,揭示了准确率下降和预测翻转,并提出了一个冲突感知的弃权评分,提高了选择性准确率。