可能还是确定?评估临床文本中诊断不确定性保持能力的基准
摘要
本文介绍了一个包含1,200份临床文档和9,184条不确定性标注的基准,用于评估LLMs是否能在临床文本中保持诊断不确定性,结果发现LLMs常常无法保留原始不确定性线索,且在细微区别上表现不佳。
arXiv:2606.18471v1 Announce Type: new
摘要:大语言模型(LLMs)越来越多地被用于临床文本任务,如总结和修订。虽然大多数研究评估LLMs生成文本的流畅性和连贯性,但LLMs能否正确保持诊断不确定性仍未被充分探索。在临床实践中,诸如“可能肺炎”之类的短语传达了现有证据的强度,并直接指导关于后续检测和治疗决策。改变这些不确定性表达可能会完全改变临床含义。在本文中,我们通过两个步骤系统评估了这个问题。首先,我们构建了一个包含1,200份临床文档和9,184条不确定性标注的基准,涵盖五个等级。其次,我们在此基准上评估了三个LLMs。我们的结果表明:(1)LLMs对原始不确定性线索的保持能力较差,通常不到一半;(2)LLMs难以区分相邻等级之间的细微差别。这项工作揭示了标准评估指标无法捕获的一种失效模式,并为LLMs在临床工作流中的安全部署提供了启示。
查看缓存全文
缓存时间: 2026/06/18 05:45
# 可能还是确定?评估临床文本中诊断不确定性保留的基准 来源:https://arxiv.org/html/2606.18471 \\theorembodyfont\\theoremheaderfont\\theorempostheader :\\theoremsep \\NameZixin Lu\\nametag11footnotemark:1\\Emaillzixin@umich\.edu \\addr密歇根大学\\NameJiaming Qu\\nametag\\Emailqjiaming@amazon\.com \\addr亚马逊通讯作者。本研究以个人身份独立进行,不代表作者在亚马逊的立场。 ###### 摘要 大型语言模型(LLMs)越来越多地用于临床文本任务,如摘要和改写。虽然大多数研究评估LLM生成文本的流畅性和连贯性,但LLMs是否正确*保留诊断不确定性*仍未得到充分探索。在临床实践中,诸如“可能肺炎”之类的短语传达了现有证据的强度,并直接指导后续检测和治疗决策。改变这些不确定性表达可能会完全改变临床含义。本文系统地从两个步骤评估了这个问题。首先,我们构建了一个包含1,200份临床文档、共9,184个不确定性标注(覆盖五个级别)的基准测试。其次,我们在此基准上评估了三个LLM。我们的结果表明:(1)LLMs保留原始不确定性线索的能力较差,通常不到一半的情况能保留;(2)LLMs难以区分相邻级别之间的细微差别。这项工作揭示了一个标准评估指标无法捕获的故障模式,并为LLMs在临床工作流中的安全部署提供了启示。 ## 1 引言 大型语言模型(LLMs)已广泛应用于生物医学自然语言处理(NLP)任务,如临床摘要、报告生成和问答(tian2024opportunities)。研究表明,在专门语料库上微调的LLMs可以在复杂临床任务上达到人类水平的表现(vanveen2024)。为了系统评估LLMs在这些任务上的表现,先前的工作引入了多种基准。例如,ProbSum针对问题列表摘要(gao2023),而(xu2024)提出了一项医疗出院记录生成的共享任务。然而,现有的评估指标范围仍然有限,许多评估并未直接衡量真实的临床影响(bednarczyk2025)。 尽管取得了这些进展,但LLMs是否正确解释和保留临床文本中的诊断不确定性仍未得到充分探索。在临床实践中,诸如“*可能*肺炎”和“*不能排除*肺栓塞”之类的短语不仅仅是谨慎的措辞。它们传达了现有证据的强度,表明了正在考虑的替代诊断,并提示是否需要进一步检测。这些表达直接影响临床决策:“可能”的诊断可能需要额外影像学检查,而肯定的断言可能导致立即治疗。先前的工作表明,不确定性是临床推理的核心和多维组成部分,临床医生在日常实践中使用广泛的不确定性表达(han2011;mcgowan2025;panicekhricak2016)。然而,LLMs可以生成流畅且连贯的文本,同时改变不确定性程度——例如,将“*可能*肺炎”改写为“肺炎”。如果这种变化在临床环境中传播,就有扭曲原始临床含义的风险。这个问题在先前的工作中很少受到关注。 在这项工作中,我们研究以下问题:LLMs能否在临床NLP任务中正确保留诊断不确定性?先前关于LLMs不确定性的研究主要遵循两个方向。第一个研究不确定性量化,使用logits、熵或相关信号来检测不可靠的输出或幻觉(farquhar2024)。第二个研究LLM生成文本*内部*表达的不确定性,评估模型是否恰当地表达了不确定性(kolagarzarcone2024;yang2025)。我们的工作遵循第二个方向。我们并不衡量模型在生成过程中的内部置信度。相反,我们评估LLMs是否在特定任务中保留了临床源文本中已经存在的不确定性。 为了解决这个问题,我们构建了一个用于临床文本诊断不确定性的基准。我们的基准基于两个广泛使用的数据集:MIMIC-IV-Note(johnson2023),包含出院小结和放射学报告;以及TCGA-Reports(kefeli2024tcga),一个病理报告集合。我们定义了五个不确定性级别,范围从确定不存在到非断言。为了支持细粒度分析,我们使用命题级标注,而不是为每个文档分配一个不确定性标签。每个文档被表示为一组提示-目标对,其中每对包括一个目标概念(例如,“肺炎”)及其相关的不确定性提示(例如,“可能”)。总的来说,我们的基准包含1,200份文档,涵盖六种临床文本类型和9,184个标注的提示-目标对,跨越五个不确定性级别。我们在此基准上评估了三个LLM,采用两种互补的评估方法:间接评估衡量LLMs在文本转换任务中是否保留不确定性;直接评估测试LLM在被明确提示时是否能分类和排序不确定性提示。 总之,本文系统地评估了LLMs如何在临床NLP任务中处理诊断不确定性。我们的贡献如下。首先,我们构建了一个涵盖多种文档类型和不确定性级别的基准,可用于未来的工作。其次,我们提供了跨任务和提示条件下三个LLM的经验评估。我们的结果表明,LLMs经常扭曲不确定性:在没有适当提示的情况下,它们保留原始不确定性级别的时间不到一半,大约五分之二的提示-目标对被改写为确定断言。此外,LLMs对单个不确定性级别的分类准确率中等,但在相邻级别之间的细粒度区分上存在困难。这些发现共同揭示了基于LLM的临床文本处理中的一个系统性故障模式,并强调了在临床工作流中负责任地使用LLMs的迫切需求。 ### 关于医疗背景下机器学习的通用洞察 - •临床含义不仅取决于提及*哪种*情况,还取决于*多确定*地表达它。我们的结果表明,LLMs可以生成流畅、事实准确的输出,但仍然通过改变不确定性来扭曲含义,这表明不确定性保留应作为一个单独的维度进行评估。 - •在我们命题级基准上的评估结果表明,主要的故障模式不是随机噪声,而是向确定性断言系统性偏置——这种模式在文档级评估中是不可见的。 - •即使在提示中明确指示保留不确定性,也不足以完全防止扭曲,这表明在临床文本处理任务中安全、负责任地使用LLMs可能需要更复杂的干预措施。 ## 2 相关工作 ### 2.1 自然语言中的不确定性 从语言学角度来看,不确定性通过多种形式表达,而非单一的提示词。这些包括模糊限制词、情态动词、鉴别诊断、不完整的证据陈述以及后续检测建议(Kilicoglu2008SpeculativeLanguage)。这些表达在生物医学环境中尤为重要,它们传达证据的局限性、可能的替代方案以及患者护理中计划的下一步。先前的工作表明,医疗保健中的不确定性是多维的而非偶然的,涵盖广泛的语言形式和临床功能(han2011)。临床NLP研究已经开发了用于检测相关现象(如否定、模糊确认和断言状态)的资源(uzuner2011;vincze2008;peng2018)。然而,这些数据集在不确定性级别数量、临床文本类型和整体规模方面都有限。我们通过构建一个具有更广泛不确定性级别覆盖、文档类型和数据集规模的基准来扩展这一研究方向。 ### 2.2 评估LLMs对不确定性的意识 先前关于LLMs不确定性研究的工作可分为两个主要方向。第一个方向研究LLMs的内部不确定性,包括基于logits、熵、校准及相关信号的方法,这些方法估计错误或幻觉的可能性(farquhar2024;kadavath2022language;kapoor2024calibration)。这个研究方向根据内部状态评估LLMs生成响应的可靠性。第二个方向研究LLM生成语言中表达的不确定性,检查输出中不确定性是否被恰当表达。例子包括摘要和长文本生成中的不确定性转移(kolagarzarcone2024;yang2025;yang2025uncle),以及考虑不确定性的诊断和解释(zhou2025uncertainty)。我们的工作遵循第二个方向。具体来说,我们关注特定患者的临床笔记,并评估诊断不确定性是否从源文本保留到输出。 ### 2.3 临床LLMs中的基准 先前的研究整理了各种基准,用于评估LLMs在不同任务上的表现,包括临床笔记摘要、报告生成和问答(gao2023drbench;vanveen2024;xu2024;kweon2024ehrnoteqa;liu2024clinicbench)。这些基准主要侧重于评估LLM生成文本的流畅性和连贯性,以及LLMs是否能生成准确的响应。然而,一个看似合理且连贯的输出并不能保证临床上有意义的评估(bednarczyk2025;bedi2025testing;gong2025knowledgegap)。为了解决这一差距,我们构建了一个基准来评估LLMs对诊断不确定性的理解。受先前工作的启发,我们的基准构建结合了两种方法:(1)从现有临床文档集合中获取监督信号(gao2023);(2)将自动数据提取与人工审查相结合(kweon2024ehrnoteqa;grazhdanski2025synthmedic)。 ## 3 方法 参见图注图 1:研究流程概览。本研究的主要目标是评估LLMs是否能正确解释临床文本中的不确定性线索。我们不评估LLMs在传统指标(如生成质量、连贯性或事实准确性)上的表现。相反,我们研究两个互补的研究问题(RQs): - •RQ1(间接评估):在摘要和患者友好改写等下游任务中,LLMs在转换临床文本时是否保留诊断不确定性? - •RQ2(直接评估):当明确要求LLMs解释不确定性线索时,它们能否正确识别和排序? 为了研究这些RQs,我们采取了两个步骤(图1 (https://arxiv.org/html/2606.18471#S3.F1))。首先,由于没有现成的合适数据集,我们构建了一个包含1,200份临床文档(涵盖六种临床文本类型)的基准。我们定义了五个不确定性级别,范围从确定不存在到非断言。其次,我们在此基准上评估了三个LLM。下文描述了基准构建(第3.1节 (https://arxiv.org/html/2606.18471#S3.SS1))和评估方法(第3.2节 (https://arxiv.org/html/2606.18471#S3.SS2))。 ### 3.1 基准构建 数据预处理。我们从两个在生物医学NLP研究中广泛使用的数据集构建基准:(1)MIMIC-IV-Note(johnson2023),包含260万份临床笔记;(2)TCGA-Reports(kefeli2024tcga),一个包含9,523份病理报告的数据集。对于MIMIC-IV-Note,我们关注两种文档类型:出院小结和放射学报告,因为它们篇幅较长,为研究不确定性提供了丰富的素材。每个MIMIC笔记按章节组织,我们选择了临床最相关的章节:出院小结中的评估、简要住院病程和出院诊断;放射学报告中的印象和发现。每个章节被提取为一个独立的文档。对于TCGA病理报告,由于没有结构化章节,我们使用了完整文档。总的来说,我们的初始文档库包含六种文档类型,所有这些类型都是解释性临床文本,临床医生在其中记录关于患者的结论、排除、意外情况和未解决问题。 定义不确定性线索。构建基准的一个关键步骤是从每个文档中提取不确定性线索-目标对。我们定义不确定性线索为表达作者对临床命题承诺程度的文本跨度(一个词或短语)。目标是受该线索修饰的临床命题。例如,在句子“由于造影时机不佳,评估有限;未见大的中心充盈缺损,但无法排除肺栓塞”中,“无法排除”是不确定性线索,“肺栓塞”是目标。 借鉴先前关于生物医学文本中临床不确定性、否定和断言状态的工作(han2011;Bhise2018;mcgowan2025;vincze2008;uzuner2011;peng2018;limalopez2020;thompson2011;Callen2020),我们定义了一个五级不确定性模式。五个级别从确定不存在到非断言提及: - •确定不存在:临床命题对于患者不存在,用清晰、自信的语言表达,对其缺席毫无疑义。 - •可能存在:临床命题存在的可能性大于不存在,但语言表明作者并非完全确定。 - •可能存在:临床命题可能存在,但语言表明这只是合理的可能性之一,而非自信的结论。 - •不确定或未解决:临床命题尚无法确定,因为可用信息不完整、混合或不清楚。 - •非断言评估目标:临床命题被提及为需要检查、测试、监测或排除的内容。文本并未说明其存在或不存在;它只是评估的目标。 我们从上述研究中确定的不确定性线索清单开始,为每个级别确定了大约五个常见线索。为了增加覆盖范围,我们采取了两种方法。首先,每位作者独立审查了一小部分MIMIC笔记,并对表达不确定性的句子进行了定性编码。然后所有作者会面两次,讨论并选择最频繁的线索。其次,我们邀请了一位语言学家和一位临床医生参加讨论小组,所有作者都参与了最终完善。这一步骤有助于捕捉临床笔记特有的惯例,例如使用问号作为非断言信息的常见符号。表1 (https://arxiv.org/html/2606.18471#S3.T1)总结了每个级别的定义和代表性线索。UL3(*可能存在*)具有最多的独特线索(N=30N=30),而UL1(*确定不存在*)最少(N=9N=9)。每个级别的完整线索列表见附录A (https://arxiv.org/html/2606.18471#A1)。 表1:我们定义了五个不确定性级别(ULs),其中UL5表示不确定性最大,UL1表示不确定性最小。我们为每个级别开发了一组线索词。NN表示每个级别独特线索的数量。线索-目标对提取。为了从每个文档中提取线索-目标对,我们构建了一个基于规则的流水线,分两个阶段进行:提取和优化。我们特意选择了基于规则的方法,而不是使用LLMs,以避免评估中的循环。
相似文章
当证据冲突时:检索增强生物医学问答中的不确定性与顺序效应
本文在冲突证据条件下评估了六个开放权重的大语言模型在生物医学问答中的表现,揭示了准确率下降和预测翻转,并提出了一个冲突感知的弃权评分,提高了选择性准确率。
同一位患者,不同的表述,不同的诊断?评估临床大语言模型的语义稳定性
本文提出了一种基于自然语言推理(NLI)的语义验证框架,用于评估临床大语言模型对保留语义的提示变化的敏感性,并引入了MVS、ΔC和WCI等度量指标。结果表明,领域专业化并不能持续提高鲁棒性,领域专用模型和通用模型的表现均参差不齐。
测量LLMs在误导性医疗语境下的认知韧性
介绍了MedMisBench,用于测量LLMs在误导性语境下维持正确医疗推理的能力。结果显示,在对抗性条件下,准确率从71.1%骤降至38.0%,临床专家组指出存在潜在危害。
大型语言模型能否对检索到的信息保持审慎态度?
本文研究了大型语言模型如何适应检索信息的确定程度,指出了其在处理不确定性方面的系统性局限。论文提出了一种交互策略,在不修改模型权重的前提下,将顺从错误降低了 25%。
在标准化病例中评估大语言模型在动态临床决策中的表现
研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。