可能还是确定？评估临床文本中诊断不确定性保持能力的基准

arXiv cs.CL 2026/06/18 04:00 论文

摘要

本文介绍了一个包含1,200份临床文档和9,184条不确定性标注的基准，用于评估LLMs是否能在临床文本中保持诊断不确定性，结果发现LLMs常常无法保留原始不确定性线索，且在细微区别上表现不佳。

arXiv:2606.18471v1 Announce Type: new 摘要：大语言模型（LLMs）越来越多地被用于临床文本任务，如总结和修订。虽然大多数研究评估LLMs生成文本的流畅性和连贯性，但LLMs能否正确保持诊断不确定性仍未被充分探索。在临床实践中，诸如“可能肺炎”之类的短语传达了现有证据的强度，并直接指导关于后续检测和治疗决策。改变这些不确定性表达可能会完全改变临床含义。在本文中，我们通过两个步骤系统评估了这个问题。首先，我们构建了一个包含1,200份临床文档和9,184条不确定性标注的基准，涵盖五个等级。其次，我们在此基准上评估了三个LLMs。我们的结果表明：（1）LLMs对原始不确定性线索的保持能力较差，通常不到一半；（2）LLMs难以区分相邻等级之间的细微差别。这项工作揭示了标准评估指标无法捕获的一种失效模式，并为LLMs在临床工作流中的安全部署提供了启示。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:45

# 可能还是确定？评估临床文本中诊断不确定性保留的基准

来源：https://arxiv.org/html/2606.18471
\\theorembodyfont\\theoremheaderfont\\theorempostheader

:\\theoremsep

\\NameZixin Lu\\nametag11footnotemark:1\\Emaillzixin@umich\.edu \\addr密歇根大学\\NameJiaming Qu\\nametag\\Emailqjiaming@amazon\.com \\addr亚马逊通讯作者。本研究以个人身份独立进行，不代表作者在亚马逊的立场。

###### 摘要

大型语言模型（LLMs）越来越多地用于临床文本任务，如摘要和改写。虽然大多数研究评估LLM生成文本的流畅性和连贯性，但LLMs是否正确*保留诊断不确定性*仍未得到充分探索。在临床实践中，诸如“可能肺炎”之类的短语传达了现有证据的强度，并直接指导后续检测和治疗决策。改变这些不确定性表达可能会完全改变临床含义。本文系统地从两个步骤评估了这个问题。首先，我们构建了一个包含1,200份临床文档、共9,184个不确定性标注（覆盖五个级别）的基准测试。其次，我们在此基准上评估了三个LLM。我们的结果表明：（1）LLMs保留原始不确定性线索的能力较差，通常不到一半的情况能保留；（2）LLMs难以区分相邻级别之间的细微差别。这项工作揭示了一个标准评估指标无法捕获的故障模式，并为LLMs在临床工作流中的安全部署提供了启示。

## 1 引言

大型语言模型（LLMs）已广泛应用于生物医学自然语言处理（NLP）任务，如临床摘要、报告生成和问答（tian2024opportunities）。研究表明，在专门语料库上微调的LLMs可以在复杂临床任务上达到人类水平的表现（vanveen2024）。为了系统评估LLMs在这些任务上的表现，先前的工作引入了多种基准。例如，ProbSum针对问题列表摘要（gao2023），而（xu2024）提出了一项医疗出院记录生成的共享任务。然而，现有的评估指标范围仍然有限，许多评估并未直接衡量真实的临床影响（bednarczyk2025）。

尽管取得了这些进展，但LLMs是否正确解释和保留临床文本中的诊断不确定性仍未得到充分探索。在临床实践中，诸如“*可能*肺炎”和“*不能排除*肺栓塞”之类的短语不仅仅是谨慎的措辞。它们传达了现有证据的强度，表明了正在考虑的替代诊断，并提示是否需要进一步检测。这些表达直接影响临床决策：“可能”的诊断可能需要额外影像学检查，而肯定的断言可能导致立即治疗。先前的工作表明，不确定性是临床推理的核心和多维组成部分，临床医生在日常实践中使用广泛的不确定性表达（han2011;mcgowan2025;panicekhricak2016）。然而，LLMs可以生成流畅且连贯的文本，同时改变不确定性程度——例如，将“*可能*肺炎”改写为“肺炎”。如果这种变化在临床环境中传播，就有扭曲原始临床含义的风险。这个问题在先前的工作中很少受到关注。

在这项工作中，我们研究以下问题：LLMs能否在临床NLP任务中正确保留诊断不确定性？先前关于LLMs不确定性的研究主要遵循两个方向。第一个研究不确定性量化，使用logits、熵或相关信号来检测不可靠的输出或幻觉（farquhar2024）。第二个研究LLM生成文本*内部*表达的不确定性，评估模型是否恰当地表达了不确定性（kolagarzarcone2024;yang2025）。我们的工作遵循第二个方向。我们并不衡量模型在生成过程中的内部置信度。相反，我们评估LLMs是否在特定任务中保留了临床源文本中已经存在的不确定性。

为了解决这个问题，我们构建了一个用于临床文本诊断不确定性的基准。我们的基准基于两个广泛使用的数据集：MIMIC-IV-Note（johnson2023），包含出院小结和放射学报告；以及TCGA-Reports（kefeli2024tcga），一个病理报告集合。我们定义了五个不确定性级别，范围从确定不存在到非断言。为了支持细粒度分析，我们使用命题级标注，而不是为每个文档分配一个不确定性标签。每个文档被表示为一组提示-目标对，其中每对包括一个目标概念（例如，“肺炎”）及其相关的不确定性提示（例如，“可能”）。总的来说，我们的基准包含1,200份文档，涵盖六种临床文本类型和9,184个标注的提示-目标对，跨越五个不确定性级别。我们在此基准上评估了三个LLM，采用两种互补的评估方法：间接评估衡量LLMs在文本转换任务中是否保留不确定性；直接评估测试LLM在被明确提示时是否能分类和排序不确定性提示。

总之，本文系统地评估了LLMs如何在临床NLP任务中处理诊断不确定性。我们的贡献如下。首先，我们构建了一个涵盖多种文档类型和不确定性级别的基准，可用于未来的工作。其次，我们提供了跨任务和提示条件下三个LLM的经验评估。我们的结果表明，LLMs经常扭曲不确定性：在没有适当提示的情况下，它们保留原始不确定性级别的时间不到一半，大约五分之二的提示-目标对被改写为确定断言。此外，LLMs对单个不确定性级别的分类准确率中等，但在相邻级别之间的细粒度区分上存在困难。这些发现共同揭示了基于LLM的临床文本处理中的一个系统性故障模式，并强调了在临床工作流中负责任地使用LLMs的迫切需求。

### 关于医疗背景下机器学习的通用洞察

- •临床含义不仅取决于提及*哪种*情况，还取决于*多确定*地表达它。我们的结果表明，LLMs可以生成流畅、事实准确的输出，但仍然通过改变不确定性来扭曲含义，这表明不确定性保留应作为一个单独的维度进行评估。
- •在我们命题级基准上的评估结果表明，主要的故障模式不是随机噪声，而是向确定性断言系统性偏置——这种模式在文档级评估中是不可见的。
- •即使在提示中明确指示保留不确定性，也不足以完全防止扭曲，这表明在临床文本处理任务中安全、负责任地使用LLMs可能需要更复杂的干预措施。

## 2 相关工作

### 2.1 自然语言中的不确定性

从语言学角度来看，不确定性通过多种形式表达，而非单一的提示词。这些包括模糊限制词、情态动词、鉴别诊断、不完整的证据陈述以及后续检测建议（Kilicoglu2008SpeculativeLanguage）。这些表达在生物医学环境中尤为重要，它们传达证据的局限性、可能的替代方案以及患者护理中计划的下一步。先前的工作表明，医疗保健中的不确定性是多维的而非偶然的，涵盖广泛的语言形式和临床功能（han2011）。临床NLP研究已经开发了用于检测相关现象（如否定、模糊确认和断言状态）的资源（uzuner2011;vincze2008;peng2018）。然而，这些数据集在不确定性级别数量、临床文本类型和整体规模方面都有限。我们通过构建一个具有更广泛不确定性级别覆盖、文档类型和数据集规模的基准来扩展这一研究方向。

### 2.2 评估LLMs对不确定性的意识

先前关于LLMs不确定性研究的工作可分为两个主要方向。第一个方向研究LLMs的内部不确定性，包括基于logits、熵、校准及相关信号的方法，这些方法估计错误或幻觉的可能性（farquhar2024;kadavath2022language;kapoor2024calibration）。这个研究方向根据内部状态评估LLMs生成响应的可靠性。第二个方向研究LLM生成语言中表达的不确定性，检查输出中不确定性是否被恰当表达。例子包括摘要和长文本生成中的不确定性转移（kolagarzarcone2024;yang2025;yang2025uncle），以及考虑不确定性的诊断和解释（zhou2025uncertainty）。我们的工作遵循第二个方向。具体来说，我们关注特定患者的临床笔记，并评估诊断不确定性是否从源文本保留到输出。

### 2.3 临床LLMs中的基准

先前的研究整理了各种基准，用于评估LLMs在不同任务上的表现，包括临床笔记摘要、报告生成和问答（gao2023drbench;vanveen2024;xu2024;kweon2024ehrnoteqa;liu2024clinicbench）。这些基准主要侧重于评估LLM生成文本的流畅性和连贯性，以及LLMs是否能生成准确的响应。然而，一个看似合理且连贯的输出并不能保证临床上有意义的评估（bednarczyk2025;bedi2025testing;gong2025knowledgegap）。为了解决这一差距，我们构建了一个基准来评估LLMs对诊断不确定性的理解。受先前工作的启发，我们的基准构建结合了两种方法：（1）从现有临床文档集合中获取监督信号（gao2023）；（2）将自动数据提取与人工审查相结合（kweon2024ehrnoteqa;grazhdanski2025synthmedic）。

## 3 方法

参见图注图 1：研究流程概览。本研究的主要目标是评估LLMs是否能正确解释临床文本中的不确定性线索。我们不评估LLMs在传统指标（如生成质量、连贯性或事实准确性）上的表现。相反，我们研究两个互补的研究问题（RQs）：

- •RQ1（间接评估）：在摘要和患者友好改写等下游任务中，LLMs在转换临床文本时是否保留诊断不确定性？
- •RQ2（直接评估）：当明确要求LLMs解释不确定性线索时，它们能否正确识别和排序？

为了研究这些RQs，我们采取了两个步骤（图1 (https://arxiv.org/html/2606.18471#S3.F1)）。首先，由于没有现成的合适数据集，我们构建了一个包含1,200份临床文档（涵盖六种临床文本类型）的基准。我们定义了五个不确定性级别，范围从确定不存在到非断言。其次，我们在此基准上评估了三个LLM。下文描述了基准构建（第3.1节 (https://arxiv.org/html/2606.18471#S3.SS1)）和评估方法（第3.2节 (https://arxiv.org/html/2606.18471#S3.SS2)）。

### 3.1 基准构建

数据预处理。我们从两个在生物医学NLP研究中广泛使用的数据集构建基准：（1）MIMIC-IV-Note（johnson2023），包含260万份临床笔记；（2）TCGA-Reports（kefeli2024tcga），一个包含9,523份病理报告的数据集。对于MIMIC-IV-Note，我们关注两种文档类型：出院小结和放射学报告，因为它们篇幅较长，为研究不确定性提供了丰富的素材。每个MIMIC笔记按章节组织，我们选择了临床最相关的章节：出院小结中的评估、简要住院病程和出院诊断；放射学报告中的印象和发现。每个章节被提取为一个独立的文档。对于TCGA病理报告，由于没有结构化章节，我们使用了完整文档。总的来说，我们的初始文档库包含六种文档类型，所有这些类型都是解释性临床文本，临床医生在其中记录关于患者的结论、排除、意外情况和未解决问题。

定义不确定性线索。构建基准的一个关键步骤是从每个文档中提取不确定性线索-目标对。我们定义不确定性线索为表达作者对临床命题承诺程度的文本跨度（一个词或短语）。目标是受该线索修饰的临床命题。例如，在句子“由于造影时机不佳，评估有限；未见大的中心充盈缺损，但无法排除肺栓塞”中，“无法排除”是不确定性线索，“肺栓塞”是目标。

借鉴先前关于生物医学文本中临床不确定性、否定和断言状态的工作（han2011;Bhise2018;mcgowan2025;vincze2008;uzuner2011;peng2018;limalopez2020;thompson2011;Callen2020），我们定义了一个五级不确定性模式。五个级别从确定不存在到非断言提及：

- •确定不存在：临床命题对于患者不存在，用清晰、自信的语言表达，对其缺席毫无疑义。
- •可能存在：临床命题存在的可能性大于不存在，但语言表明作者并非完全确定。
- •可能存在：临床命题可能存在，但语言表明这只是合理的可能性之一，而非自信的结论。
- •不确定或未解决：临床命题尚无法确定，因为可用信息不完整、混合或不清楚。
- •非断言评估目标：临床命题被提及为需要检查、测试、监测或排除的内容。文本并未说明其存在或不存在；它只是评估的目标。

我们从上述研究中确定的不确定性线索清单开始，为每个级别确定了大约五个常见线索。为了增加覆盖范围，我们采取了两种方法。首先，每位作者独立审查了一小部分MIMIC笔记，并对表达不确定性的句子进行了定性编码。然后所有作者会面两次，讨论并选择最频繁的线索。其次，我们邀请了一位语言学家和一位临床医生参加讨论小组，所有作者都参与了最终完善。这一步骤有助于捕捉临床笔记特有的惯例，例如使用问号作为非断言信息的常见符号。表1 (https://arxiv.org/html/2606.18471#S3.T1)总结了每个级别的定义和代表性线索。UL3（*可能存在*）具有最多的独特线索（N=30N=30），而UL1（*确定不存在*）最少（N=9N=9）。每个级别的完整线索列表见附录A (https://arxiv.org/html/2606.18471#A1)。

表1：我们定义了五个不确定性级别（ULs），其中UL5表示不确定性最大，UL1表示不确定性最小。我们为每个级别开发了一组线索词。NN表示每个级别独特线索的数量。线索-目标对提取。为了从每个文档中提取线索-目标对，我们构建了一个基于规则的流水线，分两个阶段进行：提取和优化。我们特意选择了基于规则的方法，而不是使用LLMs，以避免评估中的循环。

可能还是确定？评估临床文本中诊断不确定性保持能力的基准

相似文章

当证据冲突时：检索增强生物医学问答中的不确定性与顺序效应

同一位患者，不同的表述，不同的诊断？评估临床大语言模型的语义稳定性

测量LLMs在误导性医疗语境下的认知韧性

大型语言模型能否对检索到的信息保持审慎态度？

在标准化病例中评估大语言模型在动态临床决策中的表现

提交意见反馈