Checkup2Action:用于生成面向患者的行动卡片的临床体检报告多模态数据集

arXiv cs.CL 论文

摘要

本文介绍了Checkup2Action,这是一个用于从临床体检报告生成面向患者的行动卡片的多模态数据集和基准测试,旨在解决普通患者理解医疗报告的困难。

arXiv:2605.11533v1 公告类型:新文章 摘要:临床体检报告是多模态文档,结合了页面布局、表格、数值型生物标志物、异常标志、影像学发现以及领域专用术语。对于普通患者而言,理解这种异构证据并将其转化为具体的后续行动具有挑战性。尽管大型语言模型在医疗摘要和分诊支持方面显示出潜力,但它们在从多模态体检报告中生成安全、有优先级且面向患者的行动方面的能力尚未得到充分评估。我们提出了\textbf{Checkup2Action},这是一个用于结构化\textit{行动卡片}生成的多模态临床体检报告数据集和基准测试。每张卡片描述一个具有临床相关性的问题,并指定其优先级、推荐科室、随访时间窗口、面向患者的解释以及向临床医生提出的问题,同时避免做出诊断或治疗建议。该数据集包含2000份去标识化的真实世界体检报告,涵盖人口统计信息、体格检查、实验室检测、心血管评估、影像学相关证据以及医生总结。我们将体检报告到行动生成的任务定义为受约束的结构化生成任务,并引入了一种评估协议,涵盖问题覆盖率和精确度、优先级一致性、科室和时间推荐准确性、行动复杂度、实用性、可读性以及安全性合规性。对通用和医疗大型语言模型的实验揭示了问题覆盖率、行动正确性、简洁性和安全对齐之间明显的权衡关系。Checkup2Action提供了一个新的多模态基准,用于评估针对临床体检报告的面向患者的推理能力。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:13

# Checkup2Action:面向患者导向行动卡片生成的多模态临床体检报告数据集
来源:https://arxiv.org/html/2605.11533
\\addauthor

Sike Xiangsike\.xiang@durham\.ac\.uk1\\addauthorShuang Chenshuang\.chen@durham\.ac\.uk1\\addauthorKevin Qinghong Linkevin\.qh\.lin@gmail\.com2\\addauthorJialin Yuyu\.jialin@outlook\.com2\\addauthorYijia Sunyijia\.sun@durham\.ac\.uk1\\addauthorPhilip Torrphilip\.torr@eng\.ox\.ac\.uk2\\addauthorAmir Atapour\-Abarghoueiamir\.atapour\-abarghouei@durham\.ac\.uk1\\addinstitution杜伦大学 英国杜伦\\addinstitution牛津大学 英国牛津 BMVC作者指南

###### 摘要

临床体检报告是多模态文档,结合了页面布局、表格、数值生物标志物、异常标记、影像学发现以及特定领域的术语。这种异质性的证据对于普通人来说难以解释,更难转化为具体的后续行动。尽管大型语言模型在医疗摘要和分诊支持方面展现出前景,但它们从多模态体检报告中生成安全、优先排序且以患者为导向的行动建议的能力尚未得到充分基准测试。我们提出了 **Checkup2Action**,这是一个用于结构化**行动卡片(Action Card)**生成的多模态临床体检报告数据集和基准。每张卡片描述一个具有临床相关性的问题,并指定其优先级、推荐科室、随访时间窗口、面向患者的解释以及向医生提问的建议,同时避免做出诊断或治疗处方主张。该数据集包含2,000份去标识化的真实世界体检报告,涵盖人口统计信息、体格检查、实验室测试、心血管评估、影像学相关证据以及医生总结。我们将体检到行动的生成 formulated 为一个受约束的结构化生成任务,并引入了一套评估协议,涵盖问题覆盖率和精确度、优先级一致性、科室和时间推荐准确性、行动复杂性、有用性、可读性以及安全性合规性。针对通用和医疗大型语言模型的实验揭示了问题覆盖、行动正确性、简洁性和安全性对齐之间明显的权衡。Checkup2Action 为评估针对临床体检报告的患者导向推理提供了一个新的多模态基准。

## 1 引言

常规临床体检生成了结合视觉文档布局、表格化实验室结果、数值生物标志物、异常标记、专业符号、影像学相关发现以及自由文本医生评论的多模态报告。与单部分临床笔记不同,这些报告通常是多页文档,证据分布在异质区域,包括表格、结构化检查块、扫描页面和影像学摘要。对于普通人来说,这种密集且视觉结构化的临床工件难以解释:必须在得出有意义的后续决定之前,共同解读异常值、参考范围、箭头以及模板化的医学术语。这在多模态体检证据与具体患者行动之间造成了巨大的“可解释性差距”\[gap1,VanDerMee2024LabResultsFormats,Petrovskaya2023PortalTestResultsScopingReview,gap3\]。

参见图注
**图1:Checkup2Action 的现实动机。** 患者经常收到包含结构化测量值、异常标记、影像学相关发现和医生评论的多模态临床体检报告,但在决定下一步该做什么时可能会感到困难。Checkup2Action 将此类报告转换为优先排序的、面向患者的行动卡片,以支持适当的后续咨询和具体的下一步措施。

在实际临床实践中,患者通常通过扫描视觉上显眼的线索来阅读体检报告,例如“异常”标签、↑⁣/⁣↓\\uparrow/\\downarrow 符号、阳性测试指标、高亮的参考范围违规情况,或影像学和实验室部分的结论性短语。然而,这些线索分布在多模态报告的不同区域,本身并不能表明哪些发现具有临床重要性,哪些偏差属于轻微,或者应采取何种后续行动\[abnormal\]。 prior 研究表明,健康素养有限的人难以解释异质的临床证据,包括实验室数值、放射学结论以及诸如“临床相关性”或“轻度升高”等短语,这可能导致对孤立线索产生不成比例的焦虑,或遗漏需要干预的高风险发现\[i5,gap3\]。即使报告包含“总体结论”或“总结意见”,这些部分通常也是描述性的而非行动导向的,使患者对优先级、科室转诊或随访时间感到不确定,并常常依赖进一步的澄清\[i7\]。这激发了建立一个基准,用于将多模态体检报告转换为结构化的、面向患者的下一步计划。

大型语言模型和对话式人工智能的最新进展使得临床摘要、面向患者的报告简化和分诊辅助成为可能\[gap3,masanneck2024\_triage\_llms\]。然而,大多数现有系统仍然产生自由形式的解释或严重程度标签,而不是结构化的、以患者为导向的行动计划。它们很少评估模型是否能够将多模态体检证据组织成明确的优先级、推荐科室、随访时间窗口以及针对临床医生的具体问题\[bluethgen2025agenticsystemsradiologydesign\]。在评估方面, prior 工作通常依赖于文本相似度指标或小规模的专家评分,从而留下了系统是否能一致地识别临床相关问题、适当排序并为患者提供安全的下一步指导的开放性问题\[tam2024frameworkhumanevaluationlarge\]。

在此背景下,我们构建了 **C2A (Checkup2Action)** 基准数据集(第3节 (https://arxiv.org/html/2605.11533#S3)),用于多模态体检到行动的生成。该数据集包含去标识化的真实世界体检报告,并支持评估系统是否能够将视觉结构化的、多部分的临床证据转化为优先排序的、面向患者的行动卡片。我们进一步引入了一套评估框架,结合结构化指标(问题召回率、优先级准确性、科室准确性、时间准确性和行动复杂性偏差)与以人为本的评级(问题相关性、安全性、有用性、清晰度和语气),产生十个互补的指标,既捕捉系统性能,也捕捉用户感知质量。

基于这一基准,我们实例化了 **Checkup2Action**(第4节 (https://arxiv.org/html/2605.11533#S4)),作为生成结构化“行动卡片”的受约束基线工作流。每张卡片聚焦于单一问题,并指定其优先级、推荐科室、建议的随访时间窗口、面向患者的解释以及应向临床医生提出的问题。**图1 (https://arxiv.org/html/2605.11533#S1.F1)** 说明了现实世界的工作流:体检后,患者收到报告,Checkup2Action 将其转换为行动卡片,帮助患者准备适当的下一步措施。我们故意限制系统的范围为解释和行动规划,将现有发现组织成后续建议,而不发布新的诊断标签或药物计划。

因此,我们的主要贡献如下:

1. \(i\) 我们介绍了 **C2A**,这是一个真实世界的多模态临床体检报告数据集和基准,包含2,000份去标识化的报告,并带有专家标注,用于以患者为导向的行动卡片生成。
2. \(ii\) 我们将体检到行动的生成 formulated 为一个结构化的多模态报告理解任务,并提供了一套评估协议,共同测量问题覆盖率和精确度、优先级一致性、科室和随访时间推荐质量、行动复杂性、有用性、可读性以及安全性合规性。
3. \(iii\) 我们实例化了 **Checkup2Action**,这是一个受约束的基线工作流,它将多部分体检证据转换为有序的、面向患者的行动卡片,同时避免诊断和治疗处方输出。

## 2 相关工作

我们回顾了多模态健康体检报告理解和数据集的相关工作(2.1节 (https://arxiv.org/html/2605.11533#S2.SS1)),随后是用于临床摘要、面向患者的沟通和分诊支持的医疗AI智能体(2.2节 (https://arxiv.org/html/2605.11533#S2.SS2))。

### 2.1 健康体检报告及相关数据集

常规健康体检通常包括多种检查类型,如生命体征、实验室测试、功能测试以及影像学或超声检查。尽管体检套餐因环境而异,但它们通常围绕心血管代谢风险指标,如血压、胆固醇、肥胖度指标以及在适当情况下的血糖相关测试\[Araujo2025PeriodicHealthExams,US\_Preventive\]。它们的报告通常是多模态临床文档:数字表格、参考范围、异常标记、结构化检查块、影像学相关摘要和自由文本结论安排在不同视觉报告部分中\[VanDerMee2024LabResultsFormats\]。在实验室和影像学部分,结构化模板和标准化术语可以提高文档的一致性,但也为非专业用户创造了理解障碍\[ESR2023StructuredReportingUpdate\]。患者和医疗保健提供者进一步报告称,通过网络门户访问测试结果通常需要额外的解释和指导,以支持适当的后续行动\[Petrovskaya2023PortalTestResultsScopingReview\]。仅仅展示带有参考范围的数值结果并不能确保可解释性,而参考区间的局限性可能导致混淆或误读\[Timbrell2024ReferenceIntervalLimitations\]。

现有资源从多个角度支持医疗报告理解,包括简化放射学报告以便患者理解\[yang\-etal\-2023\-data\] 以及配对的医疗图像-报告数据集如 MIMIC\-CXR\[mimiccxr\]。然而,这些资源主要针对简化、描述性生成、图像-报告建模或通用医疗理解。它们不直接评估系统是否能够将真实世界的多模态体检报告转换为结构化的、优先排序的、面向患者的下一步计划。特别地,目前缺乏标准化的数据集和基准,能够共同评估常规体检场景中的问题识别、优先级排序、科室推荐、随访时间、输出简洁性和安全性合规性。

### 2.2 医疗AI智能体

大型语言模型越来越多地被用作结合指令遵循、推理、工具使用和外部操作的智能体。ReAct\[ReAct\] 和 Toolformer\[Toolformer\] 等通用智能体方法研究了模型如何交错推理与行动或学习使用工具,而 OpenHands\[OpenHands\]、SWE\-agent\[SWE\]、Mind2Web\[Mind2Web\] 和 WebArena\[WebArena\] 等智能体基准和平台展示了在交互式环境中可复现评估的重要性。这些研究激发了智能体工作流,但它们并未解决面向患者的临床报告解释的特定安全性和评估要求。

在医疗领域,大型语言模型和智能体框架已被探索用于问答、临床决策支持和医疗文档生成\[Wang2024\]。一条主要的工作线专注于临床摘要,例如从电子健康记录或出院摘要中生成简洁的概述,以支持临床医生审查\[Bednarczyk2025\]。另一条工作线针对面向患者的沟通,通过重写技术性医疗文档为更易理解的解释,同时平衡可读性和信息保留\[jamanetworkopen\]。密切相关的研究调查分诊和严重程度评估,比较模型性能与急诊医学专业人员,或提出用于临床分诊的多智能体系统\[masanneck2024\_triage\_llms,lu\-etal\-2024\-triageagent\]。然而,大多数现有系统是为临床医生、机构或急性分诊环境设计的,很少评估多模态体检报告是否可以转换为针对普通用户的具体、优先排序的下一步措施。Checkup2Action 通过提供专用的多模态数据集和基准,用于结构化的、面向患者的行动卡片生成,解决了这一差距。

## 3 数据集与基准

### 3.1 C2A 数据集

在本研究中,我们构建了 **C2A (Checkup2Action)**,这是一个用于体检到行动生成的真实世界多模态数据集。当前版本包含2,000份去标识化的完整体检报告,格式为PDF。每份报告是一份多页临床文档,包含来自各个检查项目的异质性证据,包括视觉布局、结构化表格、数值测量、异常标记、嵌入式图像、影像学相关发现以及医生撰写的结论,如图2 (https://arxiv.org/html/2605.11533#S3.F2) 所总结。这些报告遵循医疗机构中使用的标准化体检文档工作流,涵盖广泛的异常发现和风险指标。公开发布版本将提供数据集的标准英语版本111源代码和数据集将在审查期后公开可用\.\.

每份报告涵盖五大类:**基本信息**,包括人口统计属性和生命体征,如年龄、性别、身高、体重和血压;**一般体格检查**,涵盖常规临床评估发现,如视力和体征;**实验室测试**,包括标准血液学和生化面板,如血常规、肝功能和肾功能测试;**影像学检查**,涵盖放射学和超声发现,如胸部X光和腹部超声;以及**心血管测试**,包括心脏和血管评估,如心电图。

为了构建基准,使用医生撰写的报告摘要来推导参考问题和行动卡片属性以供评估。我们将每份完整报告视为单个样本,而不是将其拆分为孤立的测试,从而保留真实体检解释所需的文档级上下文和跨部分证据聚合。为了避免仅评估局部异常提取,基准要求系统将各部分的发现组织成面向患者的问题、优先级、科室推荐、随访时间和安全的解释内容。

我们解析并总结了体检报告PDF以描述数据集特征。报告长度范围为8–25页(均值15.08),每份报告的文本范围为2,301–10,223个字符(均值5,379.5),对应342–2,107个单词(均值1,107.4)。每份报告包含11–27个嵌入式图像(均值17.12)。在参考级别,每份报告的问题数量范围为2–28(均值7.2),优先级分布为:高7.4%,中20.8%,低71.8%。我们将随公共数据集发布更详细的统计数据和分布表,以便读者评估规模、难度和类别不平衡。

参见图注
**图2:C2A 数据集概览。** 该数据集基于真实世界的多模态临床体检报告构建,涵盖多种检查信息,包括人口统计和生命体征记录、体格检查……

相似文章

MedAction:迈向主动式多轮临床诊断大语言模型

arXiv cs.CL

本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。

MedCUA-Bench:面向临床计算机操作智能体的截图型基准测试

arXiv cs.AI

MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。

面向在线患者咨询的可操作分诊分类的小样本大语言模型

arXiv cs.CL

本文探讨了使用小样本提示的大语言模型对在线患者咨询进行可操作分诊分类,分为自我护理、预约就诊、紧急临床审查或急诊转诊。最佳模型(Claude Haiku 4.5,12次小样本提示)的macro-F1达到0.475,超过了有监督基线,但作者得出结论:LLMs可以支持分诊优先级排序和选择性人工审核,但不能自主部署。