ChatHealthAI: 将电子健康记录表示与大型语言模型对齐以实现基于临床的推理

arXiv cs.AI 2026/06/03 04:00 论文

llm ehr clinical-reasoning multimodal foundation-model healthcare-ai interpretability

摘要

ChatHealthAI 是一个多模态推理框架，它将结构化 EHR 表示与冻结的 LLM 对齐，从而在保持预测性能的同时实现基于临床的推理。

arXiv:2606.02802v1 公告类型: 新摘要: 大型语言模型在临床决策支持方面表现出强大的自然语言推理能力，但在有效建模结构化的纵向电子健康记录方面存在困难。相比之下，EHR 基础模型可以学习预测性患者表示，但缺乏可解释的基于语言的推理。为弥合这一差距，我们提出了 ChatHealthAI，这是一个多模态推理框架，通过任务感知重采样器将预训练的 EHR 基础模型的结构化 EHR 表示与冻结的 LLM 的语义空间对齐。通过将纵向患者表示与精细化的临床事件描述相结合，ChatHealthAI 在保持准确的患者预测的同时，实现了基于临床的自然语言推理。我们在 EHRSHOT 基准测试的三个临床预测任务上评估了 ChatHealthAI。结果表明，ChatHealthAI 提高了推理质量和可解释性，同时保持了有竞争力的预测性能。这些发现凸显了将 EHR 基础模型与预训练的 LLM 相结合以实现可解释临床预测的潜力。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:41

# ChatHealthAI：对齐电子健康记录表示与大型语言模型，实现基于临床的推理

来源：https://arxiv.org/html/2606.02802
Bo-Hong Wang¹,², Baicheng Peng¹, Ruilin Wang¹,², Jun Bai¹,², Ziyang Song¹,², Yue Li¹††感谢通讯作者：[email protected]
¹麦吉尔大学计算机科学学院，蒙特利尔，QC，加拿大
²米拉-魁北克人工智能研究所，蒙特利尔，QC，加拿大

###### 摘要

大型语言模型（LLMs）在临床决策支持方面展现出强大的自然语言推理能力，但在有效建模结构化纵向电子健康记录（EHRs）方面存在困难。相比之下，EHR基础模型可以学习预测性患者表示，但缺乏可解释的基于语言的推理。为了弥合这一差距，我们提出了ChatHealthAI，一个多模态推理框架，通过任务感知重采样器，将来自预训练EHR基础模型的结构化EHR表示与冻结LLM的语义空间对齐。通过整合纵向患者表示与精细化临床事件描述，ChatHealthAI能够在保持准确的患者预测的同时，实现基于临床的自然语言推理。我们在EHRSHOT基准测试的三个临床预测任务上评估了ChatHealthAI。结果表明，ChatHealthAI在保持竞争性预测性能的同时，提高了推理质量和可解释性。这些发现凸显了将EHR基础模型与预训练LLM相结合用于可解释临床预测的潜力。

ChatHealthAI：对齐电子健康记录表示与大型语言模型，实现基于临床的推理

Bo-Hong Wang¹,², Baicheng Peng¹, Ruilin Wang¹,², Jun Bai¹,², Ziyang Song¹,², Yue Li¹††感谢通讯作者：[email protected]
¹麦吉尔大学计算机科学学院，蒙特利尔，QC，加拿大
²米拉-魁北克人工智能研究所，蒙特利尔，QC，加拿大

## 1 引言

大型语言模型（LLMs）展现出强大的自然语言推理能力，使其在临床决策中越来越有吸引力（Singhal等，2023（https://arxiv.org/html/2606.02802#bib.bib1））。然而，临床预测通常不仅需要输出标签，还需要基于患者记录的可解释性解释（Lauritsen等，2019（https://arxiv.org/html/2606.02802#bib.bib11））。这对于结构化纵向电子健康记录（EHRs）来说具有挑战性，EHRs由编码的临床事件组成，其时间顺序和临床背景对预测很重要（Pang等，2021（https://arxiv.org/html/2606.02802#bib.bib12）；Choi等，2016（https://arxiv.org/html/2606.02802#bib.bib17））。简单地将EHR事件序列化到LLM提示中可能会超出上下文限制，并丢失时间和结构模式（Wu等，2024（https://arxiv.org/html/2606.02802#bib.bib13）；Pang等，2021（https://arxiv.org/html/2606.02802#bib.bib12））。这激发了将基于LLM的推理与从结构化EHR轨迹中学习到的表示相结合。

EHR基础模型通过在大规模结构化临床轨迹上进行预训练来解决这一互补建模问题。诸如CLMBR-T-Base（Wornow等，2023（https://arxiv.org/html/2606.02802#bib.bib3））、Med-BERT（Rasmy等，2021（https://arxiv.org/html/2606.02802#bib.bib7））和BEHRT（Li等，2020（https://arxiv.org/html/2606.02802#bib.bib8））等模型从纵向EHR数据中学习患者表示，并在下游临床预测任务上展现出强大性能。这些模型从诊断、用药、实验室和其他临床事件序列中捕捉预测模式，但它们的输出通常是潜在嵌入或风险评分，而不是自然语言解释（Li等，2020（https://arxiv.org/html/2606.02802#bib.bib8）；Rasmy等，2021（https://arxiv.org/html/2606.02802#bib.bib7）；Wornow等，2023（https://arxiv.org/html/2606.02802#bib.bib3））。这在预测性EHR表示学习和自然语言临床推理之间造成了方法上的差距。EHR嵌入和LLM token嵌入是从异构输入空间（Alayrac等，2022（https://arxiv.org/html/2606.02802#bib.bib2）；Richard等，2024（https://arxiv.org/html/2606.02802#bib.bib4））和训练目标中学习得到的，因此不会自然地对齐到共享的表示空间中。因此，EHR嵌入不能直接被视为有意义的LLM输入。有效的临床推理因此需要在结构化EHR表示和LLM表示空间之间进行显式对齐。

为了解决这一挑战，我们提出了ChatHealthAI，一个多模态临床推理框架，它将结构化EHR表示与冻结的开源LLM对齐，以实现基于临床的预测和推理生成。具体来说，我们使用CLMBR-T-Base作为EHR基础模型，使用DeepSeek-R1-Distill-Qwen-14B作为LLM。ChatHealthAI通过任务感知重采样器（Richard等，2024（https://arxiv.org/html/2606.02802#bib.bib4））将结构化EHR轨迹中学到的患者表示与冻结的LLM对齐。它还进一步纳入选定的临床事件作为文本证据，使模型能够生成基于临床的推理和特定任务的预测结论。我们在EHRSHOT基准测试（Wornow等，2023（https://arxiv.org/html/2606.02802#bib.bib3））上评估了ChatHealthAI，包括住院时长（LOS）、ICU入院和30天再入院预测。结果表明，ChatHealthAI保持了竞争性的预测性能，并提高了推理质量，凸显了EHR-LLM对齐作为可解释临床预测的一个有前途的方向。

总之，我们的贡献如下：

- • 我们提出了ChatHealthAI，一个多模态临床推理框架，它将结构化纵向EHR表示与冻结的LLM对齐，以支持基于临床的预测和自然语言推理。
- • 我们将任务感知的潜在EHR表示与精细化临床事件证据相结合，以改善对纵向患者轨迹的基于临床且可解释的推理。
- • 我们在来自EHRSHOT基准测试的多个临床预测任务上评估了ChatHealthAI，包括LOS、ICU入院和30天再入院。实验结果表明，在保持竞争性预测性能的同时，推理质量得到了提升。

## 2 相关工作

##### EHR表示学习。

先前的EHR基础模型主要关注从结构化EHR数据中学习预测性患者嵌入。基于Transformer的EHR基础模型，如CEHR-BERT（Pang等，2021（https://arxiv.org/html/2606.02802#bib.bib12））、Med-BERT（Rasmy等，2021（https://arxiv.org/html/2606.02802#bib.bib7））和CLMBR-T-Base（Wornow等，2023（https://arxiv.org/html/2606.02802#bib.bib3）），通过在结构化EHR轨迹上进行大规模预训练来学习纵向患者表示。EHRSHOT提供了一个标准的少样本评估基准，用于评估CLMBR-T-Base（Wornow等，2023（https://arxiv.org/html/2606.02802#bib.bib3））。然而，这些模型主要关注预测性表示学习，并不明确支持基于临床的自然语言推理生成。

##### 临床LLM与表示对齐。

临床LLM在生物医学推理和生成解释方面展现出巨大潜力（Singhal等，2023（https://arxiv.org/html/2606.02802#bib.bib1））。然而，仅靠提示可能不足以让临床LLM捕捉复杂EHR轨迹中的潜在纵向模式和时间结构。诸如Flamingo（Alayrac等，2022（https://arxiv.org/html/2606.02802#bib.bib2））和ChatNT（Richard等，2024（https://arxiv.org/html/2606.02802#bib.bib4））的多模态框架表明，轻量级的对齐模块，如感知器重采样器，可以帮助弥合预训练的非文本表示与冻结LLM之间的鸿沟。

## 3 ChatHealthAI

参见标题图1：ChatHealthAI概览。CLMBR-T-Base将结构化EHR事件编码为潜在患者表示，这些表示通过任务感知重采样器与冻结的开源LLM对齐。冻结的开源LLM还接收任务提示、精细化临床事件和患者背景信息作为基础信息。在训练期间，教师生成的推理目标通过下一个token预测损失来监督EHR端模块。在推理期间，模型生成证据、推理和最终预测结论。我们提出的ChatHealthAI是一个多模态框架，它将纵向EHR表示与冻结的开源LLM对齐，以支持带有自然语言推理的临床预测（图1（https://arxiv.org/html/2606.02802#S3.F1））。ChatHealthAI使用CLMBR-T-Base编码纵向患者轨迹，通过重采样器将生成的表示映射到冻结的开源LLM，并使用精细化临床事件作为推理的文本基础。

### 3.1 问题定义

令 E = {e₁, e₂, ..., e_T} 表示患者的纵向EHR轨迹，其中每个事件 e_t 包含结构化临床信息，例如在时间戳 t 观察到的实验室结果、生命体征、用药或诊断代码。令 T 表示文本输入，包括：任务提示、精细化临床事件、患者背景信息。

给定结构化EHR轨迹 E 和文本输入 T，ChatHealthAI旨在从纵向EHR轨迹中识别临床相关证据，生成基于该证据的推理，并产生一个由结构化EHR信息和推理过程支持的预测。

### 3.2 临床事件检索与精细化

原始的纵向EHR轨迹通常包含冗长、重复且信息量低的临床事件。将完整的EHR轨迹直接序列化到LLM上下文中计算效率低下，并且可能会在长序列中稀释临床重要信号。此外，有限的上下文窗口可能导致重要事件被截断。

为了解决这个问题，我们从纵向EHR轨迹中选择一个紧凑的、具有临床代表性的事件子集，用于下游临床推理。具体来说，我们在一个可配置的回望窗口内（默认为48小时）将EHR轨迹划分为时间块。我们使用RAG（Lewis等，2020（https://arxiv.org/html/2606.02802#bib.bib16））检索这些块，检索查询为“Retrieve chunks that best summarize the patient’s clinical course”，然后由LLM对检索到的块进行精细化，选择最多30个最能概括患者轨迹的代表性临床事件。这些*精细化临床事件*作为下游临床推理的文本基础信号。

### 3.3 任务感知的EHR-LLM表示对齐

我们使用CLMBR-T-Base对回望窗口内的患者事件序列E进行编码，获得上下文相关的EHR嵌入 H_CLMBR ∈ ℝ^{T×d}，其中T表示临床事件的数量，d=768是EHR嵌入维度。在我们的数据集中，每个患者的临床事件数量差异很大，T ∈ [100, 60000]。

EHR嵌入和LLM token嵌入是从异构输入空间和训练目标中学习得到的，因此不会自然地对齐到共享的表示空间中。我们最初尝试使用一个可训练的线性投影层，直接将CLMBR嵌入映射到LLM嵌入维度，以弥合EHR嵌入和LLM token嵌入之间的表示差距。然而，我们发现简单的线性投影不足以让冻结的LLM有效解释纵向EHR表示，导致推理生成不稳定和预测性能下降。

因此，我们采用了一个感知器重采样器（图2（https://arxiv.org/html/2606.02802#S3.F2）），灵感来自Flamingo（Alayrac等，2022（https://arxiv.org/html/2606.02802#bib.bib2））和ChatNT（Richard等，2024（https://arxiv.org/html/2606.02802#bib.bib4）），以对齐结构化EHR表示与冻结的LLM。重采样器包含M=64个可训练的潜在查询，Q ∈ ℝ^{M×d}，通过交叉注意力模块和前馈网络（FFN）（Vaswani等，2017（https://arxiv.org/html/2606.02802#bib.bib22）；Jaegle等，2021（https://arxiv.org/html/2606.02802#bib.bib23））关注CLMBR-T-Base嵌入：

Z = CrossAttn(Q, K, V),      (1)

其中K和V来自CLMBR-T-Base嵌入 H_CLMBR ∈ ℝ^{T×d}。重采样器将EHR轨迹 H 从 T 压缩为固定大小的 M=64 个潜在token，从而降低计算成本并满足上下文长度要求。然后，我们进一步将潜在表示以任务提示嵌入为条件，以支持任务感知的临床推理。我们应用另一个交叉注意力层和FFN，生成任务感知的潜在表示：

Z' = CrossAttn(Z, K, V),     (2)

其中K和V来自特定任务的提示嵌入，P ∈ ℝ^{L×d}，L是提示token的数量。这种任务感知的交叉注意力使模型能够根据目标预测任务动态地重新加权潜在重采样器表示，从而针对不同任务强调不同的临床信息。

参见标题图2：任务感知重采样器。可训练的潜在查询首先关注CLMBR-T-Base嵌入以产生紧凑的EHR潜在表示，然后关注任务提示以生成任务感知的表示。

### 3.4 临床推理指令微调

冻结LLM的输入由四个部分组成：(1) 任务提示，(2) 任务感知的潜在表示，(3) 患者级背景信息，例如预测时的患者年龄，以及 (4) 序列化的精细化临床事件，带有从第一个观察到的事件开始测量的相对时间戳。我们使用DeepSeek-R1-Distill-Qwen-14B作为冻结的LLM骨干网络。

为了监督基于临床的推理生成，我们使用GPT-oss-120B作为教师模型来生成结构化的推理目标。（Hsieh等，2023（https://arxiv.org/html/2606.02802#bib.bib19）；Wei等，2022（https://arxiv.org/html/2606.02802#bib.bib18））给定精细化临床事件和真实标签，教师模型生成由以下组成的结构化答案：(1) 临床证据，(2) 逐步推理，以及 (3) 与标签一致的结论。这些教师生成的答案在训练期间作为监督目标。给定一个分词后的教师生成的目标序列 y* = (y*₁, ..., y*_N)，我们基于下一个token预测损失来优化可训练的ChatHealthAI模块：

L_NTP = -∑_{j=1}^{N} log p_θ(y*_j | x_<j),     (3)

其中θ表示CLMBR-T-base编码器和任务感知重采样器的可训练参数，而LLM骨干网络保持冻结。在推理时，ChatHealthAI自回归地生成临床证据、推理和最终预测结论。

## 4 实验设置

### 4.1 数据集

ChatHealthAI: 将电子健康记录表示与大型语言模型对齐以实现基于临床的推理

相似文章

LLM4EHR：通过大型语言模型对齐临床时间序列与医疗事件序列

AIPatient Arena：基于电子健康记录的大语言模型在端到端临床咨询工作流中的评估

强化学习用于大型语言模型的寻求证据诊断推理

对齐临床需求与AI能力：关于LLMs在医学推理中的综述

长期历史感知的医疗对话合成与评估

提交意见反馈