从结构化临床数据预测心血管风险的大语言模型
摘要
本文提出了一种混合框架,将结构化临床数据与LLM生成的叙述相结合,用于冠状动脉疾病预测,在变量提取方面实现了高保真度,并比较了机器学习模型与基于LLM的零样本和少样本分类。
arXiv:2606.00031v1 Announce Type: new
摘要:冠状动脉疾病(CAD)仍然是全球主要死因之一,凸显了对可靠预测系统的需求以支持早期诊断和风险评估。传统机器学习模型在结构化临床数据上表现良好,而大语言模型(LLMs)为解释自然语言形式的医学信息提供了新可能性。本研究开发了一个混合框架,将结构化临床数据与自然语言表征相结合用于CAD预测。利用包含1190名患者记录及11个临床属性的公开数据集,将结构化变量转换为可解释的特征表示,并通过LLMs生成合成临床叙述。验证流程对临床变量进行反向提取,并与原始记录计算一致性分数,平均保真度达到94.61%。随后评估了四种传统机器学习模型,并将其性能与基于LLM的零样本和少样本提示分类进行比较。此处使用了两个LLM:GPT和Gemini。实验结果显示,随机森林(Random Forest)取得了最高准确率。尽管如此,基于LLM的分类在实际临床场景中仍有优势,因为LLM直接处理自然语言的患者描述,从而保护敏感数值型患者数据(如精确实验室值、血压读数和诊断代码)的隐私。研究结果表明,结合结构化临床数据与LLM生成的叙述可为混合临床预测系统开辟新方向。
查看缓存全文
缓存时间: 2026/06/02 15:35
# 基于结构化临床数据的LLM心血管风险预测
来源:https://arxiv.org/html/2606.00031
11institutetext:中密歇根大学,美国密歇根州普莱森特山
11email:malih1j@cmich\.edu, kabir2m@cmich\.edu
###### 摘要
冠状动脉疾病仍然是全球主要的死亡原因之一,凸显了开发可靠预测系统以支持早期诊断和风险评估的必要性。虽然传统机器学习模型在结构化临床数据上表现良好,但大语言模型为解读自然语言表达的医学信息提供了新的可能性。在本工作中,我们开发了一种混合框架,将结构化临床数据与自然语言表示相结合,用于CAD预测。使用一个包含1190例患者记录和11个临床属性的公开数据集,我们将结构化变量转换为可解释的特征表示,并通过LLM生成合成临床叙事。我们引入了一个验证流程,从生成的叙事中逆向提取临床变量,并与原始记录计算一致性得分,平均忠实度达到94.61%。随后,我们评估了四种传统机器学习模型,并比较了它们在零样本和少样本提示设置下与基于LLM的分类性能。我们在此使用了两种LLM:GPT和Gemini。实验结果表明,随机森林达到了最高准确率。尽管存在这一优势,基于LLM的分类在真实临床环境中仍然具有价值。这是因为LLM直接操作于自然语言的患者描述,这意味着诸如精确化验值、血压读数和诊断代码等敏感数值患者数据得以保密。研究结果表明,将结构化临床数据与LLM生成的叙事相结合,可以为混合临床预测系统开辟新的方向。
## 1 引言
冠状动脉疾病是全球死亡率的主要原因之一,并构成了重大的公共卫生挑战[1](https://arxiv.org/html/2606.00031#bib.bib1)。早期发现和准确的风险预测对于改善患者预后和实现及时临床干预至关重要。过去十年中,机器学习技术越来越多地被应用于临床数据集,以支持自动化心血管风险预测。逻辑回归、支持向量机、随机森林和梯度提升等传统模型,在基于年龄、血压、胆固醇水平和心电图测量等结构化临床变量进行训练时,已展现出强劲的性能[2](https://arxiv.org/html/2606.00031#bib.bib2), [3](https://arxiv.org/html/2606.00031#bib.bib3)。尽管取得了这些进展,大多数现有方法仍完全依赖结构化数值数据。然而,在真实的临床环境中,患者信息往往通过电子健康记录、医生笔记和诊断报告以自然语言形式记录。这种结构化机器学习输入与叙事性临床文档之间的不匹配,限制了许多预测模型的适用性。大语言模型的最新发展[4](https://arxiv.org/html/2606.00031#bib.bib4)通过实现自然语言医学描述的自动生成和解读,为弥合这一差距提供了新的机遇。
参见图注 图1:使用机器学习和LLM进行冠状动脉疾病预测的工作流程
在本工作中,我们提出了一种混合框架(如图1所示),该框架结合了结构化临床数据、合成临床叙事生成和机器学习,用于冠状动脉疾病预测。从一个包含1190例患者记录和11个临床属性的公开CAD数据集出发,首先将结构化变量转换为可解释的特征表示。然后,使用这些特征通过大语言模型生成合成临床叙事。为确保事实准确性,我们引入了一个验证流程,从生成的叙事中逆向提取临床值,并与原始结构化记录计算一致性得分。使用验证后的数据集,我们评估了四种传统机器学习模型——逻辑回归、随机森林、支持向量机和XGBoost——并比较了它们在零样本和少样本提示条件下与基于LLM的分类性能。我们的结果表明,集成模型实现了最高的预测性能,而基于LLM的方法在解读自然语言临床描述方面展示了有前景的能力。
本工作的主要贡献总结如下:
- •我们提出了一种混合框架,整合了结构化临床数据、大语言模型和机器学习,用于冠状动脉疾病预测。
- •我们引入了一个合成临床叙事生成流程,将结构化患者记录转换为自然语言临床报告。
- •我们开发了一种验证机制,确保生成的叙事与原始临床数据之间的事实一致性。
- •我们提供了传统机器学习模型与基于LLM的分类方法在结构化临床数据和验证数据集上的比较评估。
## 2 相关工作
近期研究探索了自然语言处理、LLM和机器学习技术在心血管疾病预测和临床数据分析中的整合。Yang等人[5](https://arxiv.org/html/2606.00031#bib.bib5)提出了一种LLM增强的NLP流程,用于基于非结构化患者叙事的心血管疾病预测。他们的方法使用BioClinicalBERT从症状描述中生成上下文嵌入,然后通过随机森林模型进行分类,在无需领域特定微调的合成数据集上达到了85.7%的准确率和85.3%的F1分数。Li等人[6](https://arxiv.org/html/2606.00031#bib.bib6)提出了一种混合AI框架,将NLP和机器学习结合起来用于运动员的心血管风险预测。他们的方法使用基于RoBERTa的模型从非结构化临床叙事中提取特征,然后由狼群搜索优化的动态随机森林进行处理。该方法达到了92.5%的准确率、99.23%的召回率和98.1%的AUC-ROC,优于多个基线模型。Chen等人[7](https://arxiv.org/html/2606.00031#bib.bib7)提出了一种轻量级双注意力ECG网络,用于使用12导联心电图进行心力衰竭风险预测。他们的模型结合了跨导联和导联特定的时间注意力模块,并采用基于LLM的预训练进行ECG报告对齐,在英国生物银行队列中取得了改进的预测性能,C指数得分分别为0.6349(UKB-HYP)和0.5805(UKB-MI)。
另一项近期工作由Wang等人[8](https://arxiv.org/html/2606.00031#bib.bib8)提出,他们设计了一种混合AI模型,将大语言模型与传统机器学习分类器相结合用于心脏病预测。在他们的方法中,LLM从原始临床数据生成自然语言摘要和风险评分,然后与原始数值特征相结合。这个增强后的特征集随后被XGBoost分类器用于生成最终预测。Pan等人[9](https://arxiv.org/html/2606.00031#bib.bib9)开发了一个基于LLM的流程,用于从电子健康记录临床笔记中识别多种疾病,而无需大量手动标注。当应用于一个包含3088名患者、超过551000条笔记的队列时,该方法在检测急性心肌梗死、糖尿病和高血压等疾病方面,与基于ICD代码的方法相比,显示出更高的敏感性。Mila等人[10](https://arxiv.org/html/2606.00031#bib.bib10)提出了一种基于文本的方法,用于早期自闭症风险检测,利用照料者报告的描述,在合成自由文本上训练语言模型,并通过微调变压器模型达到高达90%的准确率,优于其他方法。他们进一步表明,用真实噪声增强数据可以提高召回率和泛化能力,从而实现一种低成本、可及的筛查方法,支持早期干预和专家评估。
## 3 方法学
### 3.1 数据集构建与特征工程
我们使用了一个公开的冠状动脉疾病数据集,该数据集由心血管风险评估中常用的表格化临床数据组成。数据集包括生理属性,如年龄、性别、胸痛类型、静息血压、胆固醇水平、空腹血糖、静息心电图结果、最大心率、运动诱发心绞痛、ST段压低(oldpeak)和ST段斜率[11](https://arxiv.org/html/2606.00031#bib.bib11)。目标变量表示是否存在心脏病。这些变量与CAD诊断中常用的既定临床指标相对应。目标是获得每个患者的配对表格和文本表示,使其既适用于传统机器学习模型,也适用于基于语言模型的方法。令原始结构化数据集为:
D=\{(xi,yi)\}i=1N,xi∈X⊆Rp,yi∈{0,1\}
为了使数据集对临床医生和语言模型都更具可解释性,我们将每个编码变量转换为人类可读的临床类别。例如,二元性别指示器映射为“女性”或“男性”,胸痛类型映射为“典型心绞痛”、“非典型心绞痛”、“非心绞痛性疼痛”或“无症状”,心电图发现映射为“正常心电图”、“ST-T波异常”或“左心室肥厚”。对空腹血糖状态、运动诱发心绞痛的存在以及ST段的定性斜率也定义了类似的映射。这些映射表被存储起来,用于创建描述性字符串。
### 3.2 合成临床叙事生成
#### 3.2.1 结构化文本创建:
对于每一行,解析先前构建的“特征”字符串以检索映射后的临床值,并将这些值注入精心设计的提示中。对于每条患者记录,首先用原始数值提示LLM,生成一个单行、逗号分隔的结构化摘要,采用一致的特征-值对格式(例如,“age-40, sex-male, chest pain type-non-anginal pain, resting bp-140 mm Hg, cholesterol-289 mg/dL...”),温度设为0以确保完全确定性的输出。为处理任何API错误,流程中内置了一个后备函数,可本地执行相同的临床映射,从而确保流程无中断运行。特征字符串准备好后,将其传递到第二个提示中。
参见图注 图2:(a) 特征字符串长度 和 (b) 自由文本长度的分布
#### 3.2.2 结构化数据到自由文本的转换:
我们将心脏病数据集中的结构化数值患者记录转换为两种不同形式的可读临床文本,如图2所示。对于每条患者记录,系统生成两种单独的输出。第一种是结构化摘要,以一致格式列出所有临床特征字符串。第二种是详细的段落,以临床报告的风格撰写,用完整的句子描述同一患者,就像医生在电子健康记录中写笔记一样。模型被指示在报告中自然地包含所有临床值,不虚构任何原始数据中未包含的额外测量值。为在保持医学内容准确的同时允许一定的写作风格变化,温度设为0.3。两种文本格式均使用LLM生成,而非简单的基于规则的模板。对于每位患者,两种文本都与指示是否存在心脏病的标签一起保存。任何生成失败或返回空值的报告都会被标记,以便从数据集中重新生成。创建两种格式的原因很简单:结构化摘要适用于偏好一致输入模式的模型,而自由文本叙事则适用于需要自然医学语言的模型。拥有两种格式使数据集足够灵活,能够支持更广泛的自然语言处理和评估场景。
### 3.3 叙事验证与质量保证
#### 3.3.1 自由文本验证与修正:
每条生成的自由文本叙事都会与其对应的原始患者记录进行比较,方法是提示LLM扮演医学数据验证者的角色。模型识别叙事中任何缺失的值或事实矛盾,如果发现问题,则生成一个修正版本,准确反映所有原始临床值,同时保持自然语言流畅。结果返回一个标志,指示是否检测到问题。
#### 3.3.2 逆向映射与临床值提取:
为客观衡量修正后的叙事对原始数据的忠实程度,再次提示LLM从叙事文本中提取所有临床值,并将它们映射回原始数值代码。这种逆向提取产生一个结构化记录,镜像原始数据集模式,从而可以对源记录与文本推导值进行直接的逐字段比较。
#### 3.3.3 一致性评分:
为衡量每条叙事与原始数据的匹配程度,我们直接将每个提取的特征与其真实值进行比较。分类字段必须完全一致,而数值字段允许较小的误差范围(若差异小于0.5则视为匹配,以吸收文本中的轻微舍入)。对于每位患者,我们通过将匹配字段数除以总字段数并乘以100来计算一致性得分,如公式1所示。这给出了一个简单的百分比,告诉我们每条叙事对底层临床记录的忠实程度。对于每条记录,一致性得分计算如下:
一致性得分 = (匹配字段数 / 总字段数) × 100 (1)
这为每个样本产生了一个基于百分比的度量。
参见图注 图3:自由文本一致性得分
#### 3.3.4 验证结果与汇总统计:
在所有1190条患者记录中,我们的流程达到了平均94.61%的一致性得分。其中,539条记录(45.3%)获得了100%的完美得分,1135条记录(95.4%)得分等于或高于90%,如图3所示。只有55条记录(4.6%)低于90%阈值,表明生成的叙事与原始结构化临床数据之间具有高度的事实忠实度。
### 3.4 预测建模
#### 3.4.1 基于临床特征的CAD预测机器学习模型:
我们使用一个包含1190条患者记录的临床数据集来训练和评估用于预测冠状动脉疾病的机器学习模型,该数据集有11个临床特征。在训练之前,我们通过相关性分析和分布图来探索数据,以了解特征之间的关系。相似文章
代理建模:解读黑盒大模型在医学预测中的隐含知识
研究者提出一种代理建模框架,可量化并解释黑盒大模型内部编码的医学知识,同时揭示有效关联与持续的种族偏见。
MedAction:迈向主动式多轮临床诊断大语言模型
本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。
基于CT钙化积分扫描中机会性冠状动脉钙化和心外膜脂肪评估的机器学习预测阻塞性冠状动脉疾病
本文提出了一种使用CatBoost和SHAP的机器学习框架,通过结合钙组学和心外膜脂肪特征,从CT钙化积分扫描中预测阻塞性冠状动脉疾病,实现了高准确性。
使用大语言模型自动标注汉语叙事转录文本
本文评估了使用大语言模型自动标注汉语口语叙事宏观结构的效果,发现最佳模型在降低65%标注时间的同时,达到了接近人类水平的可靠性,但在语义复杂或词汇多样的叙事文本上性能有所下降。
基于大型语言模型引导的半监督方法用于社交媒体危机数据分类
本文对利用大型语言模型(LLM)引导的半监督学习进行社交媒体危机数据分类进行了实证评估。研究表明,在低资源场景下,LG-CoTrain 的表现优于经典基线模型,并突显了将 LLM 知识迁移至更小、更易部署的模型以支持灾害响应的潜力。