机器学习合并症指数

arXiv cs.AI 论文

摘要

本文提出了一种机器学习合并症指数(MLCI),该方法利用诊断代码和非线性学习来改善多种临床结果的风险调整,优于传统的以死亡率为中心的指数。

arXiv:2606.17450v1 公告类型:新 摘要:传统的合并症评分(例如 Charlson 和 Elixhauser 评分)广泛用于风险调整和患者分层,但存在两个关键局限性:(i) 它们主要以死亡率为中心,与其他临床结果不太一致;(ii) 其线性、基于规则的结构无法捕捉非线性的、针对特定结果的风险关系。我们提出了一种机器学习合并症指数(MLCI),通过最大化学习得分与多个临床结果之间的归一化希尔伯特-施密特独立性准则(nHSIC),将诊断代码映射为一个单一标量。MLCI 捕捉了非线性风险-结果依赖关系,并得到了一个理论的支持,该理论描述了何时可以在不同结果间实现统一的、信息丰富的入院级别排序。在多个基准电子健康记录(EHR)数据集上的实证结果表明,MLCI 在多个评估指标上优于强基线方法。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:36

# 一种机器学习驱动的合并症指数 来源:https://arxiv.org/html/2606.17450 ###### 摘要 传统的合并症评分(例如查尔森和艾利克斯豪尔)被广泛用于风险调整和患者分层,但它们有两个关键局限性:(i) 它们主要围绕死亡率设计,与其他临床结局的一致性较差;(ii) 它们线性的、基于规则的架构无法捕捉非线性、结局特异性的风险关系。我们提出了一种机器学习驱动的合并症指数(MLCI),通过最大化学习到的评分与多个临床结局之间的归一化希尔伯特-施密特独立性准则(nHSIC),将诊断代码映射到单个标量。MLCI 捕捉了非线性风险-结局依赖性,并且有理论支持,该理论刻画了何时可以跨结局实现统一的、信息量的入院层面排序。在多个基准电子健康记录(EHR)数据集上的实证结果表明,在多个评估指标上,MLCI 优于强基线方法。机器学习,ICML ## 1 引言 我们将**合并症**定义为一次入院记录中所有诊断所反映的整体严重程度和复杂性,体现在诊断代码中。合并症评分被广泛用于患者分层(Ening 等人,2015 (https://arxiv.org/html/2606.17450#bib.bib8))、风险分层(O’Hara 等人,2024 (https://arxiv.org/html/2606.17450#bib.bib9))和风险调整(Ou 等人,2012 (https://arxiv.org/html/2606.17450#bib.bib16);Quan 等人,2011 (https://arxiv.org/html/2606.17450#bib.bib19))。这些应用在很大程度上依赖于手工设计的合并症指数,这些指数将诊断信息压缩成一个单一的标量评分。然而,诸如查尔森(Charlson 等人,1987 (https://arxiv.org/html/2606.17450#bib.bib3))和艾利克斯豪尔(Elixhauser 等人,1998 (https://arxiv.org/html/2606.17450#bib.bib4);Van Walraven 等人,2009 (https://arxiv.org/html/2606.17450#bib.bib25))等传统指数有两个关键局限性。首先,作为风险指标,这些指数是为死亡率设计的,并且由于依赖预定义的合并症类别和死亡率校准的固定权重,它们通常很难泛化到其他临床结局。这削弱了基于合并症分层背后的隐含假设:即患者在一次入院期间的诊断负担会产生一个共享的入院排序,该排序在多个临床结局中都有意义(Byles 等人,2005 (https://arxiv.org/html/2606.17450#bib.bib56))。例如,涉及“病情更重”的患者入院通常比涉及“病情较轻”的患者的入院在死亡率、ICU 级别护理等结局上面临更高的风险(Kuswardhani 等人,2020 (https://arxiv.org/html/2606.17450#bib.bib21))。然而,现有指数缺乏一种原则性的方法来学习一个数据驱动的、跨这些结局一致的严重程度排序。临床医生需要的不仅仅是一个排名:他们需要一个阈值来识别需要干预的高严重程度入院(Billings 等人,2006 (https://arxiv.org/html/2606.17450#bib.bib2);Patel 等人,2021 (https://arxiv.org/html/2606.17450#bib.bib55))。传统指数使用死亡率校准的阈值来识别这类高风险群体,而不是通过学习能够反映跨结局一致性风险的阈值。其次,它们线性的、基于规则的本质限制了它们捕捉风险与结局之间非线性关系的能力。风险可能随着合并症负担非线性变化(Wei 等人,2023 (https://arxiv.org/html/2606.17450#bib.bib58);Ly 等人,2025 (https://arxiv.org/html/2606.17450#bib.bib57)),因为某些诊断组合可能放大风险(Willadsen 等人,2018 (https://arxiv.org/html/2606.17450#bib.bib59)),而额外的诊断在基线严重程度较高时其影响可能会递减。临床风险工具通常反映了这种非线性结构:SAPS II 通过逻辑函数形式的链接将严重程度映射到死亡率,而 NEWS 则使用评分阈值来标记那些快速恶化和出现严重结局风险较高的患者(Le Gall 等人,2005 (https://arxiv.org/html/2606.17450#bib.bib5);Kim 等人,2021 (https://arxiv.org/html/2606.17450#bib.bib6))。总之,这些局限性引出了指导我们方法的三个核心问题: 1. 1. 常见的医院结局在多大程度上共享一个底层的入院层面严重程度排序,使得单一评分能够跨结局一致地对入院进行排序? 2. 2. 如果存在这样的排序,我们能否以一种原则性的、数据驱动的方式学习它,同时建模结局特异性的非线性严重程度-风险联系? 3. 3. 除了对入院进行排序,我们能否学习一个阈值,以跨结局一致地隔离出一个高严重度群体? 回答这些问题需要一个能够产生单一严重程度评分,同时捕捉非线性诊断代码交互作用的模型。一个多终点的核依赖性目标使得评分能够联合捕捉与临床结局的非线性关联,从而学习到超越线性相关的共享结局相关信息。为了应对这些挑战,我们提出了**MLCI**,一种**机器学习驱动的合并症指数**,它将入院 \(i\) 的诊断代码表示 \(X_i\) 映射到标量评分 \(s_i = s_\theta(X_i) \in \mathbb{R}\)。MLCI 旨在当存在这种共享的、临床上有用的入院层面排序时,通过学习恢复它,同时允许每个结局拥有其自身的非线性严重程度-风险关系。它使用归一化希尔伯特-施密特独立性准则(nHSIC),一种基于核的、尺度可比的跨结局依赖性度量。我们通过最大化与多个临床终点的归一化依赖性来学习 \(s_i = s_\theta(X_i)\),使得评分能够捕捉共享的结局相关信息,而不会被任何单个终点主导。训练后,我们为每个结局估计独立的风险曲线,将共享评分映射到结局特定风险。我们通过一个**理论分析**来激发我们的方法,该理论刻画了何时一个学习到的单一合并症评分可以作为多个临床结局的近似共享排序。在理论中,有限样本单位是医院入院。我们假设每次入院 \(i\) 都有一个未观测到的潜在标量严重程度 \(z_i\),代表入院层面的合并症负担。\(z_i\) 的排序代表了按潜在严重程度对入院进行的排名。由于结局可能通过未知的、可能非线性的关系依赖于严重程度,目标是恢复 \(z_i\) 的排序,而不是它们的绝对尺度。因此,学习到的评分 \(s_\theta(X_i)\) 旨在从诊断特征中保留这种潜在入院层面的排序,以便潜在严重程度越高的入院获得越高的学习评分。在这种观点下,最大化 nHSIC 是对入院进行两两比较。在评分方面,它询问哪些入院在学习到的评分下是接近的。在标签方面,它询问哪些入院具有相同的二元结局。高 nHSIC 值意味着这两种两两模式一致:评分接近的入院往往具有相似的标签。然后我们研究当跨多个结局进行这种比较时会发生什么。对于每个临床结局,我们形成一个跨入院的二元标签向量,其条目指示该终点是否在给定入院发生;然后我们将这些向量中心化并跨结局堆叠。如果堆叠后的矩阵近似是秩为一的,那么结局共享一个主导的入院层面方向。这个方向给出了一个简单的阈值规则:选择其中心化后的阶梯向量与该共享方向最对齐的入院划分。我们使用这个共享成分的强度和隐含的阈值划分作为共享排序的诊断指标,而不是结局特定的偏差。总的来说,本文的主要贡献总结如下: 1. 1. **一种新颖的单一评分机器学习合并症指数。** 我们引入了 MLCI,一种数据驱动的合并症评分,通过最大化与多个临床结局的 nHSIC 来学习共享的入院层面潜在风险,并在一个一维摘要中捕捉非线性效应。 2. 2. **共享严重程度排序和阈值分层的理论。** 据我们所知,这是第一个将多结局 nHSIC 与共享单调入院层面排序联系起来的有限样本分析。当结局共享一个主导的严重程度信号时,该目标识别出一个共同的入院层面方向,并激发了一个原则性的高严重程度截止点,我们在 MIMIC-III 和 MIMIC-IV 上对此进行了评估。 3. 3. **在依赖性指标上持续提升。** 在 MIMIC-III/IV 上,MLCI 显示出最强的评分-结局依赖性,在统计依赖性度量方面优于强大的单一指标临床基线。 ## 2 相关工作 合并症指数是临床风险建模的长期基础。查尔森合并症指数(CCI)(Charlson 等人,1987 (https://arxiv.org/html/2606.17450#bib.bib3))为预定义的慢性疾病分配固定权重以预测死亡率。艾利克斯豪尔指标通过更多源于诊断的疾病扩展了 CCI,并且通常改善了对住院结局的预测(Elixhauser 等人,1998 (https://arxiv.org/html/2606.17450#bib.bib4))。Van Walraven 等人将其浓缩为单个标量评分用于住院死亡率,提高了可用性,同时保留了强大的区分能力(Van Walraven 等人,2009 (https://arxiv.org/html/2606.17450#bib.bib25))。一种常见的替代基于规则指数的方法是将诊断代码视为高维稀疏特征,并直接从数据中学习结局模型;经典的机器学习方法在临床结局预测方面仍然具有竞争力:逻辑回归可解释性强,且能匹配复杂的诊断代码死亡率模型(Cowling 等人,2021 (https://arxiv.org/html/2606.17450#bib.bib26));梯度提升树能捕捉非线性关系(Li 等人,2025 (https://arxiv.org/html/2606.17450#bib.bib27));因子分解机为多任务预测建模低秩稀疏代码交互(Yin 等人,2025 (https://arxiv.org/html/2606.17450#bib.bib28))。最近,神经模型也能够嵌入诊断代码并学习非线性聚合,包括关注 ICD 代码以预测早期住院时长和院内死亡率(Liu 等人,2020 (https://arxiv.org/html/2606.17450#bib.bib32);Harerimana 等人,2021 (https://arxiv.org/html/2606.17450#bib.bib33))。大多数临床预测模型优化单一结局的似然函数,产生任务特定的表示。一种互补的方法是通过最大化与不同结局的依赖性来学习表示。HSIC 是一种基于核的依赖性度量,具有经验中心化格拉姆矩阵估计量,可实现基于样本的独立性检验(Gretton 等人,2005 (https://arxiv.org/html/2606.17450#bib.bib35),2007 (https://arxiv.org/html/2606.17450#bib.bib36))。中心化核对齐将依赖性度量与归一化的、尺度不变的 HSIC 风格标准联系起来(Cortes 等人,2012 (https://arxiv.org/html/2606.17450#bib.bib37)),而 HSIC 也直接被用作依赖性最大化训练信号,包括优化视图间核依赖性的自监督目标(Li 等人,2021 (https://arxiv.org/html/2606.17450#bib.bib38))。HSIC 还用于预测中的非线性特征选择和生物标志物发现,以减少临床领域的冗余和维度(Takahashi 等人,2020 (https://arxiv.org/html/2606.17450#bib.bib39);Yu 等人,2023 (https://arxiv.org/html/2606.17450#bib.bib41);Dai 等人,2025 (https://arxiv.org/html/2606.17450#bib.bib40))。 ## 3 预备知识 #### 合并症指数。 当前文献中两种广泛使用的合并症指数是查尔森合并症指数(CCI)和范瓦尔拉文加权的艾利克斯豪尔合并症指数(ECI)。我们使用 Quan 等人发表的编码算法实现这两种指数(Quan 等人,2005 (https://arxiv.org/html/2606.17450#bib.bib53))。详细的符号和评分公式见附录 D (https://arxiv.org/html/2606.17450#A4)。为了明确经典指数与我们方法之间的联系,我们通过一个共同的输入-输出视角来描述 CCI 和 ECI。CCI 和范瓦尔拉文 ECI 都将一次入院的诊断代码表示 \(X_i\)(仅限于 ICD 代码)映射到一个标量指数评分 \(c_i \in \mathbb{R}\),其方法是从 \(X_i\) 中形成合并症类别指标,并用固定权重求和以总结基线疾病负担。 ## 4 问题形式化 我们的目标是开发一个**机器学习驱动的合并症评分**,它保留 CCI/ECI 的输入/输出约定:给定入院 \(i\) 的特征 \(X_i\),输出一个单一的标量评分 \(s_i := s_\theta(X_i) \in \mathbb{R}\),其中 \(s_\theta\) 是一个将入院特征映射到实数值合并症评分的神经网络。遵循 CCI/ECI 的单一指标理念,我们旨在让 \(s_\theta(X_i)\) 提供一个**共同的入院层面排序**,以捕捉跨多个临床结局的共享合并症负担。我们观察到索引为 \(i \in \{1,\dots,n\}\) 的医院入院。每次入院都有诊断代码特征 \(X_i\) 和 \(T\) 个二元临床结局。对于任务 \(t \in [T] := \{1,\dots,T\}\),记 \(y_i^{(t)} \in \{0,1\}\) 为入院 \(i\) 在任务 \(t\) 上的结局标签。结局可能缺失;令 \(M_i^{(t)} \in \{0,1\}\) 表示 \(y_i^{(t)}\) 是否被观测到。**共享潜在严重程度模型**。合并症评分虽然专为死亡率设计,但也常用于量化其他临床结局的风险,例如转入 ICU(Katz 等人,2023 (https://arxiv.org/html/2606.17450#bib.bib47))。基于这种实践,我们假设每次入院 \(i\) 都有一个未观测的实值潜在严重程度 \(z_i \in \mathbb{R}\),代表整体疾病或疾病负担。任务 \(t\) 有一个结局特定的响应曲线 \(\Pr\{y_i^{(t)}=1 \mid z_i\} = f_t(z_i)\),其中 \(f_t: \mathbb{R} \to (0,1)\) 未被假设为参数形式。因此,不同的结局可能具有不同的患病率、起始点、饱和度和噪声模式,同时仍然共享一个共同的一维严重程度信号。学习到的评分 \(s_\theta(X_i)\) 旨在在排序层面上恢复这个共享信号。也就是说,在可选的全局符号翻转之后,它应该关于实现的潜在严重程度是单调的:\(z_i\)(索引 0 和索引 1)。使用这个固定的训练词汇表,我们将训练/验证/测试划分中的诊断映射到可变长度的 token 集合 \(X_i = \{C_{i,1}, \ldots, C_{i,m_i}\}\),其中 \(m_i\) 是截断后保留的诊断 token 数量,且 \(D_{\max}=256\) 是最大保留长度。**置换不变编码器**。我们使用 DeepSets 风格的编码器(Zaher 等人,2017 (https://arxiv.org/html/2606.17450#bib.bib46))实现 \(s_\theta\)。令 \(e_j \in \mathbb{R}^d\) 为 token \(j\) 的嵌入,且 \(\phi: \mathbb{R}^d \rightarrow \mathbb{R}^d\) 为应用于每个 token 的逐元素 MLP,得到 \(h_j = \phi(e_j)\)。我们使用掩码平均池化和掩码最大池化聚合 token 特征,并将结果拼接以形成入院表示,然后通过第二个 MLP \(\rho\) 将其映射到标量:\(s_i = s_\theta(X_i) = \rho\Big(\mathrm{Agg}\big(\{\phi(e_j)\}\big)\Big) \in \mathbb{R}\)。

相似文章

用于乳腺癌复发预测的多模态机器学习

arXiv cs.LG

本文探讨了整合多模态临床数据(包括治疗记录、病理报告和临床医生笔记)的方法,通过基于规则的提取和机器学习,与单模态方法相比,提高乳腺癌复发预测的准确性。

从结构化临床数据预测心血管风险的大语言模型

arXiv cs.CL

本文提出了一种混合框架,将结构化临床数据与LLM生成的叙述相结合,用于冠状动脉疾病预测,在变量提取方面实现了高保真度,并比较了机器学习模型与基于LLM的零样本和少样本分类。

针对免疫介导疾病的专科医学语言模型

arXiv cs.CL

本文提出了一种针对免疫介导和感染性疾病的专科医学语言模型,用于从临床叙述中提取信息。该模型采用BiLSTM-CNN-Char架构,在371份病例报告的精标语料库上训练,F1得分达到0.89。