CKD风险预测中的校准、不确定性沟通与部署就绪:一项框架评估研究

arXiv cs.LG 论文

摘要

本研究评估了五种用于慢性肾脏病风险预测的机器学习分类器,发现近乎完美的内部性能在分布偏移下失效。强调在临床部署前需要校准稳定性和共形覆盖迁移。

arXiv:2605.21566v1 公告类型:新 摘要:用于慢性肾脏病(CKD)风险预测的机器学习模型通常在内测集上表现出很强的区分度分数。校准和不确定性量化受到的关注要少得多,使得临床医生无法获得关于概率输出是否准确可靠的信息。 我们基于UCI CKD数据集(400名患者,CKD患病率62.5%)训练了五种分类器:逻辑回归、随机森林、XGBoost、带Platt缩放的SVM以及高斯朴素贝叶斯。我们对每种分类器分别从校准质量、共形预测覆盖率以及一个八标准部署就绪框架进行了评估。一项分布压力测试将每个模型的最佳校准变体应用于开放获取的MIMIC-IV演示队列(97名患者,CKD患病率23.7%),以评估在患病率偏移和特征缺失情况下的行为。我们使用期望校准误差和布里尔分数测量了Platt缩放和等渗回归前后的校准效果,并通过分裂共形预测以90%边际覆盖率为目标量化了不确定性。 所有五种模型在UCI测试集上都达到了AUROC 1.00。等渗重校准将内部ECE降低至0.000-0.022。在MIMIC-IV上,AUROC降至0.48-0.58,ECE升至0.68-0.76,共形覆盖率从0.80-0.98降至0.21-0.25(目标为90%)。在部署就绪检查清单上,没有模型得分超过4分(满分16分)。 近乎完美的内部表现未能迁移。在临床预测模型部署之前,应基于外部数据评估校准稳定性和共形覆盖率。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:49

# 慢性肾脏病风险预测中的校准、不确定性沟通与部署就绪度:一项框架评估研究
来源:https://arxiv.org/html/2605.21566
###### 摘要

背景。机器学习模型在慢性肾脏病风险预测中常能在内部测试集上取得良好的区分能力。但校准评估和不确定性量化远未普及,导致临床医生缺乏可靠信息判断概率输出是否可信。目前尚无已发表的研究在同一个模型套件上,结合外部临床验证,同时评估这三个维度(校准、不确定性和结构化的部署就绪度)。

目标。在内部和外部数据上,评估五个分类器的校准质量、共形预测覆盖度以及一个八指标部署就绪度框架。

方法。基于UCI CKD数据集(400名患者,62.5%患有CKD)训练了五个分类器(逻辑回归、随机森林、XGBoost、带Platt缩放的支撑向量机、高斯朴素贝叶斯)。采用开放获取的MIMIC-IV演示队列(97名患者,23.7%患有CKD)进行分布压力测试,以评估模型在患病率偏移和特征缺失情况下的行为。校准在Platt缩放和等渗回归前后进行评估,通过期望校准误差和Brier分数量化。预测不确定性通过分裂共形预测进行评估,目标为90%边际覆盖。一个八指标部署就绪度框架评估了区分能力、校准稳定性、覆盖迁移、亚组公平性和可重复性。

结果。所有五个模型在UCI测试集上的AUROC均为1.00。等渗回归后,内部ECE降至0.000–0.022。在MIMIC-IV上,AUROC降至0.48–0.58,ECE升至0.68–0.76,共形覆盖从0.80–0.98(UCI)暴跌至0.21–0.25,远低于90%的目标。没有模型通过部署检查清单;得分范围为2至4分(满分16分)。

结论。近乎完美的内部性能在分布偏移下未能保持。在临床ML模型走向部署之前,即使内部指标看起来很强,也应评估校准稳定性和共形覆盖迁移。

关键词:慢性肾脏病,概率校准,共形预测,不确定性量化,部署就绪度,机器学习

## 1 引言

全球估计约有8.5亿人患有慢性肾脏病,1990年至2017年间全球患病率增长了33%\[9 (https://arxiv.org/html/2605.21566#bib.bib1),13 (https://arxiv.org/html/2605.21566#bib.bib2)\]。在糖尿病患者中,多达三分之一受到影响;在高收入国家的高血压患者中,这一比例约为五分之一\[9 (https://arxiv.org/html/2605.21566#bib.bib1)\]。到2040年,CKD预计将成为全球生命损失年数的第五大原因\[9 (https://arxiv.org/html/2605.21566#bib.bib1)\]。这些数字给卫生系统带来了巨大的压力,需要在肾功能不可逆丧失、最佳治疗方案关闭之前及早识别高危患者。

机器学习已被提出作为应对这一挑战的实用答案。基于电子健康记录、生物标志物面板和人口统计学变量训练的模型在国家队列研究中报告的AUROC值超过0.95\[14 (https://arxiv.org/html/2605.21566#bib.bib6),2 (https://arxiv.org/html/2605.21566#bib.bib7),15 (https://arxiv.org/html/2605.21566#bib.bib8),23 (https://arxiv.org/html/2605.21566#bib.bib9)\]。已建立的风险方程,如肾衰竭风险方程,已在北美、英国和拉丁美洲的人群中得到验证,证实算法化的CKD风险预测在技术上是可行的\[25 (https://arxiv.org/html/2605.21566#bib.bib3),17 (https://arxiv.org/html/2605.21566#bib.bib4),4 (https://arxiv.org/html/2605.21566#bib.bib5)\]。该领域在构建模型方面并不困难。困难在于模型构建之后发生了什么。

像AUROC这样的区分指标衡量的是模型是否能正确地对患者进行相对排序。它们对分配的概率分数在绝对意义上是否可信只字不提。一个AUROC为0.97的模型给真实事件率接近20%的患者分配了65%的风险分数,临床医生根据这些数字做出治疗决策时,使用的是校准不当的信息。Van Calster及其同事将校准确定为预测分析的致命弱点,指出即使区分能力看起来很强,校准不佳也经常持续存在\[27 (https://arxiv.org/html/2605.21566#bib.bib10)\]。Echouffo-Tcheugui和Kengne对CKD风险模型的系统回顾发现,在已发表的文献中,校准的评估不如区分能力常见;在所有审查的模型中,只有8个针对CKD发生和5个针对CKD进展的模型在校准方面经过了外部验证\[8 (https://arxiv.org/html/2605.21566#bib.bib11)\]。模型是存在的。但信任其概率输出的证据在很大程度上是不存在的。

问题不仅仅限于校准。Campagner及其同事回顾了医疗保健中的机器学习研究,发现只有不到4%的研究明确涉及不确定性量化\[5 (https://arxiv.org/html/2605.21566#bib.bib17)\]。一个输出概率却没有指示该数字有多大可信度的模型,会让临床医生陷入困境。Banerji及其同事直言不讳地指出:临床AI工具必须在个体患者层面传达预测不确定性,而不仅仅是汇总的性能统计\[3 (https://arxiv.org/html/2605.21566#bib.bib18)\]。预测的CKD风险为78%时,模型不确定性狭窄与不确定性高导致输出实际上不可靠时,需要截然不同的临床响应。

2023年一项为支持CDC预防指南而委托进行的系统回顾得出了一个明确的结论:在将CKD风险预测模型纳入临床指南之前,需要对其进行更好的校准和外部验证\[10 (https://arxiv.org/html/2605.21566#bib.bib30)\]。在CKD文献中,没有一项已发表的研究同时实现了这三个要求。当前临床预测模型评估的指南要求在考虑部署之前,对区分能力、校准、公平性和泛化性进行联合评估\[6 (https://arxiv.org/html/2605.21566#bib.bib24)\],而外部验证研究的设计需要注意人群可比性和特征完整性\[20 (https://arxiv.org/html/2605.21566#bib.bib25)\]。目前还没有研究在同一个模型套件上,在独立的外部队列上,联合评估多种事后校正方法下的校准、通过覆盖保证的共形框架量化不确定性,并通过结构化的多指标检查清单评估部署就绪度。

本研究填补了这一空白。使用UCI CKD数据集进行模型开发,并以MIMIC-IV作为外部验证队列,我们训练了五个覆盖临床预测中常用范围的分类器:逻辑回归、随机森林、通过XGBoost的梯度提升、具有Platt缩放概率的支撑向量机,以及高斯朴素贝叶斯。每个模型在三个维度上进行了评估:使用Platt缩放和等渗回归进行事后重校准前后的校准;通过具有正式90%边际覆盖保证的分裂共形预测进行的预测不确定性;以及基于当前报告标准(包括TRIPOD+AI\[7 (https://arxiv.org/html/2605.21566#bib.bib23)\])的结构化八指标部署就绪度框架。

本研究有三个目标:

1. 1. 在内部UCI测试集和外部MIMIC-IV队列上,量化五个CKD分类器的校准前后误差。
2. 2. 应用分裂共形预测生成具有90%覆盖保证的预测集,并确定该保证在外部数据上是否成立。
3. 3. 根据八指标部署就绪度检查清单对每个模型进行评分,并确定哪些模型(如果有)达到了负责任临床使用的阈值。

## 2 方法

### 2.1 数据集

使用了两个数据集。UCI CKD数据集作为主要训练和内部验证来源\[22 (https://arxiv.org/html/2605.21566#bib.bib28)\]。它包含来自印度韦洛尔一家医院的400份患者记录,每条记录由24个临床和实验室特征以及一个二元的CKD标签描述。在400名患者中,250名(62.5%)被诊断为CKD阳性。患者平均年龄为51.6岁(SD 17.0)。特征包括连续测量值,如血清肌酐、血尿素、血红蛋白、钠、钾和血细胞比容,以及合并症(高血压、糖尿病、冠状动脉疾病)和尿液检查结果(红细胞形态、脓细胞、细菌)的分类变量。

MIMIC-IV临床数据库演示版(版本2.2)提供了一个分布压力测试队列\[12 (https://arxiv.org/html/2605.21566#bib.bib29)\]。这是PhysioNet发布的MIMIC-IV的一个公开可用的开放访问子集,专门用于流程开发和研讨会使用;它包含来自波士顿贝斯以色列女执事医疗中心的100名去标识化患者,无需认证。这不是一个正式设计的外部验证集,其在此处的使用被明确框定为压力测试:目标是评估每个模型在应用于与训练数据具有不同患病率、缺失特征和临床背景的人群时的行为。

如果患者在首次入院时有血清肌酐数据,则纳入研究,最终得到97名患者。CKD标记使用CKD-EPI 2021无种族方程:eGFR低于60 mL/min/1.73 m²定义为CKD阳性状态。该阈值产生了23例CKD(23.7%)和74名对照。演示队列的平均年龄为61.7岁(SD 16.3)。该数据集已完全去标识化;无需人类受试者审查。

### 2.2 预处理与特征协调

UCI预处理从所有分类列的空白字符清理开始。分类特征被映射为二元0/1值。目标标签编码为CKD = 1,notCKD = 0。连续特征中的缺失值用列中位数替换;分类特征中的缺失值用列众数替换。所有400条记录在插补后无缺失值。

MIMIC协调仅使用UCI训练集的统计信息,以防止外部数据泄漏到模型流程中。UCI模式中存在的七个特征在MIMIC中并非常规记录:尿液比重、尿糖、脓细胞(分类)、脓细胞团块、细菌、食欲和脚部水肿。每个特征均根据情况用UCI训练集中位数或众数填充。血压来自ICU chartevents(项目ID 220179和220050,收缩压范围60–250 mmHg);当该来源缺失时,MIMIC门诊医疗记录表提供了备用数据。这种双来源方法为94/97名患者解析了血压。实验室值包括血清肌酐、血尿素氮、血红蛋白、白蛋白、钾、钠、葡萄糖、血细胞比容、白细胞和红细胞,均从MIMIC实验室事件表中提取,并在每个患者首次入院期间取平均值。高血压、糖尿病和冠状动脉疾病的合并症标志来自ICD-10代码(I10、E11.x、I25.x)。贫血定义为女性血红蛋白低于12 g/dL,男性低于13.5 g/dL。

### 2.3 模型套件与训练

使用分层随机抽样将记录分为训练集(70%,n = 279)、验证集(15%,n = 60)和测试集(15%,n = 61)(random_state = 42)。MIMIC演示队列完全作为压力测试集保留,没有任何记录用于任何训练、验证或校准步骤。

选择了五个分类器系列以涵盖临床ML中常见的校准行为:逻辑回归(L2正则化)、随机森林(集成方法,以过度自信的概率著称)、XGBoost(梯度提升,区分能力强但通常校准不佳)、支撑向量机(probability=True)和高斯朴素贝叶斯\[18 (https://arxiv.org/html/2605.21566#bib.bib13)\]。超参数调优使用训练集上的五折分层交叉验证,优化AUROC。逻辑回归的C在{0.001, 0.01, 0.1, 1, 10, 100}上调优。RF、XGB和SVM使用随机搜索,在定义的网格上进行最多30次迭代(完整网格见补充材料S1)。拟合模型使用joblib保存。软件:Python 3.13、scikit-learn、XGBoost、MAPIE 1.3、netcal、pandas、numpy、matplotlib、joblib;完整版本固定于requirements.txt中。

### 2.4 校准评估

针对每个模型在UCI验证集上计算校准前指标:期望校准误差(ECE,10个等宽区间)\[11 (https://arxiv.org/html/2605.21566#bib.bib12)\]、最大校准误差(MCE)、Brier分数和相对于朴素患病率基线的Brier技能分数。ECE和MCE使用netcal库。可靠性图使用scikit-learn的CalibrationDisplay。

两种事后重校准方法在验证集上拟合。Platt缩放对基础模型的原始分数拟合一个逻辑回归层\[19 (https://arxiv.org/html/2605.21566#bib.bib14)\](CalibratedClassifierCV, method='sigmoid', cv='prefit')。等渗回归拟合一个分段常数单调函数\[30 (https://arxiv.org/html/2605.21566#bib.bib15)\](method='isotonic')。在这两种情况下,FrozenEstimator防止了基础模型的任何重新拟合。测试集在拟合校准期间从未使用。

在UCI测试集上计算基础模型、Platt缩放和等渗缩放变体的校准后指标。对于外部验证,每个模型的最佳变体(在UCI测试集上ECE最低)应用于MIMIC。校准漂移是该变体的MIMIC ECE减去UCI ECE。

### 2.5 不确定性量化

通过使用MAPIE库(SplitConformalClassifier,版本1.3)的分裂共形预测量化不确定性\[26 (https://arxiv.org/html/2605.21566#bib.bib20),1 (https://arxiv.org/html/2605.21566#bib.bib19)\]。每个基础模型的共形预测器在UCI验证集(n = 60)上拟合,使用最小模糊类(LAC)一致性分数:1减去最可能类别的预测概率。目标置信度为0.90(α = 0.10),因此预测集应至少包含90%测试用例的真实标签。

在UCI测试集和MIMIC队列上计算三个指标:经验覆盖率、平均预测集大小和单一率(恰好得到一个类别标签的案例比例)。覆盖漂移是UCI覆盖率减去MIMIC覆盖率。

### 2.6 部署就绪度框架

在分析开始前定义了八个标准,借鉴了早期临床AI评估的报告标准\[28 (https://arxiv.org/html/2605.21566#bib.bib27),7 (https://arxiv.org/html/2605.21566#bib.bib23)\]。每个标准评分为通过(阈值达标,2分)、边缘(在阈值的20%以内,1分)或失败(0分),最高总分16分。

1. 1. 区分能力充分性:外部队列上的AUROC ≥ 0.85。
2. 2. 校准充分性:外部队列上的ECE ≤ 0.10。
3. 3. 校准稳定性:绝对校准漂移 ≤ 0.05。
4. 4

相似文章

大型语言模型中的置信度校准

arXiv cs.AI

本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。