基于机器学习的PCR确诊衣原体检测前风险分层:患者报告数据与尿液生物标志物的应用
摘要
本研究评估了机器学习模型在利用无创患者报告数据和尿液生物标志物对沙眼衣原体感染进行检测前风险分层中的应用,展示了适中的预测性能以及两种数据类型的互补价值。
arXiv:2605.16365v1 Announce Type: new
摘要: 早期识别沙眼衣原体感染高风险个体可能有助于在资源感知筛查中优化分子检测的使用。我们评估了使用基于常规可用、无创临床数据训练的机器学习模型进行检测前风险分层(PTRS)的可行性。
对包含93份尿液样本的精选数据集(带有PCR参考标签)进行了分析,使用了三组特征:患者报告病史和症状、标准尿液分析中的尿液生物标志物,以及它们的组合。使用分层5折交叉验证和折外概率估计评估了五种监督分类器。性能通过受试者工作特征曲线下面积(AUC)和阈值相关指标进行评估,并通过bootstrap置信区间量化不确定性。
仅使用患者报告数据的模型显示出中等的区分能力(AUC最高0.72)。基于尿液生物标志物的模型显示出略低的峰值区分能力,但性能更一致,集成方法取得了最强结果。组合特征组略微提高了峰值AUC并减少了模型间的性能变异,表明鲁棒性得到改善。
研究结果表明,尿液生物标志物为PTRS提供了可靠的预测信号,与患者报告信息互补,同时特征整合增强了鲁棒性。这项工作支持将用于PTRS的无创、常规可用信息整合到筛查工作流程中,包括分散或家庭PCR场景,以优化检测优先级排序。
查看缓存全文
缓存时间: 2026/05/19 06:42
# 基于机器学习的沙眼衣原体PCR确诊前风险分层:利用患者报告数据与尿液生物标志物
来源:https://arxiv.org/html/2605.16365
###### 摘要
早期识别沙眼衣原体感染高风险个体,有助于在资源受限的筛查环境中优化分子检测的使用。本研究评估了利用机器学习模型进行检测前风险分层(PTRS)的可行性,模型基于常规可获取的非侵入性临床数据训练。
对包含93份尿液样本的精选数据集(具有PCR参考标签)进行了分析,使用三组特征:患者报告病史与症状、标准尿液分析中的尿液生物标志物,以及两者的组合。采用分层5折交叉验证结合折外概率估计,评估了五种监督分类器。通过受试者工作特征曲线下面积(AUC)和阈值相关指标评估性能,并使用bootstrap置信区间量化不确定性。
仅使用患者报告数据的模型显示出中等区分能力(AUC最高0.72)。基于尿液生物标志物的模型峰值区分能力略低,但表现更一致,集成方法效果最强。组合特征组略微提高了峰值AUC,并降低了模型间的性能变异,表明鲁棒性增强。
研究结果表明,尿液生物标志物为PTRS提供了可靠的预测信号,与患者报告的信息互补,而特征整合增强了鲁棒性。这项工作支持将非侵入性、常规可获取的信息整合到筛查工作流程的PTRS中,包括分散化或家庭PCR检测环境,以优化检测优先级。
## I. 引言
沙眼衣原体是全球最常见的细菌性性传播感染之一,估计每年在15-49岁成年人中有1.285亿新感染病例,由于许多感染者无症状,这构成了重大的公共卫生负担[1,2]。相当比例感染无症状或仅出现非特异性临床症状,导致诊断延迟和持续传播[3]。核酸扩增检测(NAATs),包括基于PCR的检测,因其高分析灵敏度和特异性而被视为诊断金标准[4,5]。然而,普遍PCR检测成本高、资源密集,在实验室能力有限或筛查需求高的环境中可能不切实际[6]。
因此,人们对检测前风险分层策略持续感兴趣,该策略有助于优先安排确认性检测[7,8]。患者报告信息,如性史、既往性传播感染和自述症状,是实验室检测前可获取的低成本、非侵入性数据源[9]。流行病学研究已证明这些因素与沙眼衣原体风险之间存在关联,但在个体水平上,其独立的预测价值仍然有限[10,11]。同时,常规收集的尿液生物标志物提供了可能反映潜在感染或炎症的客观生物学信息,但相对于患者报告数据的附加价值尚未得到充分描述[12]。
机器学习方法越来越多地被探索用于临床风险预测和决策支持,包括在性病筛查中的应用[13,14]。虽然这些方法为非线性关系建模提供了灵活性,但其在小规模临床数据集上的应用引发了关于过拟合、数据泄漏和可解释性有限的担忧。许多先前研究强调预测性能,而未充分隔离不同特征组的贡献或量化不确定性,限制了其对谨慎临床转化的实用性。
在本研究中,我们探讨了预测PCR确诊沙眼衣原体感染的可行性,使用基于(i)患者报告病史与症状、(ii)尿液生物标志物以及(iii)两者组合的机器学习模型。目标并非提出PCR的诊断替代方案,而是在受控评估框架下系统比较这些特征组,并评估其在检测前分诊中的相对预测效用。通过使用预定义特征集、保守模型复杂度、折外预测和基于bootstrap的不确定性估计,本研究旨在为资源感知筛查环境中的探索性风险分层提供透明且可重复的基线。
## II. 材料与方法
### II-A. 数据集与研究人群
该数据集来源于Selfdiagnostics Deutschland GmbH在2018年至2019年间进行的多项临床研究和检测评价队列,包括在常规性健康筛查环境中收集的尿液样本。样本来自三个主要来源:爱沙尼亚塔尔图一所大学医院进行的临床研究(UT临床研究2018);德国莱比锡进行的CE标志相关临床评价(莱比锡CE研究2019);以及在塔尔图进行的beta阶段LAMP检测评价期间收集的一小部分尿液样本。
尿液样本作为标准诊疗工作流程的一部分收集。在收集时进行样本的视觉评估,并记录为自由文本描述。沙眼衣原体的参考感染状态使用Roche cobas检测的PCR方法确定。
### II-B. 数据整理与特征工程
原始临床数据通过结构化的、基于规则的预处理流程进行整理,旨在最大化可解释性同时最小化信息泄漏。初始数据从格式化电子表格加载,之后根据数据集中提供的对照标志排除未通过内部质量控制的记录。仅保留具有有效对照状态的样本用于后续分析。来自beta阶段LAMP检测评价的样本在数据清洗中被排除,因为元数据不完整且不一致。
特征工程使用预先定义的规则进行,这些规则先验应用。在建模前,排除无方差、缺失过多或含有潜在诊断内容的变量。在适用情况下,冗余的细粒度指示符被聚合为更高级的代理变量,以减少稀疏性并提高鲁棒性。仅保留实验室检测前可获取的非侵入性特征。
尿液样本的定性视觉评估最初记录为自由文本描述。这些条目使用确定性文本解析规则进行归一化,以提取两个分类特征:样本颜色(浅色、中等、深色、未知)和样本浑浊度(无浑浊、浑浊、非常浑浊、未知)。在归一化前删除括号内注释和不一致的分隔符。编码后丢弃原始自由文本字段。
随后,工程变量先验地组织成三个语义不同的特征组,以便对不同的信息源进行受控比较:(F1) 患者报告病史与症状,(F2) 来自常规尿液分析的尿液生物标志物,(F3) 整合F1和F2的组合特征集。该分组策略在模型训练和评估中一致使用。
#### II-B1. 患者报告病史与症状 (F1)
患者报告特征包括人口统计学信息、性史、既往性传播疾病史、用药史、慢性病指标和报告的症状。分类变量采用二进制编码,性别映射为二进制指示符。
最终的F1特征集包括:性别、年龄、新性伴侣状态、近期无保护性行为、过去12个月内与新伴侣的无保护性行为、既往STD诊断、近期使用止痛药、慢性病存在、以及自述泌尿生殖系统症状,包括排尿困难、异常生殖器分泌物、经间期出血、生殖器刺激或瘙痒、以及尿急。
#### II-B2. 尿液生物标志物 (F2)
尿液生物标志物特征包括从标准尿液分析中得出的常规测量定量参数。使用不等式符号表示的半定量测量值通过预定义的解析规则转换为数值,排除方差为零或样本间缺失过多的生物标志物。该特征组代表了源自尿液分析的客观生物学信号。
最终的F2特征集包括:白细胞计数、胆红素浓度、蛋白质浓度、尿比重、pH、抗坏血酸、微量白蛋白、钙和肌酐。
#### II-B3. 组合特征集 (F3)
组合特征集 (F3) 整合了F1中的所有患者报告特征和F2中的尿液生物标志物,从而能够评估不同特征组之间的互补信息。
在各特征组内应用特征级别排除后,处理样本级别的缺失值,以确保跨特征集的模型输入一致。在最终组合特征集中包含缺失值的行被排除,相同的行索引应用于F1和F2,从而产生跨所有特征组具有相同样本数的对齐数据集。分类变量根据情况采用二进制或独热编码,删除参考类别以避免共线性。未进行插补。
该特征工程策略优先考虑透明度、可重复性和临床合理性,使得在相同的评估条件下能够对患者报告和基于生物标志物的信息进行受控比较。
### II-C. 数据清洗后的研究队列
数据清洗和质量控制后,用于机器学习的最终数据集包含93份尿液样本,其中80%为沙眼衣原体PCR阳性。清洗后队列包括68名女性参与者(73.1%)和25名男性参与者(26.9%)。清洗后队列的年龄分布如图1所示。
参见图注:图1:清洗后队列的年龄分布。
### II-D. 机器学习模型
评估了五种监督学习模型,以涵盖线性、非线性、基于集成和基于距离的决策机制,同时保持适用于小规模临床数据集的保守模型复杂度。所有模型均使用scikit-learn风格的流水线实现,以确保一致的预处理并防止交叉验证期间的数据泄漏。
在分类之前,连续特征使用z-score归一化(均值0,标准差1)进行标准化,在预处理流水线中实现。缩放参数在每个交叉验证折内仅从训练数据学习,随后应用于相应的测试数据。所有其他预处理步骤,包括特征编码和缺失数据处理,均在数据整理阶段在模型训练之前完成。
考虑以下模型:
- **逻辑回归 (LR)**:使用带L2惩罚的正则化逻辑回归模型作为透明线性基线。正则化强度固定为默认值 (C=1.0),并使用平衡类别权重处理类别不平衡。使用liblinear求解器和固定随机种子。
- **决策树 (DT)**:包含一个浅层决策树分类器以建模简单的非线性交互。树深度限制为最多四层,每个叶子节点最少五个样本。应用平衡类别权重以缓解类别不平衡。
- **随机森林 (RF)**:训练包含200棵决策树的集成,以捕获非线性关系,同时提高相对于单棵树的鲁棒性。单个树的深度和最小叶子大小限制与决策树基线一致。应用平衡类别权重。
- **极限梯度提升 (XGB)**:评估梯度提升树模型,以确定适度提升是否能改善袋装集成之外的区分能力。提升轮数固定为200,树深度有限(最大深度为3),学习率为0.1,并对样本和特征进行子采样以减少过拟合。所有超参数均先验固定。
- **k近邻 (KNN)**:包含一个基于距离的分类器作为非参数比较器。邻居数固定为7,预测按距离倒数加权。
所有模型的超参数均基于常见实践保守选择,并未使用数据集进行优化。这一设计选择反映了本研究的探索性,并优先考虑鲁棒性、可解释性和可重复性,而非最大预测性能。
### II-E. 评估协议
模型性能使用分层5折交叉验证进行评估,折 shuffling,固定随机种子为42以确保可重复性。对于每个特征集 (F1–F3) 和分类器的组合,使用交叉验证概率估计生成折外 (OOF) 预测。对于每个样本,从仅在其余折上训练的模型获得PCR确诊阳性的预测类别概率。使用固定概率阈值0.5导出二元预测。
为防止数据泄漏,建模流水线内执行的所有预处理步骤(包括特征标准化)仅在每个交叉验证折内的训练数据上拟合,随后应用于相应的测试折。交叉验证过程中未进行模型选择或超参数优化。
### II-F. 评估指标
令 yi ∈ {0,1} 表示PCR确诊感染状态(真实标签),ŷi ∈ {0,1} 表示通过将预测概率 p̂i 在固定阈值0.5处阈值化得到的预测标签。定义真阳性 (TP)、真阴性 (TN)、假阳性 (FP) 和假阴性 (FN) 如下:
TP = ∑i 1(yi=1 ∧ ŷi=1),
TN = ∑i 1(yi=0 ∧ ŷi=0),
FP = ∑i 1(yi=0 ∧ ŷi=1),
FN = ∑i 1(yi=1 ∧ ŷi=0).
灵敏度、特相似文章
CKD风险预测中的校准、不确定性沟通与部署就绪:一项框架评估研究
本研究评估了五种用于慢性肾脏病风险预测的机器学习分类器,发现近乎完美的内部性能在分布偏移下失效。强调在临床部署前需要校准稳定性和共形覆盖迁移。
从结构化临床数据预测心血管风险的大语言模型
本文提出了一种混合框架,将结构化临床数据与LLM生成的叙述相结合,用于冠状动脉疾病预测,在变量提取方面实现了高保真度,并比较了机器学习模型与基于LLM的零样本和少样本分类。
用于乳腺癌复发预测的多模态机器学习
本文探讨了整合多模态临床数据(包括治疗记录、病理报告和临床医生笔记)的方法,通过基于规则的提取和机器学习,与单模态方法相比,提高乳腺癌复发预测的准确性。
面向南非结核病诊疗的领域专用大语言模型开发与初步评估
研究人员使用QLoRA与GraphRAG对BioMistral-7B进行微调,构建面向南非结核病诊疗的LLM,在上下文对齐方面优于基座模型。
基于人口分层模型的全国性电子健康记录慢性鼻窦炎预测
本文提出了一种基于人口分层模型和混合特征选择流程的全国性电子健康记录慢性鼻窦炎预测模型,在All of Us研究计划的数据上实现了总体AUC为0.8461。