语言模型作为接口,而非预言机:用于儿童阑尾炎的混合LLM-ML系统
摘要
本文介绍了ClaMPAPP,一种混合架构,使用LLM作为接口从临床叙述中提取特征,然后将这些特征传递给XGBoost分类器进行儿童阑尾炎诊断,展示了相比端到端LLM基线更高的鲁棒性和安全性。
arXiv:2606.19183v1 公告类型:新
摘要:大型语言模型(LLMs)可以通过解释自由文本文档使临床决策支持更加便捷,但它们直接用作诊断引擎时受到对提示、信息顺序以及看似合理但错误输出的敏感性的限制。结构化机器学习模型提供更稳定的风险预测,但它们需要表格输入,难以与叙述性临床工作流程集成。我们提出了ClaMPAPP(用于阑尾炎的临床语言辅助机器学习流程),这是一个混合系统,将LLM作为接口而非最终决策者。ClaMPAPP从类似笔记的叙述中提取受模式约束的临床特征,应用确定性合理性检查,并将验证后的特征传递给基于临床、实验室和超声变量训练的XGBoost分类器。我们在来自德国医院的两个独立儿童阑尾炎队列上评估了ClaMPAPP,并将其与包括开源和专有模型在内的端到端LLM基线进行了比较。为了在测试自由文本输入时保持真实情况,通过模板渲染和受约束的LLM重写从结构化电子健康记录生成叙述,并额外进行句子顺序排列以评估位置鲁棒性。ClaMPAPP在内部和外部验证中均实现了最强的整体诊断性能,同时尽可能减少了漏诊的阑尾炎病例——这是急性分诊中的关键安全问题。端到端LLM显示出不稳定的灵敏度-特异度权衡,并且在叙述重排序下性能下降更严重。这些结果支持LLM作为接口、ML作为预测器的设计,将自然语言可用性与预测推理分离,并为临床决策支持提供了更具可审计性的路径。
查看缓存全文
缓存时间: 2026/06/18 05:47
# 语言模型作为接口而非预言机:用于儿童阑尾炎的混合LLM-ML系统 来源:https://arxiv.org/html/2606.19183 Soheyl Bateni, Maryam Abdolali K. N. Toosi University of Technology, Tehran, Iran ###### 摘要 大型语言模型(LLM)在临床决策支持中的应用日益广泛,因为它们能够解读自由文本记录;然而,它们作为独立诊断引擎的使用仍受限于对提示措辞、信息顺序、启发式推理以及看似合理但错误输出的敏感性。相比之下,基于结构化临床数据训练的监督式机器学习(ML)模型可以提供稳健的风险预测,但难以与叙事性临床工作流程整合。我们提出了ClaMPAPP(面向阑尾炎的临床语言辅助机器学习流水线),这是一种混合架构,将LLM的角色从决策者重新定位为接口。该系统将类笔记的临床叙事解析为模式约束的特征表示,在推理前应用确定性合理性检查筛选不合理的提取结果,并将经过验证的特征输入到基于既定临床、实验室和超声变量训练的XGBoost分类器中。我们在来自德国医院的两个独立儿童队列中,以涵盖开源和专有模型的端到端LLM基线为对照,评估了ClaMPAPP。为了在保留真实标签的前提下实现受控评估,我们通过模板渲染和受限LLM重写从结构化电子健康记录中合成叙事,并在标准条件和旨在考察位置鲁棒性的句子顺序打乱条件下进行评估。ClaMPAPP在内部和外部验证中均取得了最强的整体诊断性能,同时最小化了阑尾炎漏诊——这是在急性分诊中最为关注的安全性结局。对比的LLM表现出不稳定的灵敏度-特异度权衡,并在叙事重排序下出现显著性能下降;相比之下,ClaMPAPP保持相对稳健,即使在相同基础模型被限制为仅进行提取而非直接分类时也是如此。这些发现支持了LLM作为接口、ML作为预测器的设计,将自然语言可用性与预测推理分离,为临床决策支持提供了一条比无约束生成式诊断更可审计且更注重安全性的路径。尽管在儿童阑尾炎中展示,但这种整合模式可容易地迁移到其他同时存在经过验证的基于ML的预测模型和叙事性临床文档的医学诊断领域。 *关键词*:儿童阑尾炎⋅大型语言模型⋅临床决策支持⋅混合AI系统⋅XGBoost ## 1 引言 急性阑尾炎是儿童急性腹痛最常见的外科病因之一[33](https://arxiv.org/html/2606.19183#bib.bib1), [44](https://arxiv.org/html/2606.19183#bib.bib2)。尽管阑尾炎可发生于任何年龄,但其发病率在青春期最高,部分原因是此时期淋巴滤泡增生更为常见。连同粪石,这种增生可阻塞阑尾管腔,促进阑尾炎的发生[33](https://arxiv.org/html/2606.19183#bib.bib1), [44](https://arxiv.org/html/2606.19183#bib.bib2)。及时诊断对年龄较小的儿童尤为重要,因为他们可能表现为非典型或非特异性症状。延迟诊断会增加严重并发症的风险,包括穿孔、弥漫性腹膜炎和脓毒症[1](https://arxiv.org/html/2606.19183#bib.bib3), [44](https://arxiv.org/html/2606.19183#bib.bib2)。这些风险使诊断过程更具挑战性。对于疑似儿童阑尾炎,超声通常被推荐为首选影像学检查,因为其安全性且无电离辐射;然而,其诊断性能仍取决于操作者经验和临床环境[31](https://arxiv.org/html/2606.19183#bib.bib4), [21](https://arxiv.org/html/2606.19183#bib.bib5), [44](https://arxiv.org/html/2606.19183#bib.bib2)。尽管计算机断层扫描(CT)具有较高的诊断准确性,但儿童接受辐射的担忧促使了基于风险的诊断路径,旨在减少不必要的CT使用[39](https://arxiv.org/html/2606.19183#bib.bib6), [44](https://arxiv.org/html/2606.19183#bib.bib2)。这些诊断限制共同凸显了需要能够整合异质性临床信息并支持更快、更安全、更一致解释的决策支持方法。 人工智能通过两种互补范式已成为满足这一需求的有前景的应对方案:监督式机器学习(ML)和大型语言模型(LLM)。基于表格化临床和超声变量训练的监督式ML模型在儿童阑尾炎及相关任务(包括管理和严重度预测)中显示出强大的诊断性能[23](https://arxiv.org/html/2606.19183#bib.bib7)。在标准化评估中,这些模型通常优于传统的基于点的评分系统[23](https://arxiv.org/html/2606.19183#bib.bib7), [36](https://arxiv.org/html/2606.19183#bib.bib8)。然而,它们与临床工作流程的整合仍然具有挑战性。大多数结构化ML预测器需要预定义的表格化输入,而现实世界实践中的临床信息通常以叙事文本形式记录。此外,模型性能可能因机构、患者群体和临床工作流程之间的数据集偏移而下降,这凸显了外部验证和稳健部署实践的必要性[7](https://arxiv.org/html/2606.19183#bib.bib9)。这种文档鸿沟使得LLM作为临床自由文本的接口具有吸引力。LLM在医学执照考试式试题中表现出色[19](https://arxiv.org/html/2606.19183#bib.bib10), [4](https://arxiv.org/html/2606.19183#bib.bib11),并且在基准临床任务上也得到了评估[41](https://arxiv.org/html/2606.19183#bib.bib12)。然而,越来越多的证据表明,在现实临床环境中,端到端的LLM决策仍然不可靠[10](https://arxiv.org/html/2606.19183#bib.bib25)。关键脆弱性包括对提示措辞的敏感性[10](https://arxiv.org/html/2606.19183#bib.bib25), [16](https://arxiv.org/html/2606.19183#bib.bib13)、对信息顺序的敏感性[10](https://arxiv.org/html/2606.19183#bib.bib25),以及生成听起来权威但错误的输出(通常称为幻觉),这可能在重要的临床决策中造成安全风险[16](https://arxiv.org/html/2606.19183#bib.bib13)。这产生了一个关键挑战:结构化ML模型可以提供有效的预测,但难以与自由文本临床叙事连接,而LLM提供了自然语言可用性,但作为自主诊断代理还不够可靠。 为了弥合自然语言可用性与诊断可靠性之间的差距,我们引入了ClaMPAPP(面向阑尾炎的临床语言辅助机器学习流水线),这是一种混合系统,将LLM重新定位为接口角色而非决策角色。ClaMPAPP使用LLM进行结构化特征提取和面向临床医生的解释,同时将风险预测委托给一个基于验证临床变量训练的XGBoost模型[6](https://arxiv.org/html/2606.19183#bib.bib45);尽管此处针对阑尾炎实例化,但同一架构是疾病无关的,原则上可以将叙事文档与其他医学专科的经过验证的表格化预测器连接起来。我们进一步加入了一个确定性的特征验证层,作为安全门,在模型推理之前检查提取的变量。尽管此组件是ClaMPAPP特有的,但其作用与医疗器械开发的良好机器学习实践原则一致,包括数据质量保证、透明度、验证和部署后监控[42](https://arxiv.org/html/2606.19183#bib.bib14)。为了在受控条件下评估这一架构,同时保留真实标签的有效性,我们通过标准化模板和基于LLM的重写步骤从真实患者表格化数据中系统性地合成叙事输入,以近似自然临床笔记。通过避免原始临床笔记处理,本设计侧重于决策支持的可靠性,而非临床NLP可能引入的潜在噪声,例如临床笔记中非标准化的缩写和拼写错误[13](https://arxiv.org/html/2606.19183#bib.bib15),以及与复制粘贴相关的文档伪影[28](https://arxiv.org/html/2606.19183#bib.bib16), [11](https://arxiv.org/html/2606.19183#bib.bib17)和复制前移做法[28](https://arxiv.org/html/2606.19183#bib.bib16),并补充了先前强调稳健临床特征提取流水线复杂性的工作[26](https://arxiv.org/html/2606.19183#bib.bib18)。在此方法论基础上,我们的具体贡献如下: 1. 我们将LLM重新定位为**特征提取器**而非**决策者**。我们的框架不是直接使用LLM进行诊断或对其进行微调用于诊断分类,而是将其约束为临床叙事的语义解析。风险估计则由结构化ML模型执行,使最终预测更加确定性、透明且可审计。 2. 我们展示了与直接LLM提示相比的**面向安全性的诊断性能**。在内部和外部队列中,ClaMPAPP实现了更高的总体F1分数,并将假阴性显著减少于独立LLM基线。漏诊阑尾炎案例的减少在急性护理分诊中尤为重要,因为假阴性带有显著的临床风险。 3. 我们通过语义不变的句子顺序排列实验展示了改进的**对叙事扰动的鲁棒性**。端到端LLM基线因位置偏差而显示出显著的性能下降,而ClaMPAPP保持相对稳定,并保留了其安全优先的诊断特性。 本文的其余部分组织如下。第2节回顾相关工作。第3节描述ClaMPAPP系统架构、研究队列和叙事生成过程。第4节展示实验设置、验证结果和鲁棒性分析。第5节讨论临床意义和局限性。最后,第6节总结全文。 ## 2 相关工作 ClaMPAPP位于儿童阑尾炎风险分层、结构化临床数据上可靠的机器学习以及LLM在医学中新兴应用的交叉点。本节总结先前工作,并论证混合“LLM作为接口,ML作为预测器”架构的必要性。 ### 2.1 儿童阑尾炎评分与ML模型 临床评分系统,包括Alvarado评分[2](https://arxiv.org/html/2606.19183#bib.bib19)和儿童阑尾炎评分(PAS)[34](https://arxiv.org/html/2606.19183#bib.bib20),被广泛用于支持儿童阑尾炎风险分层。这些工具将症状、体格检查结果和选定的实验室结果组合成数值评分,可辅助临床决策;然而,它们通常不足以作为独立的诊断测试[35](https://arxiv.org/html/2606.19183#bib.bib21)。尽管存在这些局限性,此类评分在临床上仍具有参考价值。对儿童阑尾炎数据集的评估表明,Alvarado和PAS评分在阑尾炎组和非阑尾炎组之间存在显著差异,并且是与实验室标志物(如WBC计数、中性粒细胞百分比和CRP)以及超声结果(如阑尾直径)并列的最具信息量的个体预测因子之一[23](https://arxiv.org/html/2606.19183#bib.bib7)。尽管如此,它们的常规临床应用可能受到某些输入的主观性或操作者依赖性,以及所需变量在不同临床环境中的可用性和可靠性差异的限制[23](https://arxiv.org/html/2606.19183#bib.bib7)。 为解决这些局限性,最近的工作越来越多地采用基于结构化特征训练的监督式ML分类器。在儿童阑尾炎队列中,基于树的集成方法(如随机森林和梯度提升)在诊断以及某些情况下的严重度分类方面显示出有前景的性能[15](https://arxiv.org/html/2606.19183#bib.bib22), [23](https://arxiv.org/html/2606.19183#bib.bib7)。类似地,在儿童腹痛和疑似阑尾炎队列中,随机森林和梯度提升模型在内部验证中取得了较高的AUROC,但在跨医院的外部验证下性能下降[24](https://arxiv.org/html/2606.19183#bib.bib31)。综合来看,这些发现表明基础临床变量仍然有价值,但其预测效能只有通过非线性ML而非简单加性规则进行建模才能最大化。一个关键瓶颈仍然存在:这些模型需要结构化表格输入,而现实世界的临床信息通常以自由文本形式记录。 ### 2.2 医学中的LLM:能力与可靠性 LLM正越来越多地被探索用于医疗应用,包括临床文档任务(如笔记记录和临床摘要生成)、医学问答以及支持临床推理(参见[41](https://arxiv.org/html/2606.19183#bib.bib12)及其参考文献)。像GPT-4[27](https://arxiv.org/html/2606.19183#bib.bib23)和医学导向变体(如Med-PaLM 2[40](https://arxiv.org/html/2606.19183#bib.bib24))这样的模型在医学基准测试和USMLE风格评估中取得了强大性能。尽管如此,最近的工作警告说,在医学基准测试和执照考试中的强大性能并不直接转化为安全的临床决策[10](https://arxiv.org/html/2606.19183#bib.bib25)。在现实临床环境中,基于LLM的临床工具可能受到提示表述和有限上下文信息的影响,而临床AI系统更广泛地容易受到数据集偏移的影响;这些限制可能导致不可靠或错误的输出,并强调临床医生监督和持续监控的必要性[8](https://arxiv.org/html/2606.19183#bib.bib26), [7](https://arxiv.org/html/2606.19183#bib.bib9)。此外,当LLM用于支持敏感的临床决策或总结临床叙事时,幻觉输出以及捏造或虚假信息仍然是重要的安全问题[10](https://arxiv.org/html/2606.19183#bib.bib25), [43](https://arxiv.org/html/2606.19183#bib.bib27)。LLM在医学中的应用范围正不断扩大,涵盖临床笔记记录、摘要生成以及医学问答等任务[41](https://arxiv.org/html/2606.19183#bib.bib12)。 ### 2.3 混合系统与ClaMPAPP方法 混合AI系统旨在结合不同组件的互补优势,以提高临床工作流程中的可靠性和可用性。一个突出的方法系列是……(原文在此处被截断,翻译保持原文长度)
相似文章
从结构化临床数据预测心血管风险的大语言模型
本文提出了一种混合框架,将结构化临床数据与LLM生成的叙述相结合,用于冠状动脉疾病预测,在变量提取方面实现了高保真度,并比较了机器学习模型与基于LLM的零样本和少样本分类。
MedAction:迈向主动式多轮临床诊断大语言模型
本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。
AIPatient Arena:基于电子健康记录的大语言模型在端到端临床咨询工作流中的评估
介绍了AIPatient Arena,一个基于电子健康记录的评估框架,用于评估大语言模型在临床能力的多个维度。研究揭示了在问诊和伦理方面的优势,但在处理模糊性和诊断准确性方面的弱点。
代理建模:解读黑盒大模型在医学预测中的隐含知识
研究者提出一种代理建模框架,可量化并解释黑盒大模型内部编码的医学知识,同时揭示有效关联与持续的种族偏见。
在标准化病例中评估大语言模型在动态临床决策中的表现
研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。