针对免疫介导疾病的专科医学语言模型
摘要
本文提出了一种针对免疫介导和感染性疾病的专科医学语言模型,用于从临床叙述中提取信息。该模型采用BiLSTM-CNN-Char架构,在371份病例报告的精标语料库上训练,F1得分达到0.89。
arXiv:2605.28838v1 公告类型:新
摘要:从自由文本的医学叙述中提取详细的临床信息,对研究人员和医疗系统来说仍是一个实际挑战。免疫介导和感染性疾病的术语在来源之间尤其不一致,这常常限制了通用自然语言处理(NLP)系统以足够粒度捕获相关生物医学概念的能力。我们开发了一个面向特定领域的命名实体识别(NER)模型,专门用于识别免疫学和感染性疾病背景下的疾病相关实体。我们与两位临床专家合作,收集并手动标注了一个包含371份病例报告的数据集,定义了十二种实体类别,涵盖免疫介导和感染性疾病以及相关症状和临床描述符。我们评估了多种建模策略,包括使用多种医疗特定嵌入的MedicalNER架构、基于BERT的令牌分类模型以及零样本NER系统。最强性能来自基于临床领域嵌入训练的Transformer模型,其F1得分达到0.89,持续优于基线和零样本方法。专门的嵌入与专家标注相结合,对于捕捉细微的疾病术语和提高跨异构生物医学文本的泛化能力特别有价值。在相同评估协议下,提示LLM基线的性能明显较低,这反映了即使有详细的提示,在生成细粒度实体边界的跨度一致输出方面仍存在困难。最终模型提供了一种结构化分析病例报告的方式,可支持下游任务,如队列识别、疾病监测和临床决策支持。
查看缓存全文
缓存时间: 2026/05/29 09:13
# 免疫介导性疾病专科医疗语言模型 来源:https://arxiv.org/html/2605.28838 \\copyrightclause 本文版权归作者所有。根据知识共享署名4.0国际许可协议(CC BY 4.0)允许使用。 \\conference [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] [[email protected]] Gursev Pirge、Yigit Gul、Ace Vo、Zhenya Nargizyan、David Talby John Snow Labs Inc.,美国特拉华州 (2026年) ###### 关键词: 自然语言处理\\sepNLP\\sep命名实体识别\\sepNER\\sep大语言模型\\sepLLM\\sep人工智能\\sepAI\\sep免疫介导性疾病\\sep感染性疾病\\sep临床文本挖掘\\sep生物医学信息抽取 ## 1 引言 临床叙述中包含有关患者症状、诊断推理和治疗选择的详细信息,而这些信息通常在结构化记录中缺失。可靠地提取这些元素对于研究以及改善临床医生对疾病的理解和管理至关重要。然而,免疫介导性疾病和感染性疾病通常以密集、特异的自由文本形式描述,使得自动解释变得困难。开发能够从这些来源中识别并结构化临床相关信息的方法,仍然是医疗NLP领域的一个核心挑战。 免疫介导性疾病和感染性疾病占全球疾病负担的很大一部分,且常表现为重叠症状。类风湿性关节炎、系统性红斑狼疮、多发性硬化症以及持续性感染等疾病会随时间演变,需要仔细审查纵向叙述以区分免疫驱动活动和感染过程。炎症、发热或器官功能障碍等症状出现在许多此类疾病中,增加了诊断的复杂性。NLP及其他AI方法提供了一种系统化组织大量非结构化文本的途径,支持早期检测、队列构建及疾病轨迹评估等任务。 尽管近期进展提升了临床NLP的能力,但通用系统在处理免疫学和感染性疾病中使用的专业术语时仍面临困难。疾病描述的变异性、临床措辞的频繁歧义以及高质量标注数据集的稀缺,都降低了现有模型的准确性。为解决这些不足,我们收集了一个包含371篇病例报告的语料库,这些报告来自PubMed、Europe PMC、ScienceDirect、Google Scholar和MedRxiv。两位临床专家使用Generative AI Lab[genai-lab]对数据集进行了标注,定义了十二种实体类型,涵盖免疫介导性疾病和感染性疾病以及相关症状和一般医学概念。此外,还创建了额外的改写示例以增加语言多样性并提高模型的鲁棒性。 利用此数据集,我们训练了多种架构,发现结合字符级表征的双向长短期记忆-卷积神经网络(BiLSTM-CNN-Char)表现最佳,F1得分达到0.89。这项工作展示了将领域专业知识与定制NLP方法相结合的重要性,并为从自由文本文档中提取免疫学和感染相关信息提供了一个实用框架。此类工具可支持多种下游应用,包括临床决策支持、疾病监测和转化研究。 ### 1.1 动机 为了说明该流水线在实际中的运作方式,我们将最终的NER模型应用于描述一名系统性红斑狼疮(SLE)患者的临床叙述。SLE由于其异质性表现以及临床记录中常见的多种治疗和实验室标志物,是一个有用的测试案例。所选文本经过完整流水线处理,从实体提取开始。 图2(https://arxiv.org/html/2605.28838#A1.F2)(附录)展示了NER阶段的模型输出。系统准确识别了对应Immune_Mediated_Disease、Symptom、Treatment、Other_Disease_Disorder和Biomarker的实体。关键提及项——包括系统性红斑狼疮、关节痛、蝶形红斑、吗替麦考酚酯、ANA和抗dsDNA抗体——均以正确的边界和标签被检测到。这些结果表明,该模型能处理常见及细微的临床术语,并能可靠地将非结构化文本转换为结构化表示。 在下一步中,我们应用Spark NLP关系抽取模型来确定抽取实体之间的相互关系。由此生成的SLE知识图谱,使用NetworkX[networkx]构建并显示于图3(https://arxiv.org/html/2605.28838#A1.F3)(附录),映射了临床相关关联,如Immune_Mediated_Disease–Symptom、Immune_Mediated_Disease–Treatment和Immune_Mediated_Disease–Biomarker。该图谱正确地将SLE与特征性表现(如光敏感、关节痛)、共病(高血压、骨量减少)、常用疗法(羟氯喹、皮质类固醇)以及免疫学标志物(ANA、抗dsDNA)联系起来。 总之,本例展示了NER与关系抽取流水线的结合如何自动将叙述性临床描述转化为结构化、可解释的知识表示。这些输出可支持一系列下游应用,包括决策支持工具、疾病注册库填充以及针对免疫介导性疾病的生物医学知识图谱构建。该案例研究凸显了该模型在真实临床和研究工作流程中的实际准备就绪状态。 ### 1.2 先前工作 近年来,感染性疾病与免疫介导性疾病(IMD)及临床NLP交叉领域的研究显著扩展。许多研究表明,将NER系统定制化应用于生物医学子领域,能有效改善病例识别、队列构建和疾病监测等任务[navarro2023]。针对特定疾病的研究展示了NLP工具如何从自由文本来源中捕获复杂的IMD表型。Remaki等人[remaki2025]使用EHR数据设计了一个多组件NLP流水线用于免疫介导性炎症性疾病(IMID),而Kocaman等人[kocaman2025]评估了超过138,000份临床笔记上的预训练临床NER模型,报告了高精确度值。架构和语言适配也提升了在资源有限的子语言和子领域中的生物医学NER性能[murakami2023, sun2025, cao2024]。 在更广泛的层面,基于Transformer的模型在提取、分类和表型任务中持续优于规则驱动和统计系统[li2022]。然而,专门针对感染性疾病和免疫介导性疾病联合领域的研究相对较少。本研究通过呈现一个临床医生标注的语料库以及一个专为改善免疫学和感染性疾病上下文实体识别而设计的NER模型,来填补这一空白。 ## 2 方法 领域特定NER模型的开发遵循了一个顺序工作流程,结合了数据收集、专家标注、模型训练和迭代优化。临床叙述从多个开放获取的生物医学来源收集,并选择以涵盖多种语言风格和诊断背景。与临床专家合作制定了标注指南,以标准化疾病、症状及相关实体的标记方式。模型使用Spark NLP for Healthcare中可用的BiLSTM-CNN-Char架构进行训练,该架构结合了预训练的临床嵌入。性能通过标准评估指标——精确度、召回率和F1——以及定性错误审查进行评估。每轮训练后的反馈用于修订语料库和标注方案,使系统收敛至稳定且可泛化的性能。 ### 2.1 数据来源 临床病例报告和叙述性描述从PubMed、ScienceDirect、MedRxiv和Google Scholar收集。选择这些库以覆盖与免疫介导性和感染性疾病相关的同行评审及预印本文献。为解决罕见病例和少描述症状的有限可用性,我们补充了旨在模仿典型病例报告措辞和叙述结构的合成示例。 IMD数据集通过八批次迭代构建,以确保免疫介导性和感染性疾病叙述的广泛覆盖(表4(https://arxiv.org/html/2605.28838#A2.T4)(附录))。初始语料库包含52篇PubMed病例报告,作为实体定义和指南细化的基础。后续批次通过真实世界和合成材料扩展数据集,平衡临床多样性和实体代表性。合成样本使用多个大语言模型平台生成。后期批次引入了长篇幅和聚焦式合成文档,强调复杂或罕见实体,如Geographical_Location、Fungal_Infection和Bacterial_Infection。总体而言,数据集包含来自异质来源的数百篇已标注文本,确保了适合领域特定NER模型训练的语言变异性、主题多样性和实体丰富性。 #### 2.1.1 迭代改进工作流程 模型开发依赖于训练、评估和语料库优化的迭代循环。每轮评估后,对错误分类的实体和边界错误进行审查,并对标注指南进行必要调整,尤其是在早期阶段。添加额外示例以解决重复出现的错误模式。然后在扩展的数据集上重新训练模型。此循环——总结于图4(https://arxiv.org/html/2605.28838#A1.F4)(附录)——持续进行,直至性能指标趋于平稳,且人工检查确认模型在临床文本的多样性上具有良好的泛化能力。 #### 2.1.2 实体模式 创建了标注指南(AG)来定义免疫介导性疾病和感染性疾病概念的实体模式。该模式包含12种实体类型(表5(https://arxiv.org/html/2605.28838#A2.T5)(附录)),涵盖疾病、症状、治疗、诊断程序及相关生物医学概念。指南规定了包含和排除规则、缩写处理以及边界约定。对有歧义的情况与临床专家进行了讨论,并提供了说明性示例以帮助标注员在文档间一致地应用该模式。 #### 2.1.3 标注过程 鉴于高质量标注对于训练NER模型的重要性,语料库通过严格的专家驱动流程开发。由两位医学博士进行标注,在处理复杂临床叙述(其中细微差别影响标签准确性)时,这种方法尤为重要。实现强标注员间一致性(IAA)不仅需要临床专业知识,还需要清晰且设计良好的标注指南[boguslav2017]。 标注使用John Snow Labs Generative AI Lab[genai-lab]进行,这是一个安全且专业的环境,用于产生高质量的医疗NLP训练数据。该平台将AI辅助预标注与人工审查相结合,允许标注员验证和修正建议的标签。对于每个批次,基于早期数据训练的模型提供初步标签,然后由临床专家审查和细化。这种人在回路的工作流程减少了人工工作量,同时保持了专家级准确性。平台自动跟踪版本控制、标注一致性和跨批次IAA,确保透明且可复现的标注过程。 #### 2.1.4 模型架构与训练 NER模型使用Spark NLP中的*NerModelApproach*标注器[medicalner-doc]进行训练。该方法采用一种神经架构,整合了字符级卷积神经网络(Char-CNNs)、双向长短期记忆(BiLSTM)层以及条件随机场(CRF)分类器[kocaman2020, kocaman2022]。Char-CNN组件捕获形态特征和子词模式,而BiLSTM层则建模序列中的上下文依赖关系。CRF层强制进行有效的标签转换,并提高最终标签序列的一致性。超参数通过经验进行调整,最终配置总结于表6(https://arxiv.org/html/2605.28838#A2.T6)(附录)。训练后的模型作为流水线中的主要实体提取组件。 #### 2.1.5 评估指标 模型性能使用通过scikit-learn[sklearn-doc]中的classification_report函数计算的精确度、召回率和F1得分进行评估。指标在实体级别计算,以评估标签准确性和边界检测。报告了微平均、宏平均和加权平均,以提供跨常见和罕见实体类型的性能互补视角。 评估在占标注语料库20%的保留测试集上进行。该子集在模型开发和超参数调优期间未曾参与。将预测结果与黄金标准标注进行比较,生成特定实体和整体性能得分。每次训练批次后进行错误分析,标注员审查错误分类的跨度和不完整标签。修正内容整合回语料库以提高标注一致性,有助于后续训练阶段的性能提升。 ## 3 结果 ### 3.1 数据集概览 最终标注的数据集包含371篇临床和生物医学叙述,涵盖广泛的免疫介导性和感染性疾病表现。这包括正式病例报告、较短的临床描述以及为增加措辞和上下文变异性而创建的合成文档。在八个开发批次中,语料库增长至约149,000个词元,约有22,000个标注实体,分布在十二个实体类别中(表7(https://arxiv.org/html/2605.28838#A2.T7)(附录))。 图5(https://arxiv.org/html/2605.28838#A1.F5)(附录)展示了Generative AI Lab中的一个示例标注屏幕。彩色编码标签反映了项目的实体模式,允许标注员直接在临床叙述中验证跨度边界。该示例还说明了重叠或共存的疾病过程——这在免疫和感染性疾病中常见——是如何被一致识别的。 ### 3.2 标注过程指标 表8(https://arxiv.org/html/2605.28838#A2.T8)(附录)总结了标注平台捕获的统计数据,包括任务长度、标注时间、编辑频率和后处理活动。这些指标提供了标注员工作负载以及跨批次所需修正程度的洞察。标注员间一致性(IAA)得分为89%,表明审查员之间具有强一致性,并反映了指南的清晰度以及临床专业知识在解决歧义案例中的益处。 ### 3.3 模型性能 最终IMD NER模型在各实体类型上取得了稳健的性能,宏平均F1得分为0.89,
相似文章
同一位患者,不同的表述,不同的诊断?评估临床大语言模型的语义稳定性
本文提出了一种基于自然语言推理(NLI)的语义验证框架,用于评估临床大语言模型对保留语义的提示变化的敏感性,并引入了MVS、ΔC和WCI等度量指标。结果表明,领域专业化并不能持续提高鲁棒性,领域专用模型和通用模型的表现均参差不齐。
ClinicalMC:面向大语言模型的多疗程临床决策基准
ClinicalMC是一个基准,旨在评估大语言模型在多疗程临床决策中的表现,包含中文和英文数据集以及一个多智能体评估框架。
MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试
MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。
在标准化病例中评估大语言模型在动态临床决策中的表现
研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。
语言模型能否识别乳腺癌放疗的副作用?
本文提出了一种面向部署的压力测试框架,用于评估大型语言模型在识别乳腺癌放疗副作用方面的表现。该研究揭示了LLM在可靠性方面的局限性,例如对文档细微变化的敏感性以及对罕见副作用的低召回率,表明以临床医生整理的清单为输出依据可提高鲁棒性。