词与道:面向德国医学自然语言处理的领域特定BERT预训练策略

arXiv cs.CL 论文

摘要

本文介绍了ChristBERT,一个基于RoBERTa的面向德国临床NLP的领域特定语言模型家族,并在医学命名实体识别和文本分类任务上评估了三种领域适应策略(继续预训练、从头预训练和词汇适应),取得了最先进的结果。

arXiv:2606.03250v1 公告类型: 新 摘要:数字医疗产生了大量的临床文本,可以支持AI辅助应用,然而德国生物医学语言模型仍然受限于较旧的架构或有限的训练数据。我们提出了ChristBERT(Clinical- and Healthcare-Related Issues and Subjects Tuned BERT),这是一个基于RoBERTa的领域特定德国语言模型家族,在包含科学出版物、临床文本、健康相关网络内容以及翻译后的临床资源的13.5GB语料库上进行训练。为了研究领域适应策略在德国临床NLP中的影响,我们比较了继续预训练、从头预训练和领域特定词汇适应。所得模型在三个医学命名实体识别任务和两个文本分类任务上进行了评估。ChristBERT在五个基准中的四个上持续优于现有的通用型和医学德国语言模型,并为德国临床语言建模建立了新的最先进水平。我们的结果表明,最优适应策略取决于任务:在我们的评估中,从头预训练对于高度专业化的临床文本特别有效,而继续预训练在更常见的医学文本上表现良好。所有模型均已公开发布,以支持德国医学NLP的未来研究和应用。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:38

# 词与路:面向德国医学NLP的领域特定BERT预训练策略  
来源:https://arxiv.org/html/2606.03250  

\equalcont 这些作者对本文贡献相同。  
[1,3] \fnmRaphael \surSchmitt \equalcont 这些作者对本文贡献相同。  
1] \orgdiv 计算、信息与技术学院,\orgname 慕尼黑工业大学,\orgaddress \city 慕尼黑,\country 德国  
2] \orgdiv 转化医学研究IT基础设施教席,\orgname 奥格斯堡大学应用计算机科学学院,\orgaddress \city 奥格斯堡,\country 德国  
3] \orgdiv 全科医学研究所,\orgname 弗莱堡大学医学院与医学中心,\orgaddress \country 德国  

###### 摘要  
**背景:** 数字化医疗产生了大量临床文本,这些文本具有支持AI辅助应用的潜力。然而,现有的德语生物医学语言模型要么依赖较旧的架构,要么在有限的数据上训练,这可能阻碍它们在实际场景中的性能。  
**方法:** 为了探索领域适应策略在德语临床NLP中的影响,我们开发了一系列基于RoBERTa的领域特定语言模型,统称为 ChristBERT(临床与健康相关议题和主题调优的BERT)。针对缺乏大规模德语临床语料库的问题,我们整理了一个包含科学出版物、临床文本和健康相关网络内容的13.5GB数据集。此外,我们通过翻译英语临床语料库进行数据增强。探索了三种领域适应策略:持续预训练、从头预训练、以及使用领域特定词汇表的从头预训练。  
**结果:** 所得到的模型在三个医学命名实体识别和两个文本分类任务上进行了评估。在五个任务中的四个上,我们的模型持续优于四种现有的通用型和医学型德语模型。结果表明,领域适应策略的选择显著影响下游任务性能。基于实证结果,从头预训练对高度专业化的临床文本有效,而持续预训练更适合常见医学文本。  
**结论:** ChristBERT为德语临床语言建模建立了新的最先进水平。我们的发现表明,最优领域适应策略依赖于任务,并且仍然至关重要,因为在我们的实验中,适应后的模型始终优于通用语言模型。为了支持德语医学NLP的进一步研究和应用,所有开发的模型均已公开发布。  

###### 关键词:  
自然语言处理,医学信息学,机器学习,电子健康记录,命名实体识别,文本分类,语言模型,生物医学文本挖掘,德国  

## 1 引言  

健康服务和临床流程的数字化导致医疗行业生成越来越多的文本数据,包括电子健康记录、临床笔记、医疗报告、出院小结等。虽然结构化数据经常用于卫生经济学和注册登记,但上述非结构化的临床叙述因其灵活性和高效性而受到医生记录患者临床信息的青睐,并且占当前医院系统生成数据的40%[wang2018clinical, dalianis2009stockholm]。叙述性文本数据支持临床应用的巨大潜力很早就被认识到[sager1994natural, borst1991textinfo, friedman1995architectural],最近,研究工作已转向开发人工智能(AI)辅助的医疗应用。突出的应用包括支持医疗专业人员完成任务的决策支持系统,从而减轻其工作负担并为患者提供更好的治疗[zhou2022natural]。然而,文本数据的非结构化性质以及生物医学领域的复杂性为利用其潜力带来了重大挑战。在这种背景下,自然语言处理(NLP)方法可以结构化这些信息以支持下游临床应用。  

基于Transformer[vaswani2017attention]架构的大规模预训练语言模型带来的最新NLP进展,为提取和分析临床文本中包含的知识引入了新方法。通过在大量文本语料库上进行广泛的自我监督训练,模型可以获得有价值的语言表示,从而产生高度有效的语言模型。Transformer模型如BERT(来自Transformers的双向编码器表示)[devlin2019bert]及其改进版RoBERTa[liu2019roberta]的成功,很大程度上可归因于预训练-微调范式中体现的迁移学习。在该范式中,模型首先经历资源密集型的训练过程,即使用通用文本数据进行预训练以学习语言结构。该预训练阶段是自我监督的,通过使用掩码语言建模[devlin2019bert]等目标来消除对标注数据的需求。然后,模型通过第二轮更经济的训练进行微调,以适应各种任务,使用较小的、标注的、任务特定的数据集来调整模型权重以适应当前任务和应用领域。  

直接将通用语言模型应用于特定领域可能因通用域与目标域之间的显著分布差异而限制性能。即使在同一种语言内,领域特定语言也可能与日常语言有显著不同,导致需要领域特定模型[arefeva2022tourbert]。这对于语言高度专业化和复杂的医学领域尤其成立。医学语言具有众多首字母缩写词,这些对于节省时间和空间至关重要,但可能具有歧义,需要上下文才能理解。拼写错误很常见,并且存在大量缩写词[tayefi2021challenges]。此外,医学词汇高度专业化,因为在日常语言中不常用,使得医学界之外的人不熟悉。当目标领域(如医学)与预训练数据差异较大时,可以通过额外阶段的使用大型领域特定语料库、采用相同预训练目标的领域自适应训练来改进模型。这种专门设计的医学语言模型在提高医疗文件处理效率和准确性方面具有巨大潜力[bel2019scibert, huang2019clinicalbert, peng2019transfer, lee2020biobert]。  

对于德语医学领域,BioGottBERT[lentzen2022critical]和medBERT.de[bressem2024medbert]已经证明了此类模型的有效性。然而,足够大的开源生物医学语料库的可用性有限,这主要是由于健康相关数据的敏感性,并且很大程度上局限于英语,因为英语是公认的科学语言。尽管存在这些障碍,推进医学语言模型仍然至关重要,因为它们有能力管理医院每天产生的大量文本。  

在这项工作中,我们旨在通过建立在GeistBERT[scheibleschmitt2025geistbertbreathinglifegerman]奠定的基础上,开发一个新的、全面的、基于RoBERTa架构的德语临床语言模型,以下简称ChristBERT:临床与健康相关议题和主题调优的BERT。本工作的重点在于构建一个大型德语预训练语料库,涵盖多样化的生物医学和临床文本。这些来源提供了广泛的医学语言数据,增强了模型的鲁棒性和适用性。为了实现这一点,我们利用了主要公开可用的德语医学文本数据,并通过翻译医学文本[edunov2018understanding]来增强语料库,从而产生合成德语领域文本。这种方法涉及使用神经机器翻译模型[ng2019facebook, costa2022no]翻译单语语料库,使我们能够利用大量公开可用的英语医学文本。  

基于构建的语料库,我们使用Whole Word Masking(WWM)并遵循三种不同的领域适应策略预训练了ChristBERT:(1)持续预训练,(2)使用通用词汇表的从头预训练,以及(3)使用额外先前词汇适应后的从头预训练。为了研究不同领域适应方法的效果,我们在两个领域特定的下游任务上评估了所得模型的性能:命名实体识别和分类。对下游任务性能进行了彻底评估,并与现有的医学和通用德语语言模型进行了比较。  

## 2 相关工作  

过去医学NLP研究的发展已催生出成熟的系统,用于从英语临床文本中提取信息,如MetaMap[aronson2010overview]、cTAKES[savova2010mayo]、MedLEE[friedman1995architectural, friedman2000broad]和CLAMP[soysal2018clamp]。这些系统已用于命名实体识别(NER)、关系抽取和信息检索等各种任务。此外,开放性竞赛如Informatics for Integrating Biology and the Bedside(i2b2)[uzuner20112010]、National NLP Clinical Challenges(n2c2)[henry20202018, stubbs2019cohort]以及来自Conference and Labs of the Evaluation Forum(CLEF)的CLEF eHealth挑战[crestani2019experimental]促进了数据和模型共享,进一步推动了医学NLP领域。  

迄今为止开发的系统包括基于规则的、基于机器学习的和混合模型。虽然基于规则的方法在早期发展中至关重要,但这些系统的性能受限于它们对手工规则和词典的依赖,这些难以维护且在不同临床环境中难以泛化。为了克服这些挑战,当前研究强调机器学习技术。特别是深度学习技术如递归神经网络(RNN)和卷积神经网络近年来被广泛使用,因为它们能够在充足训练数据下实现优异性能。与传统机器学习方法不同,深度神经网络通常使用Word2Vec[mikolov2013distributed]、GloVe[peters2018dissecting]或FastText[joulin2017bag]等方法将词表示为向量。这些方法通过从大型文本语料库中学习词之间的关系来创建词嵌入,消除了手动特征工程的需求。然而,这些方法将词的所有可能含义表示为一个单一向量,因此无法根据周围上下文区分不同词义。  

Vaswani等人[vaswani2017attention]引入了一种能够提供上下文词表示的新模型,称为Transformer。最初设计用于神经机器翻译,Transformer解决了RNN的两个局限性:缺乏并行化以及处理长距离依赖。它依赖于自注意力机制,该机制差异化地加权输入的各个部分。由于它没有循环操作,因此比RNN更易于并行化且计算效率更高。2019年,Devlin等人[devlin2019bert]利用原始Transformer架构的部分来开发BERT,在众多NLP任务中取得了最先进的结果。这些大规模语言模型的性能很大程度上取决于用于预训练的基础数据。与在具有高变异性的多样化文本语料库上训练的模型相比,同质文本语料库通常导致性能较差的模型[martin2020camembert]。  

最初,许多BERT研究使用英文文本进行,随后是多语言方法的努力[conneau2020unsupervised]。虽然多语言模型在众多语言的大量文本上训练,但已表明单语言模型能超越这些模型,并且在效率、预训练工作量和下游任务性能方面甚至更有益处,因为它们相比多语言模型所需的大量且多样的数据,需要的计算资源和数据集更少[scheible2020gottbert, chan2020german, martin2020camembert]。特别是使用Open Super-large Crawled ALMAnaCH coRpus(OSCAR)[suarez2019asynchronous]训练的单语言模型表现出强劲性能,受益于该语料库的规模和变异性。著名例子包括法语的CamemBERT[martin2020camembert]、德语的GottBERT[scheible2020gottbert]和荷兰语的BERTje[de2019bertje]。  

随着基于Transformer的模型在NLP中的使用日益增多,临床领域对语言模型的需求越来越大,这些模型不仅准确,而且高效、注重资源,并适合本地处理。在计算资源有限且数据隐私要求严格的环境中,小型但高性能的领域特定模型可以提供显著优势。在领域内数据上持续预训练已被证明对于提升专门临床任务的性能是有效的。在生物医学领域,最具开创性和最知名的预训练模型是BioBERT[lee2020biobert],其架构与BERT相同。遵循领域适应策略,BioBERT从在通用文本上预训练的BERT权重开始,然后使用生物医学语料库精炼这些权重,超越了原始模型,并在许多生物医学文本挖掘任务(如临床概念识别、基因-蛋白质关系抽取和生物医学问答)中取得了最先进性能。为了收集足够的开源生物医学数据,作者利用了PubMed[white2020pubmed]和PMC[pmcoa]等资源库,从摘要中获取了45亿词,从全文文章中获取了135亿词。SciBERT[bel2019scibert]采用了类似方法,保留了原始BERT配置,但将初始通用语料库替换为从Semantic Scholar随机选择的114万篇科学文章。该数据集包含82%的广泛生物医学领域论文和18%的计算机科学领域论文。通过从零开始在生物医学数据上训练,SciBERT可以利用更好地表示领域特定词分布的自定义词典。Med-BERT[liu2021med]是第一个完全在医院数据(特别是半结构化电子健康记录)上训练的模型,从而在后续预测模型中增强了性能。这些方法后来得到了改进,要么通过更新模型架构以使用BERT变体,要么通过将生物医学语料库扩展至科学文献之外的额外来源[huang2019clinicalbert, peng2019transfer]。  

大量生物医学和临床BERT模型得益于英语中丰富的公开可用生物医学数据,例如MIMIC[johnson2023mimic, johnson2023mimicnote](最大的医疗记录开放获取数据集)以及大量生物医学科学文献资源库[white2020pubmed]。然而,大多数其他语言都缺乏这些。

相似文章

将结构化生物医学知识注入语言模型:持续预训练与GraphRAG对比

arXiv cs.CL

# 将结构化生物医学知识注入语言模型:持续预训练与GraphRAG 来源:[https://arxiv.org/html/2604.16422](https://arxiv.org/html/2604.16422) ###### 摘要 将领域特定知识注入模型对于使语言模型(LMs)适应生物医学等专业领域至关重要。尽管目前大多数方法依赖于非结构化文本语料库,但本研究探讨了两种利用UMLS元术语表(Metathesaurus)中结构化知识的互补策略:

m3BERT:一种现代、多语言、套娃式双向编码器

arXiv cs.CL

本文介绍了m3BERT,一种多语言双向编码器,采用新颖的预训练策略,联合优化跨Transformer层和多个嵌入维度的表示,使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上,它显著优于现有最优模型。

因果语言建模的短暂介入可提升编码器的继续预训练效果

Hugging Face Daily Papers

本文表明,在编码器适配过程中从掩码语言建模(MLM)切换至因果语言建模(CLM),能够提升在生物医学文本上的下游任务性能。作者发布了 ModernBERT-bio 和 ModernCamemBERT-bio,作为当前最先进的生物医学编码器。

MedicalBench:评估大型语言模型以改进医学概念提取

arXiv cs.CL

MedicalBench是一个新的基准测试,用于评估大型语言模型从电子健康记录中提取医学概念的能力,重点关注隐含推理和证据支撑。它包含823个专家标注的示例,并显示当前模型表现一般,突显了提取隐含表述的医学概念的难度。