因果语言建模的短暂介入可提升编码器的继续预训练效果
摘要
本文表明,在编码器适配过程中从掩码语言建模(MLM)切换至因果语言建模(CLM),能够提升在生物医学文本上的下游任务性能。作者发布了 ModernBERT-bio 和 ModernCamemBERT-bio,作为当前最先进的生物医学编码器。
查看缓存全文
缓存时间: 2026/05/13 12:15
论文页面 - 编码器持续预训练中的因果语言模型捷径提升性能
来源: https://huggingface.co/papers/2605.12438
摘要
在编码器适应过程中,从掩码语言建模(Masked Language Modeling, MLM)切换到因果语言建模(Causal Language Modeling, CLM)可以通过 Transformer 低层中的密集监督效应来提升生物医学文本的下游任务性能。
在将编码器适应到新领域时,标准做法是继续使用掩码语言建模进行训练。我们表明,暂时切换到因果语言建模,随后进行短暂的 MLM 衰减,可以提升下游任务性能。在基于 ModernBERT 的生物医学文本上,这种 CLM 捷径策略在 8 个法语和 11 个英语生物医学任务上均优于使用相同数据和计算资源的 MLM 基线模型,性能提升幅度根据模型规模不同,分别为 +1.2-2.8 个百分点和 +0.3-0.8 个百分点。我们探究了这些增益产生的原因。我们发现,CLM 的密集监督对 Transformer 低层(第 0-7 层)的影响远大于 MLM。在 CLM 阶段冻结低层会消除下游收益,而冻结中间层则能保留该收益。即使在 MLM 衰减阶段与 CLM 阶段长度相同时,这些表征变化依然存在,并且随模型容量增加而增强。我们发布了 ModernCamemBERT-bio 和 ModernBERT-bio,作为基础版(Base)和大版本(Large)尺寸的目前最先进的生物医学编码器。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12438)查看 PDF (https://arxiv.org/pdf/2605.12438)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12438)
社区讨论
你好 @rntc,想法非常酷!顺便问一下,你计划发布代码吗?我想尝试将其应用于其他模型的领域自适应 😃
·
论文提交者
约 4 小时前 (https://huggingface.co/papers/2605.12438#6a0438c8b2e94ef67096345c)
发布 ModernBERT-bio 和 ModernCamemBERT-bio
通过拖拽到文本输入框、粘贴或点击此处上传图片、音频和视频。
点击或粘贴此处上传图片
在您的 Agent 中获取此论文:
hf papers read 2605.12438
没有安装最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 4
almanach/ModernBERT-bio-large 掩码填充• 0.4B• 更新于约 4 小时前 • 34 • 2 (https://huggingface.co/almanach/ModernBERT-bio-large)
almanach/ModernCamemBERT-bio-base 掩码填充• 更新于约 4 小时前 • 1 (https://huggingface.co/almanach/ModernCamemBERT-bio-base)
almanach/ModernCamemBERT-bio-large 掩码填充• 0.4B• 更新于约 4 小时前 • 226 • 1 (https://huggingface.co/almanach/ModernCamemBERT-bio-large)
almanach/ModernBERT-bio-base 掩码填充• 0.1B• 更新于约 4 小时前 • 32 • 1 (https://huggingface.co/almanach/ModernBERT-bio-base)
引用此论文的数据集 0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.12438 即可从此页面建立链接。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2605.12438 即可从此页面建立链接。
包含此论文的集合 0
没有包含此论文的集合
将此论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
m3BERT:一种现代、多语言、套娃式双向编码器
本文介绍了m3BERT,一种多语言双向编码器,采用新颖的预训练策略,联合优化跨Transformer层和多个嵌入维度的表示,使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上,它显著优于现有最优模型。
面向大型语言模型归因引导的持续学习
本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。
词与道:面向德国医学自然语言处理的领域特定BERT预训练策略
本文介绍了ChristBERT,一个基于RoBERTa的面向德国临床NLP的领域特定语言模型家族,并在医学命名实体识别和文本分类任务上评估了三种领域适应策略(继续预训练、从头预训练和词汇适应),取得了最先进的结果。
将结构化生物医学知识注入语言模型:持续预训练与GraphRAG对比
# 将结构化生物医学知识注入语言模型:持续预训练与GraphRAG 来源:[https://arxiv.org/html/2604.16422](https://arxiv.org/html/2604.16422) ###### 摘要 将领域特定知识注入模型对于使语言模型(LMs)适应生物医学等专业领域至关重要。尽管目前大多数方法依赖于非结构化文本语料库,但本研究探讨了两种利用UMLS元术语表(Metathesaurus)中结构化知识的互补策略:
数据受限的语言模型预训练:改进的正则化与缩放定律
本文研究数据受限的语言模型预训练,提出了掩码输入正则化(MIR)以改进验证损失和下游性能,以及SoftQ,一种更好地捕捉重复数据下模型与数据交互的缩放定律。