因果语言建模的短暂介入可提升编码器的继续预训练效果

Hugging Face Daily Papers 论文

摘要

本文表明,在编码器适配过程中从掩码语言建模(MLM)切换至因果语言建模(CLM),能够提升在生物医学文本上的下游任务性能。作者发布了 ModernBERT-bio 和 ModernCamemBERT-bio,作为当前最先进的生物医学编码器。

在将编码器适配到新领域时,标准做法是继续使用掩码语言建模(MLM)进行训练。我们表明,暂时切换到因果语言建模(CLM),随后进行短期的 MLM 衰减训练,可以提升下游任务的性能。在生物医学文本上,使用 ModernBERT 时,这种 CLM 的短暂介入在 8 项法语和 11 项英语生物医学任务上,均优于在相同数据和计算资源下训练的 MLM 基线,性能分别提升了 1.2-2.8 个百分点和 0.3-0.8 个百分点,具体取决于模型规模。我们调查了这些增益的原因。我们发现,CLM 的密集监督对低层 Transformer 层(0-7 层)的影响远大于 MLM。在 CLM 期间冻结低层会消除下游性能增益;而冻结中间层则能保留该增益。这些表征变化在 MLM 衰减阶段持续存在,即使该阶段长度与 CLM 阶段相当,且这些变化随模型容量扩展。我们发布了 ModernCamemBERT-bio 和 ModernBERT-bio,作为当前最先进的基础版和大型生物医学编码器。
查看原文
查看缓存全文

缓存时间: 2026/05/13 12:15

论文页面 - 编码器持续预训练中的因果语言模型捷径提升性能

来源: https://huggingface.co/papers/2605.12438

摘要

在编码器适应过程中,从掩码语言建模(Masked Language Modeling, MLM)切换到因果语言建模(Causal Language Modeling, CLM)可以通过 Transformer 低层中的密集监督效应来提升生物医学文本的下游任务性能。

在将编码器适应到新领域时,标准做法是继续使用掩码语言建模进行训练。我们表明,暂时切换到因果语言建模,随后进行短暂的 MLM 衰减,可以提升下游任务性能。在基于 ModernBERT 的生物医学文本上,这种 CLM 捷径策略在 8 个法语和 11 个英语生物医学任务上均优于使用相同数据和计算资源的 MLM 基线模型,性能提升幅度根据模型规模不同,分别为 +1.2-2.8 个百分点和 +0.3-0.8 个百分点。我们探究了这些增益产生的原因。我们发现,CLM 的密集监督对 Transformer 低层(第 0-7 层)的影响远大于 MLM。在 CLM 阶段冻结低层会消除下游收益,而冻结中间层则能保留该收益。即使在 MLM 衰减阶段与 CLM 阶段长度相同时,这些表征变化依然存在,并且随模型容量增加而增强。我们发布了 ModernCamemBERT-bio 和 ModernBERT-bio,作为基础版(Base)和大版本(Large)尺寸的目前最先进的生物医学编码器。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12438)查看 PDF (https://arxiv.org/pdf/2605.12438)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12438)

社区讨论

你好 @rntc,想法非常酷!顺便问一下,你计划发布代码吗?我想尝试将其应用于其他模型的领域自适应 😃

·

论文提交者

约 4 小时前 (https://huggingface.co/papers/2605.12438#6a0438c8b2e94ef67096345c)

发布 ModernBERT-bio 和 ModernCamemBERT-bio

通过拖拽到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处上传图片

在您的 Agent 中获取此论文:

hf papers read 2605.12438

没有安装最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 4

almanach/ModernBERT-bio-large 掩码填充• 0.4B• 更新于约 4 小时前 • 34 • 2 (https://huggingface.co/almanach/ModernBERT-bio-large)

almanach/ModernCamemBERT-bio-base 掩码填充• 更新于约 4 小时前 • 1 (https://huggingface.co/almanach/ModernCamemBERT-bio-base)

almanach/ModernCamemBERT-bio-large 掩码填充• 0.4B• 更新于约 4 小时前 • 226 • 1 (https://huggingface.co/almanach/ModernCamemBERT-bio-large)

almanach/ModernBERT-bio-base 掩码填充• 0.1B• 更新于约 4 小时前 • 32 • 1 (https://huggingface.co/almanach/ModernBERT-bio-base)

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.12438 即可从此页面建立链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.12438 即可从此页面建立链接。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面建立链接。

相似文章

m3BERT:一种现代、多语言、套娃式双向编码器

arXiv cs.CL

本文介绍了m3BERT,一种多语言双向编码器,采用新颖的预训练策略,联合优化跨Transformer层和多个嵌入维度的表示,使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上,它显著优于现有最优模型。

面向大型语言模型归因引导的持续学习

arXiv cs.LG

本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。

将结构化生物医学知识注入语言模型:持续预训练与GraphRAG对比

arXiv cs.CL

# 将结构化生物医学知识注入语言模型:持续预训练与GraphRAG 来源:[https://arxiv.org/html/2604.16422](https://arxiv.org/html/2604.16422) ###### 摘要 将领域特定知识注入模型对于使语言模型(LMs)适应生物医学等专业领域至关重要。尽管目前大多数方法依赖于非结构化文本语料库,但本研究探讨了两种利用UMLS元术语表(Metathesaurus)中结构化知识的互补策略: