因果语言建模的短暂介入可提升编码器的继续预训练效果

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

本文表明，在编码器适配过程中从掩码语言建模（MLM）切换至因果语言建模（CLM），能够提升在生物医学文本上的下游任务性能。作者发布了 ModernBERT-bio 和 ModernCamemBERT-bio，作为当前最先进的生物医学编码器。

在将编码器适配到新领域时，标准做法是继续使用掩码语言建模（MLM）进行训练。我们表明，暂时切换到因果语言建模（CLM），随后进行短期的 MLM 衰减训练，可以提升下游任务的性能。在生物医学文本上，使用 ModernBERT 时，这种 CLM 的短暂介入在 8 项法语和 11 项英语生物医学任务上，均优于在相同数据和计算资源下训练的 MLM 基线，性能分别提升了 1.2-2.8 个百分点和 0.3-0.8 个百分点，具体取决于模型规模。我们调查了这些增益的原因。我们发现，CLM 的密集监督对低层 Transformer 层（0-7 层）的影响远大于 MLM。在 CLM 期间冻结低层会消除下游性能增益；而冻结中间层则能保留该增益。这些表征变化在 MLM 衰减阶段持续存在，即使该阶段长度与 CLM 阶段相当，且这些变化随模型容量扩展。我们发布了 ModernCamemBERT-bio 和 ModernBERT-bio，作为当前最先进的基础版和大型生物医学编码器。

查看原文

查看缓存全文

缓存时间: 2026/05/13 12:15

论文页面 - 编码器持续预训练中的因果语言模型捷径提升性能

来源: https://huggingface.co/papers/2605.12438

摘要

在编码器适应过程中，从掩码语言建模（Masked Language Modeling, MLM）切换到因果语言建模（Causal Language Modeling, CLM）可以通过 Transformer 低层中的密集监督效应来提升生物医学文本的下游任务性能。

在将编码器适应到新领域时，标准做法是继续使用掩码语言建模进行训练。我们表明，暂时切换到因果语言建模，随后进行短暂的 MLM 衰减，可以提升下游任务性能。在基于 ModernBERT 的生物医学文本上，这种 CLM 捷径策略在 8 个法语和 11 个英语生物医学任务上均优于使用相同数据和计算资源的 MLM 基线模型，性能提升幅度根据模型规模不同，分别为 +1.2-2.8 个百分点和 +0.3-0.8 个百分点。我们探究了这些增益产生的原因。我们发现，CLM 的密集监督对 Transformer 低层（第 0-7 层）的影响远大于 MLM。在 CLM 阶段冻结低层会消除下游收益，而冻结中间层则能保留该收益。即使在 MLM 衰减阶段与 CLM 阶段长度相同时，这些表征变化依然存在，并且随模型容量增加而增强。我们发布了 ModernCamemBERT-bio 和 ModernBERT-bio，作为基础版（Base）和大版本（Large）尺寸的目前最先进的生物医学编码器。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12438)查看 PDF (https://arxiv.org/pdf/2605.12438)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12438)

社区讨论

你好 @rntc，想法非常酷！顺便问一下，你计划发布代码吗？我想尝试将其应用于其他模型的领域自适应 😃

论文提交者

约 4 小时前 (https://huggingface.co/papers/2605.12438#6a0438c8b2e94ef67096345c)

发布 ModernBERT-bio 和 ModernCamemBERT-bio

通过拖拽到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处上传图片

在您的 Agent 中获取此论文：

hf papers read 2605.12438

没有安装最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 4

almanach/ModernBERT-bio-large 掩码填充• 0.4B• 更新于约 4 小时前 • 34 • 2 (https://huggingface.co/almanach/ModernBERT-bio-large)

almanach/ModernCamemBERT-bio-base 掩码填充• 更新于约 4 小时前 • 1 (https://huggingface.co/almanach/ModernCamemBERT-bio-base)

almanach/ModernCamemBERT-bio-large 掩码填充• 0.4B• 更新于约 4 小时前 • 226 • 1 (https://huggingface.co/almanach/ModernCamemBERT-bio-large)

almanach/ModernBERT-bio-base 掩码填充• 0.1B• 更新于约 4 小时前 • 32 • 1 (https://huggingface.co/almanach/ModernBERT-bio-base)

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.12438 即可从此页面建立链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.12438 即可从此页面建立链接。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面建立链接。

因果语言建模的短暂介入可提升编码器的继续预训练效果

论文页面 - 编码器持续预训练中的因果语言模型捷径提升性能

摘要

社区讨论

引用此论文的模型 4

almanach/ModernBERT-bio-large 掩码填充• 0.4B• 更新于约 4 小时前 • 34 • 2 (https://huggingface.co/almanach/ModernBERT-bio-large)

almanach/ModernCamemBERT-bio-base 掩码填充• 更新于约 4 小时前 • 1 (https://huggingface.co/almanach/ModernCamemBERT-bio-base)

almanach/ModernCamemBERT-bio-large 掩码填充• 0.4B• 更新于约 4 小时前 • 226 • 1 (https://huggingface.co/almanach/ModernCamemBERT-bio-large)

almanach/ModernBERT-bio-base 掩码填充• 0.1B• 更新于约 4 小时前 • 32 • 1 (https://huggingface.co/almanach/ModernBERT-bio-base)

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的集合 0

相似文章

m3BERT：一种现代、多语言、套娃式双向编码器

面向大型语言模型归因引导的持续学习

词与道：面向德国医学自然语言处理的领域特定BERT预训练策略

将结构化生物医学知识注入语言模型：持续预训练与GraphRAG对比

数据受限的语言模型预训练：改进的正则化与缩放定律

提交意见反馈