BERTomelo:你的葡萄牙语编码器最佳伙伴

arXiv cs.CL 论文

摘要

本文介绍了BERTomelo,一种基于ModernBERT架构预训练的下一代单语编码器,专为葡萄牙语优化。在STS和NER等下游任务中,其性能优于以往的葡萄牙语模型和多语言模型。

arXiv:2606.28999v1 公告类型:新论文 摘要:编码器已成为多项NLP任务的最先进方法,尤其是那些需要深度上下文理解的任务。虽然多语言模型提供了广泛的覆盖范围,但专用的单语编码器对于捕捉特定语言的独特词汇和句法细微差别至关重要。然而,对于葡萄牙语,现有的单语选项(如BERTimbau和Albertina)未能跟上最近的架构突破,在可扩展性和效率方面往往落后于英语基准。本文介绍了BERTomelo,一种从零开始预训练并专门针对葡萄牙语优化的下一代单语编码器。通过利用ModernBERT架构,BERTomelo克服了以往模型的局限性,提供了Base和Large版本,具有1024个token的上下文窗口以及FlashAttention和交替注意力机制等硬件级优化。该模型在ClassiCC-PT上进行了训练,这是一个包含1.06亿文档的大规模高质量葡萄牙语语料库,确保了与语言当代用法的卓越对齐。结果表明,BERTomelo不仅优于以往的葡萄牙语编码器,而且在STS和NER等下游任务中,为庞大的多语言模型提供了更稳健、更高效的替代方案。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:29

# BERTomelo:你的葡萄牙语编码器最佳伙伴
来源:https://arxiv.org/abs/2606.28999
查看 PDF (https://arxiv.org/pdf/2606.28999)

> 摘要:编码器已成为多项 NLP 任务(尤其是需要深度上下文理解的任务)的当前最优技术。虽然多语言模型提供了广泛的语言覆盖,但专用的单语编码器对于捕捉特定语言独特的词汇和句法细微差别至关重要。然而,对于葡萄牙语而言,BERTimbau 和 Albertina 等现有单语选项未能跟上最新的架构突破,其可扩展性和效率往往落后于英语基准模型。本文介绍了 BERTomelo,这是一个从零开始预训练、专门为葡萄牙语优化的新一代单语编码器。通过利用 ModernBERT 架构,BERTomelo 克服了以往模型的局限,提供了 Base 和 Large 两个版本,拥有 1,024 词元的上下文窗口,并具备 FlashAttention 和交替注意力机制等硬件级优化。该模型在 ClassiCC-PT(一个包含 1.06 亿文档的大规模高质量葡萄牙语语料库)上进行了训练,确保了与当代葡萄牙语用法的卓越对齐。结果表明,BERTomelo 不仅超越了以往的葡萄牙语编码器,还在 STS 和 NER 等下游任务中,为大规模多语言模型提供了更强大、更高效的替代方案。

## 提交历史

来自:Luís Paulo Faina Garcia [查看邮件](https://arxiv.org/show-email/542375cc/2606.28999)  
**[v1]** 2026年6月27日 星期六 16:23:17 UTC (204 KB)

相似文章

m3BERT:一种现代、多语言、套娃式双向编码器

arXiv cs.CL

本文介绍了m3BERT,一种多语言双向编码器,采用新颖的预训练策略,联合优化跨Transformer层和多个嵌入维度的表示,使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上,它显著优于现有最优模型。

BamiBERT: 一种新的基于BERT的越南语语言模型

arXiv cs.CL

BamiBERT 是一种新的基于BERT的越南语预训练语言模型,它解决了PhoBERT的局限性,支持更长的上下文,无需分词即可运行,并在多个越南语基准上取得了最先进的结果。