BERTomelo：你的葡萄牙语编码器最佳伙伴

arXiv cs.CL 2026/06/30 04:00 论文

portuguese-encoder monolingual-model modernbert pre-training natural-language-processing ner sts

摘要

本文介绍了BERTomelo，一种基于ModernBERT架构预训练的下一代单语编码器，专为葡萄牙语优化。在STS和NER等下游任务中，其性能优于以往的葡萄牙语模型和多语言模型。

arXiv:2606.28999v1 公告类型：新论文摘要：编码器已成为多项NLP任务的最先进方法，尤其是那些需要深度上下文理解的任务。虽然多语言模型提供了广泛的覆盖范围，但专用的单语编码器对于捕捉特定语言的独特词汇和句法细微差别至关重要。然而，对于葡萄牙语，现有的单语选项（如BERTimbau和Albertina）未能跟上最近的架构突破，在可扩展性和效率方面往往落后于英语基准。本文介绍了BERTomelo，一种从零开始预训练并专门针对葡萄牙语优化的下一代单语编码器。通过利用ModernBERT架构，BERTomelo克服了以往模型的局限性，提供了Base和Large版本，具有1024个token的上下文窗口以及FlashAttention和交替注意力机制等硬件级优化。该模型在ClassiCC-PT上进行了训练，这是一个包含1.06亿文档的大规模高质量葡萄牙语语料库，确保了与语言当代用法的卓越对齐。结果表明，BERTomelo不仅优于以往的葡萄牙语编码器，而且在STS和NER等下游任务中，为庞大的多语言模型提供了更稳健、更高效的替代方案。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:29

# BERTomelo：你的葡萄牙语编码器最佳伙伴
来源：https://arxiv.org/abs/2606.28999
查看 PDF (https://arxiv.org/pdf/2606.28999)

> 摘要：编码器已成为多项 NLP 任务（尤其是需要深度上下文理解的任务）的当前最优技术。虽然多语言模型提供了广泛的语言覆盖，但专用的单语编码器对于捕捉特定语言独特的词汇和句法细微差别至关重要。然而，对于葡萄牙语而言，BERTimbau 和 Albertina 等现有单语选项未能跟上最新的架构突破，其可扩展性和效率往往落后于英语基准模型。本文介绍了 BERTomelo，这是一个从零开始预训练、专门为葡萄牙语优化的新一代单语编码器。通过利用 ModernBERT 架构，BERTomelo 克服了以往模型的局限，提供了 Base 和 Large 两个版本，拥有 1,024 词元的上下文窗口，并具备 FlashAttention 和交替注意力机制等硬件级优化。该模型在 ClassiCC-PT（一个包含 1.06 亿文档的大规模高质量葡萄牙语语料库）上进行了训练，确保了与当代葡萄牙语用法的卓越对齐。结果表明，BERTomelo 不仅超越了以往的葡萄牙语编码器，还在 STS 和 NER 等下游任务中，为大规模多语言模型提供了更强大、更高效的替代方案。

## 提交历史

来自：Luís Paulo Faina Garcia [查看邮件](https://arxiv.org/show-email/542375cc/2606.28999)  
**[v1]** 2026年6月27日 星期六 16:23:17 UTC (204 KB)

BERTomelo：你的葡萄牙语编码器最佳伙伴

相似文章

m3BERT：一种现代、多语言、套娃式双向编码器

LegalBench-BR：评估大语言模型在巴西法律判决分类上的基准

Toten：基于知识的本体化标记化——巴西葡萄牙语中物理量和技术符号的标记化

UR-BERT：通过通用罗马化和语音令牌预测实现大规模多语言TTS的文本编码器扩展

BamiBERT: 一种新的基于BERT的越南语语言模型

提交意见反馈