BERTomelo:你的葡萄牙语编码器最佳伙伴
摘要
本文介绍了BERTomelo,一种基于ModernBERT架构预训练的下一代单语编码器,专为葡萄牙语优化。在STS和NER等下游任务中,其性能优于以往的葡萄牙语模型和多语言模型。
arXiv:2606.28999v1 公告类型:新论文
摘要:编码器已成为多项NLP任务的最先进方法,尤其是那些需要深度上下文理解的任务。虽然多语言模型提供了广泛的覆盖范围,但专用的单语编码器对于捕捉特定语言的独特词汇和句法细微差别至关重要。然而,对于葡萄牙语,现有的单语选项(如BERTimbau和Albertina)未能跟上最近的架构突破,在可扩展性和效率方面往往落后于英语基准。本文介绍了BERTomelo,一种从零开始预训练并专门针对葡萄牙语优化的下一代单语编码器。通过利用ModernBERT架构,BERTomelo克服了以往模型的局限性,提供了Base和Large版本,具有1024个token的上下文窗口以及FlashAttention和交替注意力机制等硬件级优化。该模型在ClassiCC-PT上进行了训练,这是一个包含1.06亿文档的大规模高质量葡萄牙语语料库,确保了与语言当代用法的卓越对齐。结果表明,BERTomelo不仅优于以往的葡萄牙语编码器,而且在STS和NER等下游任务中,为庞大的多语言模型提供了更稳健、更高效的替代方案。
查看缓存全文
缓存时间: 2026/06/30 05:29
# BERTomelo:你的葡萄牙语编码器最佳伙伴 来源:https://arxiv.org/abs/2606.28999 查看 PDF (https://arxiv.org/pdf/2606.28999) > 摘要:编码器已成为多项 NLP 任务(尤其是需要深度上下文理解的任务)的当前最优技术。虽然多语言模型提供了广泛的语言覆盖,但专用的单语编码器对于捕捉特定语言独特的词汇和句法细微差别至关重要。然而,对于葡萄牙语而言,BERTimbau 和 Albertina 等现有单语选项未能跟上最新的架构突破,其可扩展性和效率往往落后于英语基准模型。本文介绍了 BERTomelo,这是一个从零开始预训练、专门为葡萄牙语优化的新一代单语编码器。通过利用 ModernBERT 架构,BERTomelo 克服了以往模型的局限,提供了 Base 和 Large 两个版本,拥有 1,024 词元的上下文窗口,并具备 FlashAttention 和交替注意力机制等硬件级优化。该模型在 ClassiCC-PT(一个包含 1.06 亿文档的大规模高质量葡萄牙语语料库)上进行了训练,确保了与当代葡萄牙语用法的卓越对齐。结果表明,BERTomelo 不仅超越了以往的葡萄牙语编码器,还在 STS 和 NER 等下游任务中,为大规模多语言模型提供了更强大、更高效的替代方案。 ## 提交历史 来自:Luís Paulo Faina Garcia [查看邮件](https://arxiv.org/show-email/542375cc/2606.28999) **[v1]** 2026年6月27日 星期六 16:23:17 UTC (204 KB)
相似文章
m3BERT:一种现代、多语言、套娃式双向编码器
本文介绍了m3BERT,一种多语言双向编码器,采用新颖的预训练策略,联合优化跨Transformer层和多个嵌入维度的表示,使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上,它显著优于现有最优模型。
LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。
Toten:基于知识的本体化标记化——巴西葡萄牙语中物理量和技术符号的标记化
TOTEN是一个基于知识的本体化标记化框架,用基于工程实体形式本体的声明式分类取代统计标记化,实现了巴西葡萄牙语中物理量和技术符号的高本体原子性和数值重建。
UR-BERT:通过通用罗马化和语音令牌预测实现大规模多语言TTS的文本编码器扩展
UR-BERT提出了一种基于罗马化转录的文本编码器,用于大规模多语言TTS,通过使用通用罗马化和语音令牌预测目标,扩展到495种语言,以增强语音对齐和泛化到未见过的语言。
BamiBERT: 一种新的基于BERT的越南语语言模型
BamiBERT 是一种新的基于BERT的越南语预训练语言模型,它解决了PhoBERT的局限性,支持更长的上下文,无需分词即可运行,并在多个越南语基准上取得了最先进的结果。