BamiBERT: 一种新的基于BERT的越南语语言模型
摘要
BamiBERT 是一种新的基于BERT的越南语预训练语言模型,它解决了PhoBERT的局限性,支持更长的上下文,无需分词即可运行,并在多个越南语基准上取得了最先进的结果。
arXiv:2607.02259v1 公告类型:新
摘要:在本文中,我们介绍了 BamiBERT,一种新的基于BERT的越南语预训练语言模型,它解决了当前越南语文本编码器事实标准 PhoBERT 的关键局限性。BamiBERT 在 129GB 的通用领域越南语文本语料库上从头训练了 20 个 epoch,支持长达 2048 个 token 的扩展上下文长度,并直接对原始输入进行操作,无需外部分词。在 8 个越南语基准测试中,它在 15 个指标中的 11 个上取得了最佳分数,在另外 3 个上取得了第二好的分数,在"基础"尺寸的越南语编码器中树立了新的最先进水平,并展示了强大的跨领域泛化能力。我们将在以下地址发布 BamiBERT:https://huggingface.co/Qualcomm-AI-Research/BamiBERT
查看缓存全文
缓存时间: 2026/07/03 05:42
# BamiBERT:一种新的基于BERT的越南语语言模型
来源:https://arxiv.org/html/2607.02259
Dat Quoc Nguyen¹, Thinh Pham², Chi Tran¹, Linh The Nguyen¹
¹高通AI研究 ²弗吉尼亚理工大学
\{datnq, chitran, linhnt\}@qti.qualcomm.com, [email protected]
Qualcomm Vietnam Company Limited. Qualcomm AI Research is an initiative of Qualcomm Technologies, Inc. This work was completed while all authors were at Movian AI, Vietnam. All datasets and models were downloaded, trained, and evaluated using Movian AI’s resources.
###### 摘要
本文介绍BamiBERT,一种新的基于BERT的越南语预训练语言模型,它解决了当前事实上的越南语文本编码器PhoBERT的关键局限性。BamiBERT从头开始在129GB通用领域越南语文本语料库上训练了20个epoch,支持长达2048个token的扩展上下文长度,并直接对原始输入进行操作,无需外部分词。在8个越南语基准测试中,它在15个指标中的11个上取得了最佳得分,在另外3个上取得第二佳,在"base"级别越南语编码器中树立了新的标杆,并展示了强大的跨领域泛化能力。
BamiBERT:一种新的基于BERT的越南语语言模型
Dat Quoc Nguyen¹, Thinh Pham², Chi Tran¹, Linh The Nguyen¹
¹高通AI研究* *Qualcomm Vietnam Company Limited. Qualcomm AI Research is an initiative of Qualcomm Technologies, Inc. This work was completed while all authors were at Movian AI, Vietnam. All datasets and models were downloaded, trained, and evaluated using Movian AI’s resources.
²弗吉尼亚理工大学
\{datnq, chitran, linhnt\}@qti.qualcomm.com, [email protected]
## 1 引言
在当今以LLM驱动的时代,基于BERT的模型(Devlin等人,2019(https://arxiv.org/html/2607.02259#bib.bib5);Liu等人,2019(https://arxiv.org/html/2607.02259#bib.bib10))对于需要高精度和低延迟的任务(如跨度标注、分类和信息检索)仍然至关重要。它们轻量级的特性使其特别适用于资源受限的应用。与大型语言模型(LLM)竞争不同,基于BERT的模型通常作为混合系统的核心组件,以极低的计算成本提供强大性能,同时有效补充LLM(Fan等人,2024(https://arxiv.org/html/2607.02259#bib.bib7))。因此,BERT家族持续演进,最近的成员包括ModernBERT(Warner等人,2025(https://arxiv.org/html/2607.02259#bib.bib25))和NeoBERT(Breton等人,2025(https://arxiv.org/html/2607.02259#bib.bib1))。
虽然英语受益于丰富的预训练BERT模型生态,但相应的越南语模型发展仍然相对有限。多语言模型XLM-RoBERTa(Conneau等人,2019(https://arxiv.org/html/2607.02259#bib.bib4))通过在其多语言预训练语料库中利用138GB CC100越南语文本,在广泛的越南语NLP任务上取得了有竞争力的表现。PhoBERT(Nguyen和Nguyen,2020(https://arxiv.org/html/2607.02259#bib.bib14))是第一个专门为越南语从头开始预训练的大规模单语言BERT模型,使用了20GB文本。后续的通用领域单语言模型包括viBERT和vELECTRA(Bui等人,2020(https://arxiv.org/html/2607.02259#bib.bib2)),在60GB越南语文本上预训练;以及ViDeBERTa(Tran等人,2023(https://arxiv.org/html/2607.02259#bib.bib19)),使用与XLM-RoBERTa相同的138GB CC100越南语语料库。最近,CafeBERT(Do等人,2024(https://arxiv.org/html/2607.02259#bib.bib6))从XLM-RoBERTa "large"模型开始,在2021年前收集的18GB越南语文本上持续预训练。
此外还出现了一些领域特定的单语言模型:用于法律文本的VnLawBERT(Chau等人,2020(https://arxiv.org/html/2607.02259#bib.bib3))、用于健康和生物医学文本的ViHealthBERT(Minh等人,2022(https://arxiv.org/html/2607.02259#bib.bib13))和ViPubmedDeBERTa(Tran-Tien等人,2023(https://arxiv.org/html/2607.02259#bib.bib20)),以及用于社交媒体文本的ViSoBERT(Nguyen等人,2023b(https://arxiv.org/html/2607.02259#bib.bib18))。在这些单语言模型中,PhoBERT凭借其强大且稳定的表现,已成为许多越南语NLP任务的默认选择。自发布以来,它获得了广泛采用,在HuggingFace上每月下载量超过20万次,活跃于NLP社区,而所有其他越南语单语言模型每月下载量均低于5万次。
尽管PhoBERT广受欢迎,但它存在几个局限性:它仅支持256个子词token的短最大上下文长度,并且要求输入文本在预处理之前由外部工具进行分词。这些局限性促使开发一种新的支持更长上下文且直接操作原始文本的越南语BERT模型。
本文介绍BamiBERT——一种新的越南语预训练语言模型——在129GB未压缩文本的大规模语料库上从头开始训练,进行20个epoch,最大上下文长度扩展至2048个token。与需要外部分词器预先对越南语文本进行分词的PhoBERT不同,BamiBERT直接操作原始输入文本,从而更加灵活,更容易集成到更广泛的下游应用中。在8个越南语基准数据集上的实验结果表明,BamiBERT取得了最先进或接近最先进的性能(在15个指标中的11个上排名第一,在15个指标中的3个上排名第二,其余一个排名第三),展示了强大的跨领域泛化能力。我们在以下地址发布BamiBERT:https://huggingface.co/Qualcomm-AI-Research/BamiBERT。
## 2 预训练语言模型 BamiBERT
本节介绍我们如何从头开始预训练新的基于BERT的语言模型。
#### 架构:
我们从头开始预训练一个名为"BamiBERT"¹¹¹"Bami"意为"bánh mì",是越南一种流行的三明治的文本编码器,采用BERT的"base"架构,包含12个Transformer块层(Devlin等人,2019(https://arxiv.org/html/2607.02259#bib.bib5))。为预训练BamiBERT,我们使用掩码语言建模目标(Devlin等人,2019(https://arxiv.org/html/2607.02259#bib.bib5))和RoBERTa预训练方法(Liu等人,2019(https://arxiv.org/html/2607.02259#bib.bib10)),后者采用动态掩码策略优化BERT,且不使用下一句预测目标。在分词方面,我们扩展了PhoGPT的越南语特定字节级BPE分词器(Nguyen等人,2023a(https://arxiv.org/html/2607.02259#bib.bib16)),添加了一个额外的""标记,最终词汇表包含20481个标记类型。我们设置最大序列长度为2048。
#### 预训练数据集:
我们使用一个干净、129GB的未压缩通用领域文本数据集。
#### 优化:
模型使用Adam优化器(Kingma和Ba,2015(https://arxiv.org/html/2607.02259#bib.bib9))。我们使用1024个序列块的批量大小,分布在8个A100 GPU上(每个40GB内存),峰值学习率为0.00015。预训练过程运行20个epoch,前2个epoch用于学习率预热。
## 3 实验
### 3.1 设置
表1:8个实验数据集的统计数据。
表2:预训练"base"架构模型的结果。†表示从以往工作中提取的结果。
我们进行实验,将我们的模型BamiBERT与之前强大且公开的越南语预训练"base"架构模型进行比较,包括:越南语特定模型ViDeBERTa-base(Tran等人,2023(https://arxiv.org/html/2607.02259#bib.bib19))、ViSoBERT(Nguyen等人,2023b(https://arxiv.org/html/2607.02259#bib.bib18))和PhoBERT-base(Nguyen和Nguyen,2020(https://arxiv.org/html/2607.02259#bib.bib14)),以及多语言模型XLM-RoBERTa-base(Conneau等人,2019(https://arxiv.org/html/2607.02259#bib.bib4))²²²ViDeBERTa、ViSoBERT和XLM-RoBERTa使用最大序列长度512个token进行训练。这里,BamiBERT、ViSoBERT和XLM-RoBERTa将原始文本作为输入,而ViDeBERTa和PhoBERT是越南语词级别模型。也就是说,在将文本输入词级别的ViDeBERTa和PhoBERT之前,必须应用越南语分词工具产生分词后的文本。对于ViDeBERTa和PhoBERT实验,我们使用VnCoreNLP工具包(Vu等人,2018(https://arxiv.org/html/2607.02259#bib.bib24))中的RDRSegmenter组件(Nguyen等人,2018a(https://arxiv.org/html/2607.02259#bib.bib15))进行越南语分词。
我们使用以下实验基准数据集:ViNLI——一个用于开放域自然语言推理的越南语数据集(Huynh等人,2022(https://arxiv.org/html/2607.02259#bib.bib8));PhoNER_COVID19——一个用于识别越南语COVID-19相关命名实体的数据集(Truong等人,2021(https://arxiv.org/html/2607.02259#bib.bib21));UIT-VSFC(情感)和UIT-VSFC(主题)——分别用于基于情感和基于主题分类的越南学生反馈基准(Nguyen等人,2018b(https://arxiv.org/html/2607.02259#bib.bib17));ViSpamReviews——用于越南电商网站垃圾评论检测的数据集(Van Dinh等人,2022(https://arxiv.org/html/2607.02259#bib.bib22));UIT-ViSFD——一个针对智能手机电商反馈和评论的越南语基于方面的情感分析数据集(Luc Phan等人,2021(https://arxiv.org/html/2607.02259#bib.bib12));以及UIT-ABSA(酒店)和UIT-ABSA(餐厅)——针对酒店和餐厅领域的越南语基于方面的情感分析数据集(Van Thin等人,2021(https://arxiv.org/html/2607.02259#bib.bib23))。ViNLI和PhoNER_COVID19基于通用领域文本,而其余基准来自社交媒体和论坛讨论。参见表1(https://arxiv.org/html/2607.02259#S3.T1)了解这些数据集的统计数据。
对于所有实验模型,我们使用transformers(Wolf等人,2020(https://arxiv.org/html/2607.02259#bib.bib26))进行微调,采用AdamW优化器(Loshchilov和Hutter,2019(https://arxiv.org/html/2607.02259#bib.bib11)),批量大小设为32。我们还在验证集上执行网格搜索,从\{1e-5, 2e-5, 5e-5\}中选择AdamW的初始学习率。我们在训练集上训练30个epoch,每个训练epoch后计算验证集上的F1,选择最佳F1的模型检查点,用于在测试集上报告最终指标分数。
### 3.2 主要结果
表2(https://arxiv.org/html/2607.02259#S3.T2)报告了BamiBERT和四个基线——ViDeBERTa、ViSoBERT、XLM-RoBERTa和PhoBERT——在八个越南语基准上的性能。BamiBERT在15个评估指标中的11个上取得了最佳性能,在三个指标上排名第二,在剩余一个指标上排名第三,为"base"级别的越南语BERT模型树立了新的标杆。
#### ViNLI
BamiBERT在两个指标上均取得最佳性能(准确率81.01,F1 81.15),相比排名第二的PhoBERT(78.00/78.05)获得了显著绝对增益(准确率+3.01,F1+3.10)。XLM-RoBERTa以76.83/77.01排名第三,在两个指标上均落后PhoBERT约一个点。ViSoBERT(67.70/67.82)和ViDeBERTa(61.08/60.71)明显落后,与BamiBERT的差距达13-20个点。
#### PhoNER_COVID19
BamiBERT获得最高F1分数(94.90),超过ViDeBERTa 0.40个点,超过PhoBERT 0.70个点。其优势相对于其他基线进一步扩大,比ViSoBERT(92.90)高出+2.0个F1点,比XLM-RoBERTa(92.50)高出+2.4个F1点。
#### UIT-VSFC(情感)
BamiBERT以准确率93.86和F1 83.41跻身顶尖模型行列。它与PhoBERT基本持平,准确率落后0.24,但F1领先0.14。BamiBERT对XLM-RoBERTa(准确率+0.30,F1+1.21)和ViSoBERT(准确率+0.71,F1+1.92)保持了稳定的优势,而ViDeBERTa在两个指标上均表现明显不佳。
#### UIT-VSFC(主题)
BamiBERT再次在两个指标上领先(准确率89.34,F1 79.90),两项均超过PhoBERT +0.10,超过XLM-RoBERTa +0.16/+0.34,超过ViSoBERT +0.54/+0.04。虽然前四名模型差距很小(准确率在0.54以内,F1在0.34以内),但BamiBERT最为稳定。相比之下,ViDeBERTa明显落后(83.94/66.49)。
#### ViSpamReviews
BamiBERT总体排名第二(准确率90.76,F1 78.20),略低于ViSoBERT(90.99/79.06),准确率差0.23,F1差0.86。然而,它明显优于XLM-RoBERTa(准确率+0.60,F1+1.65)和PhoBERT(准确率+0.93,F1+2.02),而ViDeBERTa远远落后(86.21/67.04)。BamiBERT在顶尖梯队中保持高度竞争力,并持续以明显优势超越其他成熟基线。
#### UIT-ViSFD
BamiBERT在两个子任务上均表现最强。在方面检测方面,它取得F1 89.14,领先于ViSoBERT(88.63;−0.51)和PhoBERT(86.03;−3.11),XLM-RoBERTa(82.73)和ViDeBERTa(75.53)落后更多。在基于方面的情感分类方面,BamiBERT取得F1 84.24,再次超过ViSoBERT(83.55;−0.69)和PhoBERT(78.76;−5.48)。相对于PhoBERT的持续增益(+3.11和+5.48个点)凸显了BamiBERT在两个子任务上的稳健性。
#### UIT-ABSA(酒店)
在方面检测方面,BamiBERT获得最高F1(79.99),优于ViSoBERT(79.41;−0.58)和PhoBERT(79.16;−0.83),而XLM-RoBERTa(77.70)和ViDeBERTa(72.05)竞争力较弱。然而,在基于方面的情感分类方面,ViSoBERT领先(F1 74.24),其次是PhoBERT(73.73;−0.51)和BamiBERT(72.65;−1.59);XLM-RoBERTa(71.23)和ViDeBERTa(62.97)大幅落后。
#### UIT-ABSA(餐厅)
BamiBERT产生最强的端到端性能,方面检测F1为88.01,基于方面的情感分类F1为74.89。这些结果超过了ViSoBERT(86.86/−1.15和73.87/−1.02)和PhoBERT(86.53/−1.48和73.52/−1.37),而XLM-RoBERTa(82.18/71.58)和ViDeBERTa(73.56/63.78)明显落后。
## 4 讨论
**整体性能**:在八个越南语基准测试和不同子任务中(表2(https://arxiv.org/html/2607.02259#S3.T2)),BamiBERT始终提供最先进或接近最先进的结果。最大的改进出现在ViNLI上,BamiBERT超过次优的PhoBERT准确率+3.01、F1+3.10,同时以13-20个点的优势超越ViSoBERT/ViDeBERTa——展示了强大的句子对语义和线索词敏感性。
**领域效应**:注意,PhoNER_COVID19和ViNLI代表通用领域文本,而其余基准反映社交媒体和论坛内容。BamiBERT表现出强大的跨领域泛化能力,在通用领域(如ViNLI、PhoNER_COVID19)和社交领域基准上均超过或紧密跟随专注于社交媒体的ViSoBERT。它在不同任务(NER、跨度检测和分类)上的持续顶尖表现表明其对领域转移和标签粒度的韧性。这种稳健性使BamiBERT成为在领域异质性和分布不确定性下运行的NLP流水线的可靠选择。
**检测 vs. 分类**:在基于方面的情感分析流水线中,BamiBERT通常在检测方面表现出色(例如,酒店:79.99 F1;餐厅:88.相似文章
越南语音中方言变化的语音建模
本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。
VLegal-Bench: 越南法律推理认知基础基准测试
VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。
PiDA: 基于语音信息的数据增强方法以实现鲁棒的越南语语音翻译
本文提出PiDA,一种基于语音信息的越南语语音翻译数据增强方法,通过使用语音词嵌入生成类似ASR的破坏来提高鲁棒性,在噪声输出上获得高达+2.04 BLEU的提升。
m3BERT:一种现代、多语言、套娃式双向编码器
本文介绍了m3BERT,一种多语言双向编码器,采用新颖的预训练策略,联合优化跨Transformer层和多个嵌入维度的表示,使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上,它显著优于现有最优模型。
从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。