面向东北印度低资源藏缅语Kokborok的高质量机器翻译
摘要
研究者开发KokborokMT,一款面向低资源语言Kokborok的神经机器翻译系统,通过在36k句对平行语料上微调NLLB-200,在en→trp方向取得17.30 BLEU分,trp→en方向达38.56。
arXiv:2604.19778v1 公告类型:新
摘要:我们推出KokborokMT,一款面向Kokborok(ISO 639-3)的高质量神经机器翻译(NMT)系统。Kokborok属藏缅语族,主要通行于印度特里普拉邦,约有150万使用者。尽管它是特里普拉邦的官方语言,但在NLP领域资源极度匮乏,此前尝试仅基于小型圣经语料训练,BLEU分不足7。我们在多源平行语料上对NLLB-200-distilled-600M模型进行微调,共36,052句对:SMOL数据集中9,284句专业翻译、WMT共享任务圣经领域1,769句,以及用Gemini Flash基于Tatoeba英语源句生成的24,999句反向翻译合成数据。我们在NLLB框架中新增Kokborok语言标记。最佳系统在留出测试集上分别取得17.30和38.56 BLEU分,显著优于已发表结果。由三位标注者进行人工评估,平均充分度3.74/5,流畅度3.70/5,训练有素的评估者间一致性高。
查看缓存全文
缓存时间: 2026/04/23 10:02
# 面向高质量机器翻译的 Kokborok:印度东北部的一种低资源藏缅语 来源:https://arxiv.org/html/2604.19778 Biman Debbarma,Kokborok 系,特里普拉大学,印度阿加尔巴拉,特里普拉,bimandblg@gmail\.com ###### 摘要 我们推出 KokborokMT,一个面向 Kokborok(ISO 639-3: trp)的高质量神经机器翻译(NMT)系统。Kokborok 属于藏缅语族,主要通行于印度特里普拉邦,约有 150 万使用者。尽管它是特里普拉官方语言之一,NLP 社区长期缺乏资源,此前仅基于小型圣经语料训练的系统 BLEU 不足 7。我们在多来源平行语料上微调 NLLB-200-distilled-600M,共 36,052 句对:SMOL 数据集的 9,284 句专业译文、WMT 共享任务圣经领域 1,769 句,以及用 Gemini Flash 对 Tatoeba 英语句做反向翻译得到的 24,999 句合成句对。我们在 NLLB 框架中新增语言标记 trp_Latn。最佳系统在留出测试集上取得 BLEU 17.30(en→trp)和 38.56(trp→en),大幅超越以往公开结果。三位标注者人工评测平均充分度 3.74/5、流畅度 3.70/5,评估者间一致性较高(κ=0.67)。模型、数据与代码将在录用后按 CC-BY-4.0 公开。 面向高质量机器翻译的 Kokborok:印度东北部的一种低资源藏缅语 Badal Nyalang,MWire Labs,印度梅加拉亚邦西隆,badal@mwirelabs\.com Biman Debbarma,Kokborok 系,特里普拉大学,印度阿加尔巴拉,特里普拉,bimandblg@gmail\.com ## 1 引言 Kokborok 是印度东北部特里普拉邦原住民族 Tiprasa 使用的语言,名称由 kok(语言)与 borok(人)组成,意为“民族之语”。全球约 150 万人使用,分布于特里普拉、孟加拉吉大港山区等地,是特里普拉与孟加拉语并列的官方语言。它属藏缅语族博多-加罗支,语序 SOV,后置介词,有声调。 尽管地位显著,Kokborok 在 NLP 领域极度缺乏资源。既有研究仅限形态分析(Debbarma 等,2012)、词性标注与规则实体识别。机器翻译更稀缺:WMT 低资源印度语言翻译共享任务自 2023 纳入 Kokborok,提供唯一公开 NMT 基线,最佳系统(ANVITA,2025)仅获 BLEU 6.99(en→trp)与 2.99(trp→en)。低分源于数据稀缺,而非语言本身不可译。 本文贡献如下: - 提出 KokborokMT,通过新增 trp_Latn 标记微调 NLLB-200,显著改善翻译质量。 - 构建 36,052 句平行语料,整合 SMOL 专业译文、WMT 圣经数据与 Gemini 反向翻译合成数据。 - 证明 LLM 反向翻译在低资源场景下持续提升各指标。 - 提供零样本、无合成、含合成三种系统的详尽消融实验。 - 发现 LaBSE 质量过滤对 Kokborok 无效,因该语言未参与其训练,社区应引以为戒。 - 完成三人人工评测,平均充分度 3.74/5、流畅度 3.70/5。 - 模型与评测脚本全部开源,推动后续 Kokborok NLP 研究。 ## 2 背景与相关研究 ### 2.1 Kokborok:语言与文字 Kokborok 有本土文字 Koloma,曾用于特里普拉王室,今正复兴。然而数字环境与 NLP 研究普遍使用罗马字,本文亦采用。语言有九大方言(Debbarma、Reang、Jamatia、Noatia 等)。语序 SOV,时态以后缀标记(-o 现在、-kha 过去、-nai 将来),具平与高两种声调,形容词后置,复数标记位于句末名词。 ### 2.2 既有 Kokborok NLP 研究 计算研究稀少。Debbarma 等(2012)开发形态分析器,准确率约 80%;CRF 与 SVM 词性标注约 84%;规则 NER F 值 83%。MT 方面仅 WMT 共享任务提供基线,OPUS 与 HuggingFace 再无公开平行数据,资源极度匮乏。 ### 2.3 低资源 MT 与反向翻译 反向翻译(Sennrich 等,2016)是扩充低资源平行数据的经典方法。近年研究表明 LLM 可生成高质量合成句对。NLLB-200 覆盖 200 种语言,已成为低资源 MT 微调标准骨架。通过新增语言标记并继续训练,可将模型扩展至原训练集外语言。 ## 3 数据 ### 3.1 平行语料构建 训练语料共 36,052 句对,来源三处: #### SMOL(9,284 句) SMOL(Caswell 等,2025)为 123 种低资源语言提供专业人工译文。Kokborok 部分含 SMOLDOC(6,016 句,LLM 生成英文文档后人工译)与 GATITOS(4,211 句,词级资源)。另有 57 句源目标列颠倒,已修正。SMOL 覆盖健康、教育、文化、技术及日常对话,质量最高。 #### WMT 圣经语料(1,769 句) WMT 共享任务提供 2,269 句圣经平行句对,我们留 500 句作测试,余 1,769 句用于训练。领域虽受限,可与既往 WMT 结果直接比较。 #### 合成反向翻译(24,999 句) 选取 Tatoeba 英文句(HuggingFace agentlans/tatoeba-english-translations),长度 5–20 词,去重后得 25,000 句。调用 Google Gemini Flash API(gemini-2.5-flash-preview)批量英译 Kokborok,系统提示:“你是专业英- Kokborok 译者,逐行准确翻译,仅输出译文。”成本约 600 印度卢比(7 美元)。Tatoeba 句多为日常与会话,弥补 SMOLDOC 正式语体。 ### 3.2 质量过滤实验 按惯例采用 LaBSE 相似度过滤,计算 24,999 对嵌入余弦,均值 0.287,显著低于支持语言。人工抽查低分段(0.04–0.15)仍质量良好,系 Kokborok 未参与 LaBSE 训练所致。故保留全部合成句,并提醒社区:LaBSE 过滤对训练外语言无效。 ### 3.3 数据划分与去重 从高质量源构建评测集: - SMOL 测试集(500 句):随机抽 SMOLDOC,确保领域多样。 - WMT 测试集(499 句):随机抽圣经语料,便于对比 WMT 结果。 - 开发集(500 句):剩余 SMOL 句中抽取。 训练集(含合成句)与所有测试集英语端精确匹配去重,确保零重叠。最终训练集 36,052 句对。 ### 3.4 数据统计 表 1 汇总语料构成;图 1(右)展示各来源占比。 表 1:KokborokMT 语料统计 ## 4 方法 ### 4.1 基线模型与语言标记 微调 facebook/nllb-200-distilled-600M(600M 参数),该模型未含 Kokborok。新增特殊标记 trp_Latn(ID 256204),并扩展嵌入矩阵,使模型能将 Kokborok 视为独立目标语言,同时利用已支持的藏缅语言(如缅甸语、藏语)表示。 ### 4.2 训练设置 双向同时训练:将原句对与方向翻转句对拼接,共 72,096 对,促进共享表示。 #### 超参 AdamW 优化器,学习率 2e-5,线性热身 500 步,权重衰减 0.01,批大小 32,fp16 混合精度,最大长度 128。单张 A40 GPU,System 2 训练约 3.5 小时,System 1 约 1.1 小时。 #### 模型选择 每 epoch 保存,按 SMOL 开发集验证 loss 选最优。两系统均训练至第 10 epoch(System 2 val loss 0.2422,System 1 0.2278)。 ### 4.3 实验条件 评估三种系统: - 零样本 NLLB:基线模型加 trp_Latn,未微调。 - System 1(无 BT):仅用 SMOL + WMT(11,053 对;双向 23,098)。 - System 2(完整):SMOL + WMT + Gemini 合成数据(36,052 对;双向 72,096),主系统。 ## 5 评估 ### 5.1 自动指标 按 WMT 共享任务协议,采用全套自动指标: - BLEU(Papineni 等,2002):sacreBLEU 默认分词。 - chrF(Popović,2015):字符 n-gram F 值。 - ROUGE-L(Lin,2004):最长公共子序列。 - METEOR(Banerjee & Lavie,2005):基于 WordNet 对齐。 - TER(Snover 等,2006):翻译编辑率(越低越好)。 - 余弦相似度:LaBSE 嵌入语义相似。 - COMET(Rei 等,2020):Unbabel/wmt22-comet-da。 所有系统 beam=4,分别测两方向、两测试集(每系统 4 条件)。 ### 5.2 人工评估
相似文章
jaaari/kokoro-82m
Kokoro-82M 是一款高效、高质量的文本转语音模型,在 Replicate 上可用,支持多种语言和声音,推理成本低。
本地漫画翻译器,内置 LLM,Rust 编写并集成 llama.cpp
Koharu 是一款开源的 Rust 漫画/图片翻译工具,融合目标检测、视觉 LLM OCR、版面分析与图像修复,并集成 llama.cpp,支持 Gemma 4 与 Qwen3.5 系列模型。
CBRS:基于双语数据集与双层过滤的多平台社交流认知血液请求系统
孟加拉国工程技术大学的研究人员提出了CBRS,一个多平台框架,采用双层架构并利用包含1.1万条孟加拉语和英语双语解析血液请求消息的新数据集,对社交媒体中的血液捐赠请求进行过滤和解析。其LoRA微调的Llama-3.2-3B模型实现了99%的过滤准确率和92%的零样本解析准确率,在减少35倍令牌使用量的同时,优于GPT-4o-mini等其他大语言模型。
KoALa-Bench:评估大型音频语言模型在韩语语音理解与忠实度上的表现
KoALa-Bench 推出了一套聚焦韩语的基准测试,从六个维度评估大型音频语言模型,包括全新的语音忠实度指标与韩国本土文化内容。
通过令牌剪枝优化韩语中心的大语言模型
本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。