面向东北印度低资源藏缅语Kokborok的高质量机器翻译

arXiv cs.CL 2026/04/23 04:00 论文

摘要

研究者开发KokborokMT，一款面向低资源语言Kokborok的神经机器翻译系统，通过在36k句对平行语料上微调NLLB-200，在en→trp方向取得17.30 BLEU分，trp→en方向达38.56。

arXiv:2604.19778v1 公告类型：新摘要：我们推出KokborokMT，一款面向Kokborok（ISO 639-3）的高质量神经机器翻译（NMT）系统。Kokborok属藏缅语族，主要通行于印度特里普拉邦，约有150万使用者。尽管它是特里普拉邦的官方语言，但在NLP领域资源极度匮乏，此前尝试仅基于小型圣经语料训练，BLEU分不足7。我们在多源平行语料上对NLLB-200-distilled-600M模型进行微调，共36,052句对：SMOL数据集中9,284句专业翻译、WMT共享任务圣经领域1,769句，以及用Gemini Flash基于Tatoeba英语源句生成的24,999句反向翻译合成数据。我们在NLLB框架中新增Kokborok语言标记。最佳系统在留出测试集上分别取得17.30和38.56 BLEU分，显著优于已发表结果。由三位标注者进行人工评估，平均充分度3.74/5，流畅度3.70/5，训练有素的评估者间一致性高。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/23 10:02

# 面向高质量机器翻译的 Kokborok：印度东北部的一种低资源藏缅语
来源：https://arxiv.org/html/2604.19778  
Biman Debbarma，Kokborok 系，特里普拉大学，印度阿加尔巴拉，特里普拉，bimandblg@gmail\.com  

###### 摘要

我们推出 KokborokMT，一个面向 Kokborok（ISO 639-3: trp）的高质量神经机器翻译（NMT）系统。Kokborok 属于藏缅语族，主要通行于印度特里普拉邦，约有 150 万使用者。尽管它是特里普拉官方语言之一，NLP 社区长期缺乏资源，此前仅基于小型圣经语料训练的系统 BLEU 不足 7。我们在多来源平行语料上微调 NLLB-200-distilled-600M，共 36,052 句对：SMOL 数据集的 9,284 句专业译文、WMT 共享任务圣经领域 1,769 句，以及用 Gemini Flash 对 Tatoeba 英语句做反向翻译得到的 24,999 句合成句对。我们在 NLLB 框架中新增语言标记 trp_Latn。最佳系统在留出测试集上取得 BLEU 17.30（en→trp）和 38.56（trp→en），大幅超越以往公开结果。三位标注者人工评测平均充分度 3.74/5、流畅度 3.70/5，评估者间一致性较高（κ=0.67）。模型、数据与代码将在录用后按 CC-BY-4.0 公开。

面向高质量机器翻译的 Kokborok：印度东北部的一种低资源藏缅语

Badal Nyalang，MWire Labs，印度梅加拉亚邦西隆，badal@mwirelabs\.com  
Biman Debbarma，Kokborok 系，特里普拉大学，印度阿加尔巴拉，特里普拉，bimandblg@gmail\.com  

## 1 引言

Kokborok 是印度东北部特里普拉邦原住民族 Tiprasa 使用的语言，名称由 kok（语言）与 borok（人）组成，意为“民族之语”。全球约 150 万人使用，分布于特里普拉、孟加拉吉大港山区等地，是特里普拉与孟加拉语并列的官方语言。它属藏缅语族博多-加罗支，语序 SOV，后置介词，有声调。

尽管地位显著，Kokborok 在 NLP 领域极度缺乏资源。既有研究仅限形态分析（Debbarma 等，2012）、词性标注与规则实体识别。机器翻译更稀缺：WMT 低资源印度语言翻译共享任务自 2023 纳入 Kokborok，提供唯一公开 NMT 基线，最佳系统（ANVITA，2025）仅获 BLEU 6.99（en→trp）与 2.99（trp→en）。低分源于数据稀缺，而非语言本身不可译。

本文贡献如下：

- 提出 KokborokMT，通过新增 trp_Latn 标记微调 NLLB-200，显著改善翻译质量。  
- 构建 36,052 句平行语料，整合 SMOL 专业译文、WMT 圣经数据与 Gemini 反向翻译合成数据。  
- 证明 LLM 反向翻译在低资源场景下持续提升各指标。  
- 提供零样本、无合成、含合成三种系统的详尽消融实验。  
- 发现 LaBSE 质量过滤对 Kokborok 无效，因该语言未参与其训练，社区应引以为戒。  
- 完成三人人工评测，平均充分度 3.74/5、流畅度 3.70/5。  
- 模型与评测脚本全部开源，推动后续 Kokborok NLP 研究。

## 2 背景与相关研究

### 2.1 Kokborok：语言与文字

Kokborok 有本土文字 Koloma，曾用于特里普拉王室，今正复兴。然而数字环境与 NLP 研究普遍使用罗马字，本文亦采用。语言有九大方言（Debbarma、Reang、Jamatia、Noatia 等）。语序 SOV，时态以后缀标记（-o 现在、-kha 过去、-nai 将来），具平与高两种声调，形容词后置，复数标记位于句末名词。

### 2.2 既有 Kokborok NLP 研究

计算研究稀少。Debbarma 等（2012）开发形态分析器，准确率约 80%；CRF 与 SVM 词性标注约 84%；规则 NER F 值 83%。MT 方面仅 WMT 共享任务提供基线，OPUS 与 HuggingFace 再无公开平行数据，资源极度匮乏。

### 2.3 低资源 MT 与反向翻译

反向翻译（Sennrich 等，2016）是扩充低资源平行数据的经典方法。近年研究表明 LLM 可生成高质量合成句对。NLLB-200 覆盖 200 种语言，已成为低资源 MT 微调标准骨架。通过新增语言标记并继续训练，可将模型扩展至原训练集外语言。

## 3 数据

### 3.1 平行语料构建

训练语料共 36,052 句对，来源三处：

#### SMOL（9,284 句）

SMOL（Caswell 等，2025）为 123 种低资源语言提供专业人工译文。Kokborok 部分含 SMOLDOC（6,016 句，LLM 生成英文文档后人工译）与 GATITOS（4,211 句，词级资源）。另有 57 句源目标列颠倒，已修正。SMOL 覆盖健康、教育、文化、技术及日常对话，质量最高。

#### WMT 圣经语料（1,769 句）

WMT 共享任务提供 2,269 句圣经平行句对，我们留 500 句作测试，余 1,769 句用于训练。领域虽受限，可与既往 WMT 结果直接比较。

#### 合成反向翻译（24,999 句）

选取 Tatoeba 英文句（HuggingFace agentlans/tatoeba-english-translations），长度 5–20 词，去重后得 25,000 句。调用 Google Gemini Flash API（gemini-2.5-flash-preview）批量英译 Kokborok，系统提示：“你是专业英- Kokborok 译者，逐行准确翻译，仅输出译文。”成本约 600 印度卢比（7 美元）。Tatoeba 句多为日常与会话，弥补 SMOLDOC 正式语体。

### 3.2 质量过滤实验

按惯例采用 LaBSE 相似度过滤，计算 24,999 对嵌入余弦，均值 0.287，显著低于支持语言。人工抽查低分段（0.04–0.15）仍质量良好，系 Kokborok 未参与 LaBSE 训练所致。故保留全部合成句，并提醒社区：LaBSE 过滤对训练外语言无效。

### 3.3 数据划分与去重

从高质量源构建评测集：

- SMOL 测试集（500 句）：随机抽 SMOLDOC，确保领域多样。  
- WMT 测试集（499 句）：随机抽圣经语料，便于对比 WMT 结果。  
- 开发集（500 句）：剩余 SMOL 句中抽取。

训练集（含合成句）与所有测试集英语端精确匹配去重，确保零重叠。最终训练集 36,052 句对。

### 3.4 数据统计

表 1 汇总语料构成；图 1（右）展示各来源占比。

表 1：KokborokMT 语料统计

## 4 方法

### 4.1 基线模型与语言标记

微调 facebook/nllb-200-distilled-600M（600M 参数），该模型未含 Kokborok。新增特殊标记 trp_Latn（ID 256204），并扩展嵌入矩阵，使模型能将 Kokborok 视为独立目标语言，同时利用已支持的藏缅语言（如缅甸语、藏语）表示。

### 4.2 训练设置

双向同时训练：将原句对与方向翻转句对拼接，共 72,096 对，促进共享表示。

#### 超参

AdamW 优化器，学习率 2e-5，线性热身 500 步，权重衰减 0.01，批大小 32，fp16 混合精度，最大长度 128。单张 A40 GPU，System 2 训练约 3.5 小时，System 1 约 1.1 小时。

#### 模型选择

每 epoch 保存，按 SMOL 开发集验证 loss 选最优。两系统均训练至第 10 epoch（System 2 val loss 0.2422，System 1 0.2278）。

### 4.3 实验条件

评估三种系统：

- 零样本 NLLB：基线模型加 trp_Latn，未微调。  
- System 1（无 BT）：仅用 SMOL + WMT（11,053 对；双向 23,098）。  
- System 2（完整）：SMOL + WMT + Gemini 合成数据（36,052 对；双向 72,096），主系统。

## 5 评估

### 5.1 自动指标

按 WMT 共享任务协议，采用全套自动指标：

- BLEU（Papineni 等，2002）：sacreBLEU 默认分词。  
- chrF（Popović，2015）：字符 n-gram F 值。  
- ROUGE-L（Lin，2004）：最长公共子序列。  
- METEOR（Banerjee & Lavie，2005）：基于 WordNet 对齐。  
- TER（Snover 等，2006）：翻译编辑率（越低越好）。  
- 余弦相似度：LaBSE 嵌入语义相似。  
- COMET（Rei 等，2020）：Unbabel/wmt22-comet-da。

所有系统 beam=4，分别测两方向、两测试集（每系统 4 条件）。

### 5.2 人工评估

面向东北印度低资源藏缅语Kokborok的高质量机器翻译

相似文章

jaaari/kokoro-82m

本地漫画翻译器，内置 LLM，Rust 编写并集成 llama.cpp

CBRS：基于双语数据集与双层过滤的多平台社交流认知血液请求系统

KoALa-Bench：评估大型音频语言模型在韩语语音理解与忠实度上的表现

通过令牌剪枝优化韩语中心的大语言模型

提交意见反馈