PaliBench：面向古典语言翻译基准的多参考蓝图

arXiv cs.CL 2026/05/19 04:00 论文

palibench multi-reference translation-benchmark classical-languages pali llm-evaluation digital-humanities

摘要

介绍PaliBench，一个用于巴利语到英语翻译的多参考基准，采用多位学者的独立翻译，并提供一种可复用的方法论，用于为古典语言创建类似的基准测试。

arXiv:2605.16881v1 公告类型: 新摘要：数字人文学科项目越来越依赖机器翻译和大语言模型，以扩大对古典、宗教及其他翻译不足的文本传统的访问。然而，标准的翻译基准测试很难适用于这类材料：它们通常将系统输出与单一参考译文进行比较，尽管古典文本通常支持多个忠实的译法，这些译法在术语、语体和解释上有所不同。本文介绍了PaliBench，它既是巴利语到英语翻译的基准测试，也是一种可复用的方法，用于为古典语言构建多参考翻译基准。巴利语案例研究使用了《经集》中的段落，并与Bhikkhu Sujato、Bhikkhu Thanissaro和Bhikkhu Bodhi的独立英语译文对齐。工作流程结合了LLM辅助的独立分段译文对齐、对源文件的自动验证、段落级别的质量过滤、公式化重复的去重处理，以及针对多个人工参考的多指标评估。最终基准包含1,700个段落，涵盖8,389个片段，约345,000个词元。我们用它来评估十个当代大语言模型，采用互补指标，发现系统排名在不同指标间具有高度一致性，同时在可靠性和语义异常率方面存在显著差异。更广泛的贡献在于方法论：PaliBench展示了如何将现有的学者译文转化为用于解读性文本传统的评估基础设施，而不将任何单一译文视为权威。尽管是为巴利佛教文本开发的，但该方法可移植到其他存在足够独立参考译文的古典语料库。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:36

# PaliBench: 面向经典语言翻译基准的多参考蓝图  
来源：https://arxiv.org/html/2605.16881  
Nadnapang Phophichit  
International Buddhist Studies College Mahachulalongkornrajavidyalaya University  
nadnapang@ibsc\.mcu\.ac\.th  
###### 摘要  

数字人文项目日益依赖机器翻译和大语言模型来扩大对经典、宗教及其他翻译不足的文本传统的访问。然而，标准翻译基准并不适合此类材料：它们通常将系统输出与单个参考翻译进行比较，尽管经典文本往往支持多种在术语、语域和解读上有所不同的忠实译文。本文介绍了 PaliBench，它既是巴利语到英语翻译的基准，也是一种为经典语言构建多参考翻译基准的可复用方法。此巴利语案例研究选用了来自《经藏》的段落，并与Bhikkhu Sujato、Bhikkhu Thanissaro和Bhikkhu Bodhi的独立英语翻译对齐。其工作流程结合了基于大语言模型辅助对齐的独立分段翻译、针对源文件的自动验证、段落级质量过滤、对程式化重复内容的去重，以及针对多个人工参考的多指标评估。由此产生的基准包含1,700个段落，涵盖8,389个片段，约345,000个token。我们利用该基准，使用互补性指标对十种当代大语言模型进行了评估，发现系统排名具有强烈的跨指标一致性，同时可靠性和语义异常率存在显著差异。更广泛的方法论贡献在于：PaliBench展示了如何将现有的学术翻译转化为解读性文本传统的评估基础设施，而不将任何单一译文视为权威。虽然针对巴利语佛教文本开发，但该方法可适用于其他存在足够独立参考译文的经典语料库。

## PaliBench: 面向经典语言翻译基准的多参考蓝图  
Máté Metzger  
Independent Researcher  
[email protected]  
Nadnapang Phophichit  
International Buddhist Studies College  
Mahachulalongkornrajavidyalaya University  
nadnapang@ibsc\.mcu\.ac\.th  

关键词：数字人文；机器翻译评估；经典语言；佛教文本；多参考翻译  

## 1 引言  

经典与宗教文本传统给数字人文研究带来了一个反复出现的问题：现有语料库通常规模庞大、具有重要文化意义，且仅部分被翻译，而翻译所需的专业知识却十分稀缺。因此，机器翻译和大语言模型为扩大访问范围提供了一种有吸引力的手段，但评估其输出却很困难。标准机器翻译基准通常将系统输出与单个参考译文进行比较。这一假设与经典文本并不匹配，因为在经典文本中，翻译往往具有诠释性，且多个已建立的译文可能在保持忠实于原文的同时存在显著分歧。  

巴利语三藏（Theravada佛教的圣典）提供了一个特别清晰的案例。自19世纪末巴利文本学会的开拓性工作以来，一代代学者对其中的经藏、律藏和论藏产生了英语翻译。这些译文不仅在时代和学术惯例上有所不同，而且在基本的诠释取向上也存在差异：一位译者可能用拉丁化的哲学等价词翻译关键教义术语，另一位可能采用口语化的英语表达，而第三位可能会保留巴利语术语并附上下文注释。这三种方法都可能同样忠实于原文。这种合法翻译的不可简约的多元性并非需要解决的缺陷，而是宗教和哲学材料翻译的内在特征。  

近年来，得益于Transformer架构（Vaswani等人，2017）和大语言模型的规模化，机器翻译取得了快速进展。诸如GPT-4、Claude以及像NLLB（NLLB Team等人，2022）这样的专用多语言模型，现在能生成数百种语言的流畅输出。然而，它们在经典和哲学语言上的表现仍知之甚少。巴利语处于一个尤为边缘的位置：它未被纳入主要的多语言机器翻译基准（如FLORES（Goyal等人，2022）），在大多数大语言模型的预训练数据中可能占比极小，并且不存在用于评估巴利语到英语翻译质量的多参考基准。因此，在佛教研究与计算语言学交叉领域工作的研究者和从业者缺乏衡量进展所需的基本基础设施。  

加剧这一差距的还有方法论问题。标准机器翻译评估依赖于将系统输出与单个参考译文进行比较，使用的指标从BLEU（Papineni等人，2002）和chrF（Popović，2015）等词汇重叠指标，到COMET（Rei等人，2020）和BLEURT（Sellam等人，2020）等神经学习指标。WMT22指标共享任务（Freitag等人，2022）已证明，神经指标与专家人工判断的相关性远强于其词汇前身。然而，所有基于参考的指标都存在一个结构性局限：它们奖励接近特定译文的输出，并惩罚偏离该译文的输出，即使这些偏离代表着同样有效的翻译。对于巴利语佛教文本，合法翻译空间广阔且诠释意义重大，单参考评估不仅不精确——它还系统地偏向于产生参考译文的那种学术传统。  

最近关于多参考评估的研究已开始解决这一局限性。Fomicheva等人（2020）表明，纳入翻译变异性估计能改善指标与人类判断的相关性，而Wu等人（2024）则证明，具有有意义同义变体的多参考译文能显著提高文学翻译中自动指标的可靠性。在经典语言自然语言处理领域，MITRA项目（Nehrdich and Keutzer，2026）在其更广泛的框架中涵盖了包括巴利语在内的佛教经典语言，但其大规模平行语料库主要集中在梵语、汉语和藏语句对。PaliBench的不同之处在于，它从已出版的独立英语翻译中构建了一个多参考的巴利语到英语基准。  

本文介绍的PaliBench，既是巴利语到英语机器翻译的具体基准，也是在其他经典语言语境中构建多参考翻译基准的方法论蓝图。PaliBench包含精心挑选的《经藏》段落，每段均配有多份来自既定学术来源的独立参考译文。我们使用一套互补的词汇、神经、语义和诊断指标，在PaliBench上评估了十种当代大语言模型。我们的贡献有三点。首先，据我们所知，我们提供了第一个巴利语到英语机器翻译的多参考基准，使得在佛教经典文本上对翻译系统进行可重复比较成为可能。其次，我们展示了一种可移植的工作流程，该流程通过对齐、验证、过滤、去重和多参考评估，将独立分段的学术翻译转化为基准基础设施。第三，我们提供了关于模型排名和失败模式在多个不同参考下如何表现的实证证据。更广泛的主张是，只要存在足够多的独立参考译文以支持具有统计意义的评估，该工作流程可适用于任何经典语言语料库。  

## 2 文献综述  

### 2.1 机器翻译的自动评估  

过去二十年间，机器翻译的评估经历了根本性变革。基础的Transformer架构（Vaswani等人，2017）使得神经机器翻译系统快速进步，这反过来又需要能够捕捉超出表面重叠水平的语义充分性的评估方法。早期的自动指标集中于n-gram精确率：BLEU（Papineni等人，2002）引入了带简短惩罚的修正n-gram精确率，这成为了事实上的标准；而METEOR（Lavie and Denkowski，2009）则结合了召回率、词干提取和同义词匹配，以更好地适应合法翻译变异性。chrF（Popović，2015）等字符级指标通过在词级以下操作，为形态丰富的语言提供了鲁棒性；而SacreBLEU（Post，2018）则通过标准化分词和参考处理解决了可重复性问题。  

然而，这些基于重叠的指标与专家对现代高质量机器翻译系统的人工判断相关性很差。WMT22指标共享任务（Freitag等人，2022）明确地证明，神经学习指标——特别是COMET（Rei等人，2020）和BLEURT（Sellam等人，2020）——在针对多维质量指标（MQM）注释进行评估时，在跨领域和挑战集上的表现显著优于词汇指标。COMET是一个基于多语言嵌入、在人工质量判断上训练的跨语言框架，现已成为机器翻译评估中广泛使用的神经指标。其扩展版本xCOMET（Guerreiro等人，2024）通过细粒度错误检测增加了可解释性，并实现了与MQM分数的最先进相关性。BERTScore（Zhang等人，2020）提供了一种更早的基于嵌入的方法，通过计算BERT上下文表示上的token级余弦相似度。最近，诸如GEMBA-MQM（Kocmi and Federmann，2023）等LLM-as-judge方法表明，基于GPT的质量估计可以达到强大的系统级排名性能，这引发了关于参考译文在未来评估中作用的疑问。Thompson和Post（2020）进一步证明，将评估框架化为释义评分——多语言释义器在给定参考条件下对机器翻译输出进行评分——在39种语言上表现优于先前的指标，且无需人工判断进行训练。这些发展确立了从表面匹配到语义充分性测量的明确轨迹，然而它们也揭示了一个持续存在的局限性：大多数指标和评估基准是针对具有丰富平行数据的高资源语言对开发和验证的。这些指标在经典、礼仪或其他专门语言领域中的充分性在很大程度上尚未经过检验。  

### 2.2 用于机器翻译的大语言模型  

大语言模型作为翻译引擎的出现重塑了机器翻译领域。Hendy等人（2023）对GPT模型在18个翻译方向上进行了全面评估，发现它们在高资源语言对上具有竞争力，但在低资源语言上明显较弱——这一模式对古代语言翻译具有直接影响。Zhu等人（2024）将这一分析扩展到大规模多语言环境下的八种大语言模型，揭示了GPT-4在大约41%的翻译方向上超越了有监督的NLLB基线，但在低资源语言上仍落后于商业系统。他们发现，对于低资源翻译，跨语言上下文示例优于相同语言对示例，这为像巴利语这样的语言（平行数据稀缺，但相关语言可能提供可迁移信号）提供了有前景的策略。  

专门的机器翻译微调进一步缩小了这一差距。Xu等人（2024）介绍了ALMA，这是一种两阶段方法——单语预训练后在小规模高质量平行数据上进行微调——使得拥有7B参数的大语言模型能够匹配GPT-3.5和NLLB-54B。Jiao等人（2023）通过他们对ChatGPT作为翻译器的系统评估提供了补充证据，记录了其处理高资源欧洲语言的熟练程度，以及在处理遥远和低资源语言对时的困难。这些研究共同确立了PaliBench扩展到经典佛教文本的实验模板：多系统、多指标的评估，并关注当大语言模型遇到位于其训练分布边缘的语言时出现的特定失败模式。  

### 2.3 低资源与多语言翻译基准  

评估低资源语言机器翻译质量的挑战推动了专门基准的构建。FLORES-101基准（Goyal等人，2022）建立了一个受控评估框架，包含101种语言的3,001句专业翻译句子，使得跨语言一致比较和标准化质量控制成为可能。“不让任何语言落后”计划（NLLB Team等人，2022；NLLB Team，2024）使用稀疏门控混合专家架构，将多语言机器翻译大幅扩展到200种语言，相对于先前的基线实现了44%的BLEU提升。NLLB的方法论（跨语言迁移学习结合通过FLORES-200的大规模评估）证明了将机器翻译扩展到严重资源匮乏语言的可行性，但其覆盖范围不包括巴利语等经典或礼仪语言。  

PaliBench与这些基准在方法论上有共同之处：专业策划的参考译文、受控质量以及多指标评估。然而，它在关键方面有所不同。FLORES和NLLB评估的是活语言的广度，而PaliBench则通过对多个独立参考译文的使用，在一个单一经典语言内评估深度，突显了在宗教和哲学文本中尤为突出的合法翻译变异性问题。  

### 2.4 自然语言处理用于经典与古代语言  

近年来，计算处理古代和经典语言的方法已相当成熟，尽管它们仍远落后于现代语言的最新发展。Sommerschield等人（2023）对该领域进行了全面调查，记录了从光学字符识别到机器翻译等古代文本处理任务上的进展，同时识别了持续性

PaliBench：面向古典语言翻译基准的多参考蓝图

相似文章

OpenSTBench：超越语义评估的语音翻译

SpeechEditBench：面向指令引导语音编辑的双语多属性基准

语音到语音翻译模型基准测试

ProgramBench（5分钟阅读）

XLGoBench: 通过算法任务检测跨语言技能差距

提交意见反馈