句法即罗塞塔石碑:通用依存助力科普特语上下文翻译

arXiv cs.CL 论文

摘要

乔治城大学研究团队通过将通用依存句法解析与双语注释一起加入上下文提示,显著提升了低资源科普特语到英语的翻译效果,刷新最佳纪录。

arXiv:2604.18758v1 公告类型:新 摘要:低资源机器翻译需要与富资源语言不同的方法。本文提出一种新颖的上下文学习方案,利用通用依存对输入句子进行句法增强,实现科普特语到英语的低资源翻译。在已有借助双语词典推断词汇的工作基础上,我们在输入中加入多种句法分析表示,具体探索原始解析器输出、用通俗英语描述的解析结果,以及针对子树中难译结构给出的定向翻译指令。实验表明,仅句法信息不如词典注释有效,但将检索到的词典条目与句法信息结合,可在不同规模的模型上均取得显著提升,刷新科普特语翻译的最佳成绩。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:29

# 句法如罗塞塔石碑:基于通用依存关系的科普特语上下文翻译  
来源:https://arxiv.org/html/2604.18758  
Abhishek Purushothama<sup>1</sup> Emma Thronson<sup>†</sup> Alexia Guo Amir Zeldes  
Corpling Lab, Georgetown University  
{ap2089, et726, qg65, amir.zeldes}@georgetown.edu  

2026 年 4 月  

###### 摘要  
低资源机器翻译需要与高资源语言不同的方法。本文提出一种新颖的上下文学习策略,利用输入句子的通用依存(Universal Dependencies)句法分析,增强从濒危语言科普特语到英语的翻译。在已有“双语词典支持推理”工作的基础上,我们为输入补充多种句法表征:原始 parser 输出、用自然英语描述的依存关系,以及针对子树中难译结构的定向提示。实验表明,仅靠句法信息不如词典提示有效,但将检索到的词典项与句法信息结合后,在所有模型尺寸上均取得显著提升,刷新科普特语翻译的最佳成绩。  

句法如罗塞塔石碑:基于通用依存关系的科普特语上下文翻译  

Abhishek Purushothama<sup>1</sup> Emma Thronson<sup>†</sup> Alexia Guo Amir Zeldes  
Corpling Lab, Georgetown University  
{ap2089, et726, qg65, amir.zeldes}@georgetown.edu  

## 1 引言  
近期大模型显著提升了高资源语言的基线翻译质量,已可用于面向用户的场景。与此同时,低资源语言(LRL)却几乎未从简单提示中受益,因为模型对它们几乎没有语言建模能力。  

图注:Apophthegmata Patrum 25,MS MONB.EG 67(K 0321),Österreichische Nationalbibliothek 惠允。下方为对应文本。  
科普特语:h1wcte ened1tefythn mpbol ntefri nyomnt nh1oou ntetmlaau taioc efitc  
参考译文:such that if he throws his tunic out of his cell for three days no one will pick it up to wear it  
GPT-4.1 翻译:So that his light would not shine before people. You should not do this at all.  

图 1:参考译文与基线译文对比。即使 GPT-4.1 这样的大模型,无增强时也会生成流畅但完全错误的翻译。  

然而,通过上下文学习(ICL)在提示中融入双语词表,已为低资源翻译指明方向。当源语言有词典或词汇表、目标语言为高资源语言时,可利用大模型的流利度完成 LRL→HRL 翻译。但简单词表只能覆盖单词或固定短语,无法告知模型源语言的语法与特殊结构,模型只能凭目标端词义“拼句子”。  

本文聚焦科普特语(Sahidic 方言),一种极低资源语言(Ethnologue 2026 认为已无母语者),其语法结构常单独承载语义差异,而大模型对其几乎零覆盖。  

科普特语是埃及本土语言的最后阶段,约公元后一千年内使用,属非亚语系埃及语支。它呈黏着、中心语前置特征,助动词、性数、体时系统复杂。作为希腊化时期埃及基督教的礼仪语言,它对研究晚期古代宗教与地中海史至关重要,至今仍是埃及科普特基督徒的遗产语言。  

然而科普特语数据稀缺,专家亦少,大量手稿仅编目而未数字化,或已数字化却未翻译。我们期望高质量机译即便不能直接使用,也能显著降低专家校对成本。  

实测发现,大模型直接翻译科普特语效果极差。图 1 例句描述苦行僧衣不蔽体,弃之三日无人拾,GPT-4.1 却译成“勿使人前发光”,可见模型完全无法处理。  

对科普特语这样的语言,必须利用现成资源设计方法。词典提示虽已改善低资源翻译,并已被用于科普特语,但仅列词汇无法编码语法关系,翻译质量很快遇到天花板。本文首次探讨:在已有词典基础上,再补充通用依存(UD)句法信息,能否进一步提升上下文翻译效果。我们比较无增强、仅词典、仅句法、词典+句法四种策略,并在开源与闭源模型上测试。  

实验表明,词典信息仍最重要,但补充 UD 句法后,各尺寸模型均显著优于仅用词典,刷新科普特语翻译最佳成绩。我们还分析了不同句法表征、自动/金标依存、圣经/非圣经文本差异。全部代码与数据已开源。  

## 2 背景  
大模型已成为主流 MT 方案,但方法因语言、资源、领域而异。本文专注在 ICL 场景下使用词典与句法分析。监督训练需平行数据,对科普特语不适用;因此研究转向利用专家知识或非平行数据增强。  

#### 词典  
双语词典是低资源 MT 常用资源。ghazvininejad-etal-2023-dictionary 表明,简单把词条加入提示即可提升;lu-etal-2024-chain 用链式词典桥接源目标语言。ICL 设计参数对 LRL 尤为敏感。  

#### 语法  
ICL 可把语法信息直接写进提示。研究包括从语法书检索片段、手工规则、或把形态分析连同词典/平行例句一起输入。Pei et al. 发现当已有词典与平行句时,额外语法书片段增益有限。我们亦用词典与形态,但侧重“从输入句自动抽取”的句法信息,而非外部语法书。  

#### 语法信息  
相比语法书,自动语法信息(形态、UD 标注)探索较少。UD 已覆盖 150+ 语言,但主要用于单语/多语解析,极少直接用于 MT。本文首次将 UD 作为 MT 的语法信息源。  

#### 科普特语 MT  
针对科普特语的 MT 刚起步,目标语言包括英、法、阿。前人尝试微调,但输出质量仍远未达到可用水平。本文首次系统引入句法增强。  

## 3 上下文科普特语翻译  
对科普特语这样的 LRL,我们不在监督数据上训练,而是在提示中拼接例句与语言资源(词典、句法)。提示设计允许按需插入词法或句法知识,灵活提升翻译质量。源语言为科普特语,目标语言为英语,粒度为句子级。  

实验涵盖多款开源模型,分析部分以表现最佳的 Gemma 系列为主;闭源模型取 GPT-4.1 作为参照。  

### 3.1 数据  
最大公开平行语料来自 Coptic Scriptorium,共 232 万科普特词,其中 143 万为 Sahidic 方言,有译文的约 121 万词,主要覆盖圣经。前人 MT 研究多选圣经章节为测试集,但我们怀疑 LLM 凭专有名词即可“背出”圣经译文,因此额外对比圣经与非圣经文本。  

#### UD 树库:带金标句法的平行句  
为评估 parser 错误级联,我们选用已手工标注的 Sahidic UD Coptic 树库(60 k 词,2 387 句),含圣经、圣徒传、布道、文书等多体裁,已划分 dev/test。  

#### 陶片:域外测试集  
另取 4 片陶片(21 句)作为域外数据,与此前研究对比。  

### 3.2 资源  
整体流程依赖两类信息:固定词典 + 针对当前句子的句法分析管线。

相似文章