文字穿越时间:转写在NLP中演化的全景综述

arXiv cs.CL 论文

摘要

全面梳理转写如何打破跨语言NLP的“文字壁垒”,提升低资源语言迁移学习效果,并给出落地实践指南。

arXiv:2604.18722v1 公告类型:新增 摘要:跨语言迁移常因“文字壁垒”受阻——不同书写系统抑制了语言间的迁移学习。转写(将文字系统转换)通过提升词汇重叠度,已成为弥合这一鸿沟的利器。本文系统综述了转写在跨语言NLP中的应用。我们提出利用转写的动机分类法,梳理将转写作为输入的多种方法,剖析其演进与成效,讨论关键权衡,并定位其在现代LLM中的必要性。文章涵盖代码混合文本处理、语族关联利用、推理效率提升等场景,据此为研究者提供具体建议:如何依据特定语言、任务与资源约束,选择并实施最合适的转写策略。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:29

# 转写角色演变综述:NLP 中的新使命  
来源:https://arxiv.org/html/2604.18722  

## 穿越文字的历史:NLP 中转写角色的演变综述  
Thanmay Jayakumar¹²,Deepon Halder¹³,Raj Dabre¹²  
¹ AI4Bharat Nilekani Centre,² 印度理工学院马德拉斯分校,³ 印度工程与科技大学 Shibpur 分校  

###### 摘要  
跨语言迁移常被“文字壁垒”阻碍:书写系统差异使相关语言难以共享表征。转写(将文字系统转换)通过提升词汇重叠,成为突破该壁垒的利器。本文系统梳理了转写在跨语言 NLP 中的应用,提出利用转写的动机分类法,归纳输入层、架构层等多级整合方法,剖析其演化与效果,权衡利弊,并定位其在现代大模型中的价值。综述覆盖代码混合、语族关联、推理效率等场景,最终为研究者提供按语言、任务与资源选择转写策略的实操建议。  

## 1 引言  
跨语言迁移是多语 NLP 的核心动力,已借助高资源语言(主要是英语)显著提升了低资源语言的表现。然而,若低资源语言与高资源语言使用不同文字,即便二者亲缘密切,迁移效果也会受“文字壁垒”拖累。词汇重叠是跨语言迁移的关键,跨文字时重叠度极低;不同文字的 token 表征几乎可被线性完美分开,模型难以学得共享空间。  

转写(将一种文字系统映射为另一种)于是成为缓解跨文字不兼容的实用手段:通过统一文字提升词汇重叠,无需平行语料即可快速、准确且数据友好地促进知识迁移。其本质在于“锚点”——多语中相同的字符串直接绑定语义;转写可人为放大这类共享 token/子词规模,尤其适用于因文字不同而被遮蔽的亲缘语言。  

但转写并非万能:对汉字等语素文字,拉丁化会剥离语义与语境,引入歧义(见图 1)。本文综述转写在语言模型中的多重角色,梳理方法演化,界定适用场景,评估对下游任务的影响,并给出具体实践建议。  

贡献如下:  
- 提出转写动机的分类法:从解决未见过文字的词汇覆盖,到利用语言亲缘关系。  
- 系统归纳整合方式:数据级、输入级、架构级、推理级。  
- 给出选择策略的实操指南,兼顾语言亲缘、资源、任务。  
- 探讨“罗马化”特殊地位,并定位转写在当下大模型中的必要性。  

## 2 转写策略分类法  
文献收集采用迭代检索:以“transliteration”“romanization”为关键词在 ACL Anthology、Semantic Scholar、arXiv 展开,再沿引用图扩展。聚焦“用转写提升模型”而非“改进转写算法”本身。代码混合常与转写共存,但二者正交;本文仅关注跨文字转换(见表 1)。  

### 2.1 使用转写的五大动机(按时间演化)  

#### 2.1.1 命名实体与 OOV  
统计机器翻译(SMT)时代,命名实体字典覆盖率低,OOV 频繁。将转写组件嵌入 SMT 显著提升效果,该需求延续至早期神经系统。  

#### 2.1.2 代码混合与“火星文”  
全球化催生双语用户用拉丁字母书写母语并夹杂英语。研究者将此类罗马化文本统一转写为拉丁脚本,以便模型学习。  

#### 2.1.3 跨语言迁移  
多语预训练模型兴起后,转写被用于提升土耳其语-维吾尔语等亲缘语言的词汇重叠,解锁此前受阻的迁移。罗马化还能让印地语等非亲缘语言借道英语-centric 模型的“强势文字先验”,利用预训练语料中大量 incidental 罗马化内容。  

#### 2.1.4 训练与推理效率  
统一文字简化预处理,降低多脚本转换复杂度;选择“低生育率”脚本可显著压缩序列长度,减少推理开销,即便语言无关亦受益。  

#### 2.1.5 多文字感知  
最新趋势不再绕过文字壁垒,而是直接解决它:将转写作为辅助信号,设计原生多文字架构,使模型同时感知多种文字而非依赖单一统一脚本。  

### 2.2 转写整合方法(图 3)  

#### 2.2.1 数据级整合  
**直接转写**:整库或部分语料转写,可仅保留转写文本,或与原文混合;也可用来扩充 tokenizer 词汇。  
训练混合:原文 ⊕ 转写(或仅转写)  

#### 2.2.2 输入级整合  
**直接拼接**:将原句与转写句子拼接后输入模型,无需改结构,但增加序列长度。  
输入:[原文][转写]  

**嵌入融合**:同时获取原文字与转写 token 的向量,通过求和或平均融合,保持序列长度不变,节省自注意力开销。  
嵌入融合:[原文][转写] → 模型 → 嵌入1+嵌入2 → 融合 → 模型  

#### 2.2.3 架构级整合  
**多编码器**:每脚本独立编码器,注意力跨编码器交互;改动大,难以适配现有模型。  
多编码器:[原文][转写] → 编码器1/2 →  logits1/2 → 拼接输出  

**脚本适配器**:在 multilingual 模型上并行挂载“原文字适配器”与“转写适配器”,分别无冲突地学习各自脚本,再融合输出。  
脚本适配器:[原文][转写] → 模型 → 适配器1/2 → 融合 → 输出  

**对齐目标**:通过对比损失等约束,使原文字与转写表示趋近,增强模型对正差异的不变性;推理时任一形式皆可。

相似文章

利用形态学进行历史文字计量分析

Hugging Face Daily Papers

本文提出了一种基于Transformer的架构,结合原型学习,仅利用行级转录即可从历史文档中进行可扩展的古文字测量,并在仅有少量训练数据的160页手抄本上证明了其有效性。

语言模型中跨语言泛化的体外研究

arXiv cs.CL

本文引入了一个使用两种程序生成语言的体外框架,用于研究语言模型中的跨语言泛化,发现分词对可复用子结构的保留能力对于跨语言能力迁移比词汇相似性或数据平衡更为关键。

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。