文字穿越时间：转写在NLP中演化的全景综述

arXiv cs.CL 2026/04/22 04:00 论文

摘要

全面梳理转写如何打破跨语言NLP的“文字壁垒”，提升低资源语言迁移学习效果，并给出落地实践指南。

arXiv:2604.18722v1 公告类型：新增摘要：跨语言迁移常因“文字壁垒”受阻——不同书写系统抑制了语言间的迁移学习。转写（将文字系统转换）通过提升词汇重叠度，已成为弥合这一鸿沟的利器。本文系统综述了转写在跨语言NLP中的应用。我们提出利用转写的动机分类法，梳理将转写作为输入的多种方法，剖析其演进与成效，讨论关键权衡，并定位其在现代LLM中的必要性。文章涵盖代码混合文本处理、语族关联利用、推理效率提升等场景，据此为研究者提供具体建议：如何依据特定语言、任务与资源约束，选择并实施最合适的转写策略。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:29

# 转写角色演变综述：NLP 中的新使命  
来源：https://arxiv.org/html/2604.18722  

## 穿越文字的历史：NLP 中转写角色的演变综述  
Thanmay Jayakumar¹²，Deepon Halder¹³，Raj Dabre¹²  
¹ AI4Bharat Nilekani Centre，² 印度理工学院马德拉斯分校，³ 印度工程与科技大学 Shibpur 分校  

###### 摘要  
跨语言迁移常被“文字壁垒”阻碍：书写系统差异使相关语言难以共享表征。转写（将文字系统转换）通过提升词汇重叠，成为突破该壁垒的利器。本文系统梳理了转写在跨语言 NLP 中的应用，提出利用转写的动机分类法，归纳输入层、架构层等多级整合方法，剖析其演化与效果，权衡利弊，并定位其在现代大模型中的价值。综述覆盖代码混合、语族关联、推理效率等场景，最终为研究者提供按语言、任务与资源选择转写策略的实操建议。  

## 1 引言  
跨语言迁移是多语 NLP 的核心动力，已借助高资源语言（主要是英语）显著提升了低资源语言的表现。然而，若低资源语言与高资源语言使用不同文字，即便二者亲缘密切，迁移效果也会受“文字壁垒”拖累。词汇重叠是跨语言迁移的关键，跨文字时重叠度极低；不同文字的 token 表征几乎可被线性完美分开，模型难以学得共享空间。  

转写（将一种文字系统映射为另一种）于是成为缓解跨文字不兼容的实用手段：通过统一文字提升词汇重叠，无需平行语料即可快速、准确且数据友好地促进知识迁移。其本质在于“锚点”——多语中相同的字符串直接绑定语义；转写可人为放大这类共享 token/子词规模，尤其适用于因文字不同而被遮蔽的亲缘语言。  

但转写并非万能：对汉字等语素文字，拉丁化会剥离语义与语境，引入歧义（见图 1）。本文综述转写在语言模型中的多重角色，梳理方法演化，界定适用场景，评估对下游任务的影响，并给出具体实践建议。  

贡献如下：  
- 提出转写动机的分类法：从解决未见过文字的词汇覆盖，到利用语言亲缘关系。  
- 系统归纳整合方式：数据级、输入级、架构级、推理级。  
- 给出选择策略的实操指南，兼顾语言亲缘、资源、任务。  
- 探讨“罗马化”特殊地位，并定位转写在当下大模型中的必要性。  

## 2 转写策略分类法  
文献收集采用迭代检索：以“transliteration”“romanization”为关键词在 ACL Anthology、Semantic Scholar、arXiv 展开，再沿引用图扩展。聚焦“用转写提升模型”而非“改进转写算法”本身。代码混合常与转写共存，但二者正交；本文仅关注跨文字转换（见表 1）。  

### 2.1 使用转写的五大动机（按时间演化）  

#### 2.1.1 命名实体与 OOV  
统计机器翻译（SMT）时代，命名实体字典覆盖率低，OOV 频繁。将转写组件嵌入 SMT 显著提升效果，该需求延续至早期神经系统。  

#### 2.1.2 代码混合与“火星文”  
全球化催生双语用户用拉丁字母书写母语并夹杂英语。研究者将此类罗马化文本统一转写为拉丁脚本，以便模型学习。  

#### 2.1.3 跨语言迁移  
多语预训练模型兴起后，转写被用于提升土耳其语-维吾尔语等亲缘语言的词汇重叠，解锁此前受阻的迁移。罗马化还能让印地语等非亲缘语言借道英语-centric 模型的“强势文字先验”，利用预训练语料中大量 incidental 罗马化内容。  

#### 2.1.4 训练与推理效率  
统一文字简化预处理，降低多脚本转换复杂度；选择“低生育率”脚本可显著压缩序列长度，减少推理开销，即便语言无关亦受益。  

#### 2.1.5 多文字感知  
最新趋势不再绕过文字壁垒，而是直接解决它：将转写作为辅助信号，设计原生多文字架构，使模型同时感知多种文字而非依赖单一统一脚本。  

### 2.2 转写整合方法（图 3）  

#### 2.2.1 数据级整合  
**直接转写**：整库或部分语料转写，可仅保留转写文本，或与原文混合；也可用来扩充 tokenizer 词汇。  
训练混合：原文 ⊕ 转写（或仅转写）  

#### 2.2.2 输入级整合  
**直接拼接**：将原句与转写句子拼接后输入模型，无需改结构，但增加序列长度。  
输入：[原文][转写]  

**嵌入融合**：同时获取原文字与转写 token 的向量，通过求和或平均融合，保持序列长度不变，节省自注意力开销。  
嵌入融合：[原文][转写] → 模型 → 嵌入1+嵌入2 → 融合 → 模型  

#### 2.2.3 架构级整合  
**多编码器**：每脚本独立编码器，注意力跨编码器交互；改动大，难以适配现有模型。  
多编码器：[原文][转写] → 编码器1/2 →  logits1/2 → 拼接输出  

**脚本适配器**：在 multilingual 模型上并行挂载“原文字适配器”与“转写适配器”，分别无冲突地学习各自脚本，再融合输出。  
脚本适配器：[原文][转写] → 模型 → 适配器1/2 → 融合 → 输出  

**对齐目标**：通过对比损失等约束，使原文字与转写表示趋近，增强模型对正差异的不变性；推理时任一形式皆可。

文字穿越时间：转写在NLP中演化的全景综述

相似文章

利用形态学进行历史文字计量分析

基于Transformer的语言模型在垂直领域中的应用：架构、应用与批判性评估

语言模型中跨语言泛化的体外研究

从零构建阿拉伯语NLP：二十年的经验、失败与未解难题

大语言模型在低资源语言人文学科研究中的机遇与挑战

提交意见反馈