人类与机器文学翻译中的流畅性与忠实度

arXiv cs.CL 2026/05/18 04:00 论文

摘要

本文利用来自106部小说的130,486个段落，实证研究了文学翻译中流畅性与忠实度之间的权衡，发现人类翻译和Google翻译存在一致的负相关，而TranslateGemma的相关性较弱。

arXiv:2605.15282v1 Announce Type: new 摘要：文学翻译需要在目标语言的流畅性与对源文本的忠实度之间取得平衡。近期的大型语言模型（LLMs）通常能生成流畅的翻译，但在文学文本中，流畅性是否对应语义保留仍不明确。本研究利用来自16种源语言的106部小说中的130,486个翻译段落（包括人工翻译、Google翻译和TranslateGemma翻译），探讨了这一关系。流畅性通过基于段落词性n-gram训练的翻译ese分类器测量其“原汁原味”程度，忠实度则使用自动翻译评估指标COMET-KIWI。在控制段落长度后，我们发现流畅性与忠实度之间存在一致的负相关。这种模式在人工翻译和Google翻译中均出现，但在TranslateGemma中相关性较弱且往往不显著。这些结果表明，段落长度对自动评估有影响，并提示文学翻译中存在流畅性与忠实度之间的权衡。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:30

# 人类与机器文学翻译中的流畅性与忠实性
来源：https://arxiv.org/html/2605.15282
Sarah Griebel 伊利诺伊大学厄巴纳-香槟分校 / 单位 地址行1 / 单位 地址行2 / 单位 地址行3 sarahg8@illinois\.edu & Ted Underwood 单位 地址行1 / 单位 地址行2 / 单位 地址行3 email@domain Ted Underwood 信息科学学院 伊利诺伊大学厄巴纳-香槟分校 sarahg8@illinois\.edutunder@illinois\.edu

###### 摘要

文学翻译需要在目标语言流畅性与源语言忠实性之间取得平衡。近期的大型语言模型（LLM）通常能生成流畅的翻译，但尚不清楚在文学文本中，流畅性是否与语义保留相对应。我们利用来自16种源语言的106部小说的130,486个翻译段落（包括人工翻译、谷歌翻译和TranslateGemma翻译）来研究这种关系。流畅性通过基于段落词性n-gram训练的翻译腔分类器衡量其“原生态相似度”，忠实性则通过自动翻译评估指标COMET-KIWI来衡量。我们控制了段落长度，发现流畅性与忠实性之间存在一致的负相关。这种模式在人工翻译和谷歌翻译中均出现，但在TranslateGemma中较弱且通常不显著。这些结果表明，段落长度对自动评估有影响，并暗示文学翻译中流畅性与忠实性之间存在权衡关系。¹¹项目代码和分析可见于https://github.com/griebels/fluency-faithfulness-mt。

---

# 人类与机器文学翻译中的流畅性与忠实性

Sarah Griebel††感谢通讯作者。和 Ted Underwood
信息科学学院
伊利诺伊大学厄巴纳-香槟分校
sarahg8@illinois\.edu
tunder@illinois\.edu

> “翻译者要么尽可能让作者安宁，把读者引向作者；要么让读者安宁，把作者引向读者。”——弗里德里希·施莱尔马赫，《论翻译的不同方法》(1813)，苏珊·伯诺夫斯基译

## 1 引言

自施莱尔马赫提出著名论断——翻译者必须在“把读者引向作者”或“把作者引向读者”之间做出选择——以来，翻译理论常将流畅性与忠实性视为对立的两极。然而，这种张力很少在大规模实证研究中得到检验。

文学翻译需要调和相互冲突的目标。翻译者必须产出在目标语言中读起来深思熟虑、流畅自然且准确的文本，同时保留原作的语义和风格内容。文学文本中常见的比喻性语言带来了独特的挑战。例如，严格遵循习语或隐喻源结构的翻译可能保留意义，但听起来不自然或“异化”；而高度流畅的翻译则可能涉及改写或重组，从而改变语义内容、淡化原意，或试图在目标语言中对源文本的某些元素进行“归化”。（翻译理论家用不同的术语描述这一过程，例如异化与归化[Schleiermacher (2012) (https://arxiv.org/html/2605.15282#bib.bib40)；Venuti (1995) (https://arxiv.org/html/2605.15282#bib.bib42)]，或变形倾向[Berman (2012) (https://arxiv.org/html/2605.15282#bib.bib41)]。）

近期的大型语言模型（LLM）在文学机器翻译中展现了强劲性能[Zhang et al. (2025) (https://arxiv.org/html/2605.15282#bib.bib11)；Karpinska and Iyyer (2023) (https://arxiv.org/html/2605.15282#bib.bib3)；Wang (2025) (https://arxiv.org/html/2605.15282#bib.bib45)]。先前的研究主要使用基于参考的指标或人工评估来评估LLM文学翻译质量，因为在该领域使用质量估计（无参考）评估指标更难衡量结果[Karpinska and Iyyer (2023) (https://arxiv.org/html/2605.15282#bib.bib3)]。因此，对于文学机器翻译中流畅性与质量估计指标之间的关系，我们所知甚少。

在本研究中，我们在段落层面考察了人类和机器翻译中流畅性与忠实性指标之间的关系。我们分析了一个包含来自16种源语言的106部小说的130,486个翻译段落的语料库，其中包括人工翻译、谷歌翻译输出以及使用TranslateGemma [Finkelstein et al. (2026) (https://arxiv.org/html/2605.15282#bib.bib22)]生成的翻译（TranslateGemma是一个基于Gemma3架构的近期开源翻译模型[Team et al. (2025) (https://arxiv.org/html/2605.15282#bib.bib10)]）。

我们将流畅性操作化为“原生态相似度”，通过训练一个翻译腔分类器来区分原始英语段落和翻译英语段落。为了隔离独立于语义内容的句法流畅性，我们使用词性（POS）匿名化文本训练分类器。我们将忠实性操作化为COMET-KIWI分数。

利用这些测量，我们分别计算了人工翻译、LLM翻译和传统机器翻译系统中流畅性与忠实性之间的相关性。我们假设LLM翻译可能表现出流畅性与语义忠实性之间的权衡，反映为原生态相似度与充分性分数之间的负相关，而人工翻译可能表现出较弱或不同的关系。

我们的贡献如下：

- • 我们引入了大规模的段落级文学翻译流畅性与忠实性分析，涵盖超过130,000个段落，包括人工翻译、谷歌翻译和LLM翻译。
- • 我们提出了一个可扩展的框架，通过基于词性的文学翻译腔分类（采用书籍级留出评估）来独立于语义忠实度测量流畅性。
- • 我们应用无参考质量估计（COMET-KIWI）作为人工翻译、谷歌翻译和LLM文学翻译中忠实性的代理指标。
- • 我们提供了实证证据，表明流畅性与忠实性信号之间存在负相关关系，并且在长度相近的人工文学翻译中更为明显，这表明COMET-KIWI与基于POS的流畅性信号并不一致。

## 2 相关工作

### 2.1 机器翻译评估中的流畅性与忠实性

机器翻译质量传统上从两个主要维度进行评估：流畅性，指目标文本的自然性和语法正确性；以及忠实性（或充分性），指源语言意义的保留程度。人工评估协议通常明确区分这两个维度，认识到高度流畅的翻译可能在语义上偏离源文本，而高度忠实的翻译可能表现出源语言的句法或风格干扰。

### 2.2 翻译腔与原始文本vs翻译文本分类

翻译文本与目标语言中原创文本相比存在系统性差异，这一现象称为翻译腔。先前的研究表明，翻译文本可以通过词汇、句法和分布特征与原始文本区分开来，包括功能词频率[Koppel and Ordan (2011) (https://arxiv.org/html/2605.15282#bib.bib9)]、字符串核方法[Popescu (2011) (https://arxiv.org/html/2605.15282#bib.bib27)]、词性困惑度[Bizzoni et al. (2020) (https://arxiv.org/html/2605.15282#bib.bib17)]、平均词长、音节比、字符n-gram等[Volansky et al. (2015) (https://arxiv.org/html/2605.15282#bib.bib6)]。这些差异通常源于源语言的结构干扰、简化以及翻译过程中的规范化。

在本研究中，我们基于翻译腔检测方法，将流畅性操作化为“原生态句法相似度”，通过训练一个分类器来区分原始英语段落和翻译英语段落，该分类器使用基于有序词性输入的特征。我们的目标不是生成一个完美准确的分类器，而是产生一个高度可解释的分类器。

### 2.3 文学机器翻译中的忠实性度量

自动翻译评估指标如BLEU [Papineni et al. (2002) (https://arxiv.org/html/2605.15282#bib.bib29)]和METEOR [Banerjee and Lavie (2005) (https://arxiv.org/html/2605.15282#bib.bib30)]存在局限，因为它们依赖于参考比较，且常无法与人工判断产生高度一致。近期基于神经网络的指标如COMET [Rei et al. (2020) (https://arxiv.org/html/2605.15282#bib.bib20)]通过使用多语言编码器预测翻译质量来弥补这些不足。COMET对预训练的多语言语言模型进行微调，以基于参考文本和目标文本估计翻译充分性，并已被证明与人工评估具有高度一致[Lee et al. (2023) (https://arxiv.org/html/2605.15282#bib.bib2)]。其无参考变体COMET-KIWI [Rei et al. (2022) (https://arxiv.org/html/2605.15282#bib.bib33)]允许在无需黄金参考译文的情况下直接估计语义忠实性。

虽然神经评估指标可被视为“黑箱”，其输出实际测量的是什么并不透明[Karpinska et al. (2022) (https://arxiv.org/html/2605.15282#bib.bib31)]，但已有研究证明COMET输出高度依赖于来自预训练编码器的多语言句子表示[Rei et al. (2023) (https://arxiv.org/html/2605.15282#bib.bib38)]。因此，COMET为语义充分性提供了一个可扩展的代理指标，在与流畅性指标一起分析时，我们将其解释为忠实性的信号。

基于参考的评估指标在评估机器翻译系统性能方面效果良好，但比较人类与机器翻译时，它们需要黄金标准参考，这带来了困难。机器翻译中的质量估计指标是一种有价值的工具，因为它们不需要参考译文来比较源文本和目标文本。此外，最近的进展显示，在机器翻译任务中，质量估计结果与人工判断之间具有一致性[Zerva et al. (2024) (https://arxiv.org/html/2605.15282#bib.bib36)；Specia et al. (2020) (https://arxiv.org/html/2605.15282#bib.bib47)]。通过将COMET-KIWI与句法流畅性相关联，我们能够研究它在文学翻译评估中的表现。

## 3 数据

### 3.1 对齐的文学翻译语料库

我们使用来自Thai et al. (2022) (https://arxiv.org/html/2605.15282#bib.bib15)的Par3数据集，这是一个段落对齐的文学翻译语料库，包含113部小说和122,819个源语言段落。该语料库包含16种语言的源文本：捷克语、荷兰语、法语、德语、匈牙利语、意大利语、日语、挪威语、波斯语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰米尔语和中文。对于每个源语言段落，数据集包含两个或更多人工翻译（最多5个），以及来自谷歌翻译的机器生成翻译。

我们使用TranslateGemma生成LLM翻译，TranslateGemma是一个基于Gemma3架构微调的翻译模型套件，在涵盖55种语言的WMT基准测试中表现优于基础Gemma模型[Finkelstein et al. (2026) (https://arxiv.org/html/2605.15282#bib.bib22)]。我们使用40亿参数版本以保持较低的计算开销。我们通过Ollama（一个本地运行模型的开源工具）在模型上运行推理。翻译提示以段落级别给出，使用模型推荐的提示技术。

段落对齐作为数据集发布的一部分提供，并进一步通过多语言嵌入相似性过滤进行验证（第4.3节 (https://arxiv.org/html/2605.15282#S4.SS3)）。

语料库中的人工翻译跨越了不同的出版时期。由于数据集未提供翻译出版日期，我们未据此对分析进行条件限定。然而，我们确实讨论了翻译出版日期对流畅性度量的影响（局限性章节 (https://arxiv.org/html/2605.15282#Sx1)）。

#### 重复和重叠作品。

Par3语料库包含对应同一文学作品的多条条目，包括同一部小说出现多次的情况。为了避免过度加权单个作品并将近乎重复的材料引入分类器训练，我们识别并删除了代表相同原文的条目。

当多条条目对应同一部作品时（例如，《悲惨世界1》、《悲惨世界2》），我们仅保留第一卷代表的条目。相反，同一作者的不同作品（例如，系列中的独立小说）则予以保留。此过滤将原始数据集从113本书减少到106本书。

### 3.2 原始英语比较语料库

为了训练翻译腔分类器，我们使用一个包含115部英语小说（即最初用英语写成）的语料库，这些小说出版于1800年至1930年间。在选择原始数据集的最早日期时，我们的目标是收集能够与Par3中源文本的经验性翻译时滞相一致的文本，Par3源文本的出版时间介于1399年²²尽管Par3数据集中最早的源文本出版于1399年，但大多数（近90%）出版于1800年之后。至1982年之间，但主要集中在中期。我们的1930年上限反映了美国公共领域的标准限制。

来自该语料库的段落作为原始英语的正例，而翻译段落作为负例。

## 4 方法

我们分别使用翻译腔分类和质量估计来独立测量流畅性和忠实性。这使得我们能够考察它们在人类和机器文学翻译中的关系。

### 4.1 流畅性作为原生态相似度

我们将流畅性操作化为*原生态相似度*，定义为翻译段落与原始英语文本的相似程度。

为了隔离独立于语义内容的句法结构，我们使用spaCy模型将每个段落中的词汇替换为对应的细粒度词性（POS）标签，从而匿名化处理。例如：

> 原文：“Ivan asked Dmitry to meet him at the inn for lunch today?” Alyosha asked quickly.
> POS匿名化：“NNP VBD NNP TO VB PRP IN DT NN IN NN NN .” NNP VBD RB .

我们使用基于POS的分类器作为流畅性度量，因为它隔离了独立于词汇内容的句法结构，确保流畅性反映结构上的自然性，而非主题或词汇差异。

#### 最小段落长度过滤。

为了确保分类器能捕捉有意义的语言结构，我们排除少于最小20个单词阈值的段落。短片段如章节标题（例如，“IV”或“Chapter VII”）或装饰性分隔符不包含足够的句法结构来可靠地区分原始文本和翻译文本。包含这些片段会引入噪声，并可能使分类器偏向非语言的人工痕迹。

#### 分类器训练、预处理和交叉验证。

我们使用TF-IDF特征训练逻辑回归分类器。特征包括一元、二元和三元n-gram，最大词汇表大小为20,000个特征。分类器使用L2正则化，逆正则化强度C=10.0，类别权重平衡，最大优化迭代次数为2000次。

为了最小化段落长度对分类器预测的影响，我们使用十个段落长度

人类与机器文学翻译中的流畅性与忠实度

相似文章

关于 TranslateGemma-12b 基准测试文章的跟进：人工审核发现 71% 被自动指标评为合格的片段存在错误

也门语境下后编辑对AI生成翻译的影响：ChatGPT翻译文学散文

借助 Gemini 3.5 Live Translate 实现流畅自然的语音翻译

迷失在解释中：跨语言解释中的合理性与忠实性权衡

在 H200 GPU 上微调 TranslateGemma-4B 以优化英语与威尔士语的双向翻译！

提交意见反馈