翻译不可译之物:一个可操作化的不可译性本体论
摘要
本文提出了机器翻译中不可译性的结构化本体论,以及补偿策略的分类法和多语言数据集。人类偏好研究表明,翻译质量取决于所使用的策略,且对解释性翻译存在一致偏好。
arXiv:2606.17354v1 公告类型:新
摘要:不可译性,即意义无法在语言间直接保留的情况,在语言学中已有深入研究,但在自然语言处理中尚未充分探索。随着机器翻译系统在标准基准测试上的表现不断提升,其局限性愈发集中在这些无法简化为一一对应的翻译情形中。我们提出了一种结构化的不可译性本体论,以及补偿策略的分类法——即在不可译情形下传达意义的特定技术。我们将这一框架操作化,构建了一个包含不可译句子的多语言数据集及其基于策略的翻译,从而能够对翻译行为进行受控分析。初步的人类偏好研究表明,翻译质量取决于所使用的策略,且对包含解释性上下文的输出(即注释补偿策略)存在一致偏好。我们的框架和数据集为研究和建模基于策略的机器翻译奠定了基础。
查看缓存全文
缓存时间: 2026/06/17 05:40
# 翻译不可译之物:一种可操作化的不可译性本体论
来源:https://arxiv.org/html/2606.17354
Jacob Bremerman Brihi Joshi Hirona Arai Xiang Ren Jonathan May 南加利福尼亚大学 信息科学研究所 \{jbrem,brihijos,hjarai,xiangren,jonmay\}@usc\.edu
###### 摘要
不可译性——即意义无法在语言间直接保留的情况——在语言学中已被充分研究,但在自然语言处理(NLP)中却探索不足。随着机器翻译(MT)系统在标准基准上的提升,其局限性越来越集中在这些情况下,此时翻译无法简化为一一对等。我们引入了一个结构化的不可译性本体论,以及一套补偿策略的分类体系,这些策略是在不可译情况下传达特定意义的技巧。我们将这一框架操作化,构建了一个多语言数据集,其中包含不可译句子及其基于策略的翻译,从而能够对翻译行为进行可控分析。初步的人类偏好研究表明,翻译质量取决于所使用的策略,其中包含解释性上下文(即注解补偿策略)的输出始终获得偏好。我们的框架和数据集为研究和建模策略感知的机器翻译奠定了基础。
翻译不可译之物:一种可操作化的不可译性本体论
Jacob Bremerman Brihi Joshi Hirona Arai Xiang Ren Jonathan May
南加利福尼亚大学
信息科学研究所
\{jbrem,brihijos,hjarai,xiangren,jonmay\}@usc\.edu
## 1 引言
> “我的语言的界限意味着我的世界的界限。” —— 路德维希·维特根斯坦,《逻辑哲学论》(1922)
机器翻译(MT)和大语言模型(LLM)的最新进展显著提高了许多语言对的翻译质量(Ustun et al., 2024 (https://arxiv.org/html/2606.17354#bib.bib14)),这使得一些人将翻译视为一个基本“已解决的问题”。¹¹²然而,随着基准性能的提升,剩余的挑战越来越多地涉及长尾情况——在这些情况下,意义无法在语言间完全保留(Zhu et al., 2024 (https://arxiv.org/html/2606.17354#bib.bib10))。这些情况常被称为**不可译性**:由于语言、文化或风格差异,没有任何一种翻译能够捕捉源语言意义的所有方面(Cui, 2012 (https://arxiv.org/html/2606.17354#bib.bib2))。
参见图注 图1:不可译性现象的一个示例。由于日语和英语之间的差异,原始意义的全部范围在英语中没有一个单一的翻译能够保留所有意义。人类译者和机器译者恰当的行为尚不明确。
不可译性在语言学和翻译研究中已有充分论述,它源于语言之间的不匹配(Kitamura, 2009 (https://arxiv.org/html/2606.17354#bib.bib4))。它出现在习语、俚语、文字游戏、文化指涉以及没有直接对等物的语法区别中。如图1 (https://arxiv.org/html/2606.17354#S1.F1) 所示,即使是简单的表达也可能包含多种有效的解释,而这些解释无法在单一翻译中全部保留。尽管如此,NLP通常将翻译视为语义对等文本之间的一一映射。然而,在不可译情况下,没有任何单一输出能完全捕捉源语言的意义,这需要决定在语言和文化约束下如何传达意义。
参见图注 图2:生成不可译句子的迭代过程可视化。人类专家生成种子示例和提示,评判输出,并迭代示例和提示,直到输出被判定为所讨论uType的合适示例。
我们认为,不可译性应被视为MT中的一个结构化现象,而不是一系列边缘案例的集合。为此,我们引入了一个框架,对翻译不匹配的不同来源以及当直接翻译不可能时用于传达意义的策略进行分类。我们在第3节 (https://arxiv.org/html/2606.17354#S3) 中形式化了这个框架。
我们的文献综述没有发现适合用于不可译性计算实验的大规模资源。虽然最近关于 **Transcreation**(文化转创)的工作(Khanuja et al., 2024 (https://arxiv.org/html/2606.17354#bib.bib15))关注与特定文化相关的对象的翻译,但我们认为不可译性是一个更广泛的术语,涵盖了基于文化的转创。为了操作化我们的本体论,我们构建了一个多语言数据集,其中包含不可译句子以及使用不同补偿策略在目标语言(此处为英语)中生成的翻译。该数据集通过涉及人类专家和LLM的迭代过程创建(图2 (https://arxiv.org/html/2606.17354#S1.F2)),能够对不同类型不可译性下的翻译行为进行可控分析。
利用这个数据集,我们进行了人类偏好研究,以考察补偿策略如何影响感知翻译质量。特别是,我们询问偏好如何在不同不可译性类型之间变化。我们的发现表明,翻译质量不仅取决于对源文本的忠实度,还取决于所用策略的适宜性。我们一致观察到,对包含额外解释性上下文的翻译存在偏好,这突显了标准MT输出与人类期望之间的差距。
这项工作为在NLP中研究不可译性奠定了基础,而目前该领域尚无可扩展的框架。我们的贡献是:(1)一个针对MT的结构化不可译性本体论;(2)一套补偿策略的分类体系;(3)一个操作化该框架的多语言数据集;(4)关于策略依赖性翻译偏好的初步经验证据;(5)策略感知机器翻译的公式化表述。²²²代码:https://github.com/jlbrem/untranslatability。数据:https://huggingface.co/collections/INK-USC/untranslatability。
## 2 相关工作
虽然不可译性在理论语言学和翻译研究中已被广泛研究,但在NLP中的处理仍然支离破碎。NLP的先前工作通常关注孤立的语言现象,如习语、俚语或敬语,而没有提供一个统一框架来推理语义不匹配下的翻译。在本节中,我们将我们的工作置于这些研究脉络中,并强调缺乏将这些联系起来的结构化本体论。
### 2.1 不可译性
#### 理论翻译。
不可译性长期以来在语言研究的理论领域得到探讨,如语言学和翻译研究。Cui (2012) (https://arxiv.org/html/2606.17354#bib.bib2) 提供了不可译性和补偿策略的定义,以及它们不同类别的分类。其他工作(Kitamura, 2009 (https://arxiv.org/html/2606.17354#bib.bib4);Puchała-Ladzińska, 2023 (https://arxiv.org/html/2606.17354#bib.bib3);Riabovol, 2023 (https://arxiv.org/html/2606.17354#bib.bib5))进一步提供了跨语言的解释和示例。这些研究对于从概念上理解这一现象很有价值,但它们通常只提供有限的示例,并且没有提供可以直接在NLP系统中操作化的形式化结构。我们工作的一个核心目标是通过引入结构化本体论并以规模化的方式实例化它来弥合这一差距(参见表1 (https://arxiv.org/html/2606.17354#S2.T1))。
| 数据集 | uTypes分类 | cStrats分类 | 多种翻译 | 可下载 | 人类偏好 | 总示例数 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| Ours | ✓ | ✓ | ✓ | ✓ | ✓ | 18,200 |
| Cui (2012) | ✓ | ✓ | ✗ | ✗ | ✗ | ∼10 |
| Puchała-Ladzińska (2023) | ✓ | ✗ | ✗ | ✗ | ✗ | ∼10 |
| Riabovol (2023) | ✓ | ✗ | ✗ | ✗ | ✗ | ∼10 |
| Kitamura (2009) | ✗ | ✗ | ✗ | ✗ | ✗ | ∼10 |
表1:我们的数据集与现有资源的比较。我们是第一个拥有大量示例句子的可下载数据集。其他出版物中的数据集需要额外解析,且数量级无法与我们的相比。
#### 机器翻译。
不可译性也在机器翻译的背景下被直接或间接地研究。直接方法(例如,Cheng et al., 2014 (https://arxiv.org/html/2606.17354#bib.bib6))专注于检测特定语言中的不可译表达。更常见的是,先前的工作关注不可译性的特定表现,但没有将其归结为不可译性。示例包括对诗歌翻译(Ghazvininejad et al., 2018 (https://arxiv.org/html/2606.17354#bib.bib7))、习语翻译(Fadaee et al., 2018 (https://arxiv.org/html/2606.17354#bib.bib8))和敬语翻译(Sennrich et al., 2016 (https://arxiv.org/html/2606.17354#bib.bib9))的研究。虽然这些工作为处理特定现象提供了有用的技术,但它们孤立地处理不可译性的个体方面,并未提供一个统一的框架来进行跨现象推理。
### 2.2 大语言模型
#### LLM翻译。
尽管许多LLM主要针对英语设计,但它们已展现出强大的多语言能力,包括在机器翻译方面。Zhu et al. (2024) (https://arxiv.org/html/2606.17354#bib.bib10) 表明,像GPT-4这样的模型在相对简单的设置中可以与Google Translate等特定翻译系统相媲美。我们的工作通过关注更具挑战性的情况来补充这些发现,研究LLM如何处理直接翻译不足的不可译性实例。
#### LLM数据生成。
另一个相关的研究方向是探索使用LLM进行合成数据生成。Abdulin et al. (2023) (https://arxiv.org/html/2606.17354#bib.bib11) 证明,GPT-4 (OpenAI et al., 2024 (https://arxiv.org/html/2606.17354#bib.bib16)) 可用于合成对训练下游模型有用的数据集。我们同样利用LLM生成数据,但目标不同:在大规模上操作化一个结构化的不可译性框架。虽然LLM能够高效生成数据,但它们并未解决不可译性应如何系统定义或表示的根本问题。
#### 总结。
总之,先前的工作要么提供对不可译性的理论见解而不具备大规模操作化,要么提供针对特定现象的经验方法而缺乏统一框架。我们的工作通过引入一个结构化的不可译性本体论并将其实例化在一个支持NLP系统研究的数据集中,从而弥合了这一差距。
## 3 不可译性框架
为了在NLP背景下系统地研究不可译性,有必要超越非正式描述,建立该现象的结构化表示。在本节中,我们引入一个框架,将不可译性分解为两个关键组成部分:(1)语言间不匹配的潜在根源,以及(2)在存在这种不匹配的情况下传达意义的策略。
参见图注 图3:uType本体论:有关定义和示例的更多详细信息,请参见第3节 (https://arxiv.org/html/2606.17354#S3)。
### 3.1 不可译性本体论
我们将不可译性组织成**不可译性类型**(uType)的结构化本体论,这些类型捕捉语言间不匹配的潜在根源。我们将它们分为三个领域:语言层面、比喻层面和文化层面(图3 (https://arxiv.org/html/2606.17354#S3.F3))。
表2 (https://arxiv.org/html/2606.17354#S3.T2) 提供了每个uType的代表性示例。完整的定义和更多示例见附录A (https://arxiv.org/html/2606.17354#A1)。虽然构建本体论需要人类语言学专业知识,但它基于先前跨语言的工作,以便扩展到其他语言。这抵消了扩展数据集和/或本体论时人类专家的成本。
| 类型 | 示例 | 为何不可译 |
| :--- | :--- | :--- |
| 新词 (NW) | Disfrutamos la sobremesa. → “We enjoyed the sobremesa.” | “Sobremesa” 在英语中没有单个对应词;它指的是饭后闲聊的时间。 |
| 特指度 (SP) | 叔叔来了。→ “My uncle is here.” | 英语中的“uncle”相对于中文而言特指度不足。 |
| 句法 (SX) | 这个电影我很喜欢。→ “This movie I like.” | 中文灵活的词序带来细微差别。 |
| 动词形式 (VF) | 行きますか? うん、行く。→ “Are you going (formal)? Yes, I’ll go (informal).” | 正式和非正式的动词形式承载着英语无法直接保留的意义。 |
| 其他屈折 (OI) | Los profesores y las profesoras → “The male teachers and the female teachers” | 语法性别在西班牙语中是显式的,但在英语中则不是。 |
| 语音 (PH) | “Peter Piper picked a peck...” | 头韵等声音模式通常无法与意义一同保留。 |
| 正字法 (OR) | wwww → 草 (www看起来像草,在日语中也表示“大笑”) | 视觉形式贡献意义,但无法跨文字转移。 |
| 双关 (PN) | El pan está blando. | 听起来像面包“是 bland(平淡的)”和“is talking(正在说话)”。文字游戏依赖于难以同时保留的多重意义。 |
| 俚语 (SL) | 他很牛逼。→ “He’s badass.” | 意义是文化性的;无法逐词映射。 |
| 习语 (ID) | 猿も木から落ちる。→ even monkey falls from tree. | 字面意义与预期的比喻意义不同。 |
| 宗教 (RE) | Me crucificaron → so I was crucified. | 指涉依赖于共享的宗教信仰。 |
| 历史 (HI) | 奈良時代 → Nara period | 历史指涉需要文化背景知识。 |
| 习俗 (CU) | Le di dos besos. → I gave her two kisses. | 问候习俗在不同文化中不同。 |
表2:不可译性类型(uType)及代表性示例。
### 3.2 补偿策略
当直接翻译不可能时,译者采用其他方法来传达意义。我们称之为**补偿策略**(cStrat),它决定了翻译中丢失的信息如何在目标语言中表示。
我们改编了先前工作(Cui, 2012 (https://arxiv.org/html/2606.17354#bib.bib2))的分类,定义了六种主要cStrat。表3 (https://arxiv.org/html/2606.17354#S3.T3) 显示了代表性示例(参见附录A (https://arxiv.org/html/2606.17354#A1))。
| 策略 | 示例 | 工作原理 |
| :--- | :--- | :--- |
| 适应 (AD) | 将日语绕口令替换为英语绕口令 | 保留效果(如幽默或节奏),而非字面措辞。 |
| 注解 (AN) | “We enjoyed the sobremesa (post-meal chat typical in Spain)” | 添加解释性信息以保留意义。 |
| 借用 (BO) | “The room has very nice feng-shui.” | 在翻译中保留源语言术语。 |
| 仿译 (CA) | 直译(如“long time no see”) | 保留结构,让读者推断意义。 |
| 选项 (OP) | Se fue pa casa. → “He/she went home.” | 当源语言特指度不足时提供多个选项。 |
| 释义 (PA) | Iba pedo. → “He was very drunk.” | 用简单的目标语言措辞重新表达。 |
表3:补偿策略(cStrat)及示例。
对于给定输入,最合适的cStrat通常取决于uType和翻译上下文。这相似文章
超越“致相关人士”:为受众和意图定制机器翻译
本文系统评估了使用大语言模型在50种语言中进行目的驱动的机器翻译,发现明确的指令能显著提升适应质量,尤其是在非正式领域和更大模型中,而传统指标无法捕捉适应质量。
MetaHOPE:一种面向隐喻的评估框架,用于分析机器翻译和大语言模型翻译错误
MetaHOPE是一个面向隐喻的评估框架,用于分析机器翻译和大语言模型中的翻译错误。该论文提出了一种错误严重性感知的标注框架,并评估了GoogleMT、GPT5.4和Hunyuan-7b等模型在英汉隐喻翻译上的表现。
推理者还是翻译者?税法中的污染感知评估与神经符号鲁棒性
本文实证研究了LLMs在税法中的法律推理,表明数据污染会夸大性能,而神经符号混合系统比单体LLMs提供更可靠和稳健的泛化能力。
Translate-R1:基于强化学习的成本感知翻译工具使用
Translate-R1引入了一种基于强化学习的方法,用于大语言模型中的成本感知翻译工具使用。该模型根据自身的理解能力和一个成本敏感性参数,学会决定何时翻译输入,从而在多种语言之间实现帕累托最优权衡。
翻译作为桥梁动作:将人类操作技能迁移至机器人
本文提出了一种基于头戴相机坐标系中相对手腕平移的桥梁动作表征,利用带有交错动作令牌和注意力掩码的视觉-语言-动作模型来处理具身差异,从而将人类操作技能迁移至双臂机器人。