翻译损耗并非标量:对中文多语言基准中英语源线索继承的反事实审计

arXiv cs.CL 论文

摘要

本文审计了中文多语言基准中的“翻译损耗”现象,论证其并非一个标量,而是一组依赖于估计器和具体项目的效度风险。本文引入了一种本土化压力测试,以量化英语源线索如何虚增模型得分。

arXiv:2605.07093v1 公告类型:新论文 摘要:翻译损耗通常被视为一个标量:人们假设通过保留英语源线索,翻译后的基准会虚增得分。我们在英译中设置下对这一主张进行了审计。三个代理估计器结果不一致:回译差距很小且对解析器脆弱;线索-得分校准无法预测项目层面的增益;六模型原生对照组比较显示存在模型家族效应而非统一的基准效应。我们增加了一项同项目 LLM 本土化压力测试,在保持答案、选项和内容不变的情况下重写中文表层形式。在修正提示构建错误后,这一对比不再支持模型家族交互作用,但保留了一种残留剂量-反应关系:高残留项目受益,而低残留项目未受益。结果表明,翻译损耗并非单一数值,而是一组依赖于估计器和具体项目的效度风险。我们发布了每个单元格的证据、本土化协议、人工质量控制以及针对翻译多语言基准论文的 reporting checklist。
查看原文
查看缓存全文

缓存时间: 2026/05/11 06:46

# 翻译税并非标量:对中文多语言基准中英语源线索继承的反事实审计

来源:https://arxiv.org/html/2605.07093

###### 摘要

“翻译税”通常被视为一个标量:人们假设翻译后的基准测试会通过保留英语源线索来虚高分数。我们在英译中设定下审计了这一主张。三种代理估计器意见不一:回译差距较小且对解析器脆弱;线索得分校准无法预测项目层面的增益;六模型原生对照比较显示存在模型族效应,而非统一的基准效应。我们增加了一项同题大语言模型(LLM)自然化压力测试,在保持答案、选项和内容固定的同时重写中文表层形式。在修正了提示构造错误后,这种对比不再支持模型族交互效应,但保留了一种残留剂量-反应关系:高残留项目受益,而低残留项目则不然。结果并非单一的翻译税,而是一组取决于估计器和项目的效度风险。我们发布了每个单元的证据、自然化协议、人工质量检查(QC)以及翻译多语言基准论文的汇报清单。

## 1 引言

评估大型语言模型(LLM)多语言能力的事实标准依赖于翻译后的基准测试。MMMLU 是 OpenAI 于 2024 年发布的 MMLU(Hendrycks et al., 2021)的多语言翻译版本;此处使用的已发布 MMMLU 测试集包含跨 57 个学科的 14,042 个项目,其中中文(ZH_CN)子集与此数量一致。¹¹¹我们通过编程方式针对 OpenAI MMMLU 数据集卡片确认了发布的项目数量;本文早期草稿引用了一项将 MMLU 基准规模与相关数据集混淆的文献,报道了 15,908 个项目。Belebele(Bandarkar et al., 2024)是一个平行阅读理解数据集,涵盖 122 种语言变体,每种变体约有 900 个项目。XCOPA(Ponti et al., 2020)覆盖 11 种语言,所有非英语数据均从英语 COPA 翻译而来。翻译过程经过仔细实施,但所有非英语项目都源于共同英语源这一结构事实引入了一种被系统性低估的副作用:模型在非英语项目上的表现可能不仅反映真正的语言理解,还反映了对翻译过程中保留的英语线索的识别。Artetxe et al.(2020)在跨语言迁移中确切地展示了这一机制,表明翻译引入了模型可利用为非语义捷径的微妙人工痕迹。

NeurIPS 2025 研讨会“在大型语言模型时代以低资源语言和文化为中心”展示了社区对多语言评估关注度的迅速上升。Sitaram(2025)明确指出了多语言基准评估的三大核心挑战:覆盖率、代表性和信任/科学严谨性。翻译后的英语基准与以美国为中心的框架并列为两大代表性缺陷。Wu et al.(2025)通过展示翻译后的基准与本地人类判断的一致性远差于原生构建的替代方案(Spearman 0.47 vs. 0.68)加剧了这一担忧。然而,关于多少基准分数是由翻译线索而非真正的语言理解驱动的严格量化仍然稀缺。

#### 贡献。

本文做出三项贡献。

1. 概念性。将“翻译税”定义为翻译引起的分数偏移中由线索驱动的部分,区别于语义翻译错误。每个估计器都配对有明确的识别假设和命名的失效模式;引入第四个估计器(E4,匹配的大语言模型自然化压力测试),以在条件之间固定项目内容。
2. 实证性。在 228 项 MMMLU 和 100 项 Belebele 子集上的三个代理估计器得出相同的诊断结论:对解析器脆弱的较小回译差距、不支持项目层面线索利用的注释校准,以及六模型原生对照比较中最大差距出现在中文优化子组而非英语中心子组中。E4(在修正提示构造错误后)返回一个较小的正平均效应,集中在事先选择的高翻译残留项目上(Δhigh=+0.103 vs. Δlow=-0.015,不含解析器异常值),且无统计显著的模型族交互效应。翻译税并非单一的标量校正,而是一组取决于估计器和项目的效度风险。
3. 汇报性。一份翻译线索可识别性汇报清单涵盖了估计器范围、解析器脆弱性和子组对比,翻译多语言基准论文可在投稿时将其作为标准效度维度采用。

#### 范围。

点估计值较小(1-5 个百分点),大多数单个单元格不排除零。本文报告带有披露识别假设的代理估计值;任何单一估计器均不直接测量潜在的翻译税。注释估计器仅作为 30 项单注释者评分标准校准执行,视为校准证据而非完整的双语人类估计器(第 5.6 节)。本研究使用英译中作为单个案例对,以实现详细的组内分析,而不是跨多种语言的浅层广度。

## 2 相关工作

XNLI(Conneau et al., 2018)将 MultiNLI 扩展到 14 种非英语语言,明确讨论了翻译对评估效度的影响。XCOPA(Ponti et al., 2020)在其局限性部分讨论了翻译影响。Belebele(Bandarkar et al., 2024)详细说明了其 FLORES-200 翻译管道质量控制,同时承认存在模型可检测的痕迹。Artetxe et al.(2020)系统地分析了跨语言基准中的翻译人工痕迹如何创造可被利用的捷径:前提和假设的独立翻译相对于英文原件减少了词汇重叠,引入了虚假信号。他们的工作是我们最直接的先驱,尽管他们专注于诊断人工痕迹类型,而非量化基准间的分数膨胀。

Wu et al.(2025)调查了 2021 年至 2024 年出版的超过 2,000 个多语言基准,提供了最新且最全面的证据,表明翻译质量直接损害了多语言评估中人类偏好对齐的效度。Clark et al.(2020)引入了 TyDi QA,旨在通过原生收集问题来避免翻译腔调的人工痕迹。INCLUDE(Romanou et al., 2025)从 44 种语言的区域考试池中原生获取项目;我们使用其中文子集作为 E3 的非翻译对照源。

提示敏感性(Mizrahi et al., 2024; Zhuo et al., 2024)与我们关注评估数据的语言效度相辅相成。与我们最接近的工作是 Artetxe et al.(2020),我们通过将线索继承与翻译噪声分开,并量化分数层面的效应而非诊断人工痕迹类型,对其进行了扩展。

## 3 形式化定义与识别

#### 翻译税。

对于目标语言 L 中的翻译基准 B 和模型 M,令 scoreL(M) 表示在翻译基准上观察到的分数,scoreLnatural(M) 表示相同项目的假设自然 L 版本上的(不可观测)分数。翻译效应分解为:

scoreL(M) − scoreLnatural(M) = TT + E,

其中 TT 是翻译税(由残留源语言结构引起的线索驱动膨胀),E 是语义错误效应(由意义扭曲引起的退化)。由于 scoreLnatural 不可观测,TT 不能从单一可观测对比中直接识别。我们使用三个互补的代理估计器,每个都有其自身的识别假设,并进行三角测量(图 1)。

图 1:每个估计器在条件之间变化的内容。E1、E2 和 E3 各自对比在内容(翻译噪声、项目身份或基准语域)上不同的项目得分,因此它们都没有固定内容。E4(匹配自然化,第 6 节)是文中唯一在固定内容的同时改变表层自然度的对比。

### 3.1 估计器 E1(回译):识别与失效模式

对于以英语为中心的模型 MEN,令 Tback 表示从 L 到英语的回译管道,qLback=Tback(qL)。回译估计器为:

TTback(B,L,MEN) = scoreENqEN(MEN) − scoreENqLback(MEN).

TTback 衡量以英语为中心的模型在原始英语项目与经过 L 往返翻译的项目之间表现出的分数差距。如果回译保留了语义内容,则此差距反映了往返过程中丢失的结构线索残留。

#### 失效模式(E1 不识别 TT 的情况)。

(F1) *回译噪声。* 实际管道引入语义噪声 Eback,因此 TTback ≈ TT + Eback,使估计器成为有噪声的上界。BLEU/BERTScore 质量控制减少但并未消除 Eback。(F2) *自然度损失。* 回译可能产生语法正确但不自然的英语;观察到的差距可能包括与线索继承无关的英语文本质量惩罚。(F3) *不对称翻译难度。* 某些内容(例如,MMMLU 本地化学科中的中文特定文化项目)可能比正向翻译更难回译,以学科相关的方式偏差 Eback。因此,本文不将正 TTback 本身解释为线索利用的证据;它作为三个三角测量信号之一发挥作用。

### 3.2 估计器 E2(双语原生注释):校准状态

对于项目的分层随机样本,两名或多名双语原生注释者在三个维度上对每个项目进行 5 点李克特量表评分——*线索可识别性*、*文化残留* 和 *句法残留*——并通过模型子组计算线索可识别性与项目层面 TTback 信号之间的 Spearman 相关性。完整协议对注释者屏蔽所有模型输出,使用锚定校准的评分标准提示,至少包括一名外部双语注释者,并在有序李克特量表上报告加权 Cohen's κ 和 Krippendorff's α(目标加权 κ > 0.7)。

#### 本研究执行内容。

一次 30 项单注释者评分标准校准运行,使用一名大语言模型评分注释者。这是关于评分标准覆盖范围和分数分布的校准证据,而非双语人类估计器。在此规模下,它不能支持或反驳线索利用假设,并作为零校准结果报告(第 5.6 节)。因此,结果部分中的三角测量依赖于 E1 和 E3;E2 仅作为校准检查进入。

### 3.3 估计器 E3(INCLUDE 非翻译对照):识别范围

INCLUDE(Romanou et al., 2025)从中文区域考试池而非通过翻译原生获取项目;INCLUDE-base-44 中文包含 545 个跨越 57 个主题的四选测试题。本文比较了翻译基准中文与 INCLUDE 中文的聚合(每模型)准确率。

#### 识别范围。

INCLUDE 中文项目与 MMMLU 中文来自不同的内容分布(区域考试 vs. 学术学科)。该对比在项目层面未匹配:它未在难度、主题或语域上匹配项目,因此是外部效度对比而非项目层面反事实。在此设计下,无法将项目层面效应与内容分布效应隔离。

## 4 实验设计

### 4.1 基准与模型

#### 基准。

(1) MMMLU 中文子集:OpenAI 发布的 ZH_CN 测试集包含跨 57 个学科的 14,042 个项目,与已发布 MMMLU 数据集使用的 MMLU 测试集匹配;我们抽取 228 个项目的分层子集,每学科 4 个(种子 42)。(2) Belebele 中文子集(zho_Hans;900 个项目);100 个项目的子集(种子 42)。(3) INCLUDE 中文子集作为非翻译对照(545 个测试项目,四选一)。

#### 模型。

共九个模型,分为三组,均通过统一提供商网关访问:

- • A 组(以英语为中心的前沿模型):gpt-4o, gpt-4o-mini, gpt-5.4-mini。
- • B 组(中文优化):deepseek-chat, qwen-max, glm-4.5。
- • C 组(开源多语言中型模型):llama-3.3-70b-instruct, qwen2.5-72b-instruct, glm-4-air。

Anthropic Claude 和 Google Gemini 未能包含在内,因为在分析窗口期间提供商网关的这两条通道均不可用。这缩小了 A 组的覆盖范围,并在局限性中讨论。

### 4.2 评分协议

#### 评分协议。

提供商 API 访问并未在所有九个模型中统一暴露对数概率,因此我们使用固定提示、单字母提取协议,而非 lm-evaluation-harness 库。具体而言:零样本提示,包含问题、四个标记选项以及响应单个字母(A、B、C 或 D)的指示;答案解析从响应中提取第一个匹配的字母。我们报告每模型的解析器有效率(产生可解析字母的响应比例);标记低有效率的模型。在此阶段,我们对所有基准使用 0 样本;5 样本复制不是本研究的一部分。

#### 背景与理由。

关于这些基准的原始文献报告了 MMMLU 的 5 样本结果。因此,此处的 0 样本设置在绝对术语上无法直接与已发布的基准数字比较;它在我们的三个量(qZH, qEN, qback)对于同一模型之间内部一致,这正是 TTback 所需要的。

#### 效度统计。

在 MMMLU 228 项目样本中,九个模型中的八个实现解析器有效率 ≥ 0.978。例外是 gpt-5.4-mini(0.825)。

相似文章