迷失在解释中：跨语言解释中的合理性与忠实性权衡

arXiv cs.CL 2026/05/20 04:00 论文

cross-lingual explanations llm faithfulness plausibility interpretability

摘要

本文研究了大型语言模型（LLMs）跨语言解释中合理性与忠实性之间的权衡，发现以英语为枢轴的解释在跨度上与人类理由具有更高的一致性，但与原生语言解释相比，其因果忠实性有所降低。

arXiv:2605.19274v1 公告类型：新 \n摘要：部署在多语言环境中的大型语言模型通常通过英语解释来审计非英语输入。我们评估了抽取式解释（即模型识别输入令牌跨度作为证据，同时生成一个理由），并发现了一个系统性的权衡：以英语为枢轴的解释在跨度上与人类理由具有更高的一致性，但其证据在模型预测中的因果基础变得较弱，这通过全面性和充分性进行衡量。在3个任务、5种语言和2个多语言LLM系列中，我们发现英语解释经常产生流畅但锚定松散的理由，与原生语言条件相比，全面性下降高达5.7倍——即使任务准确性在各种设置中保持稳定。对于具有社会细微差别的分类，英语枢轴也未能保留语用线索，降低了忠实性和跨度一致性。我们建议以输入语言进行解释审计，报告超越词汇重叠的多方面忠实性指标，并将英语理由视为沟通摘要而非忠实的决策轨迹。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:24

# 跨语言解释中的合理性与忠实性权衡

来源：https://arxiv.org/html/2605.19274

Somnath Banerjee¹, Pranav Jha¹, Rima Hazra²,³, Animesh Mukherjee¹

¹Indian Institute of Technology Kharagpur  
²TCG Crest  
³National University of Singapore  

###### 摘要

以多语言方式部署的LLM通常通过英语解释来审计非英语输入。我们评估*抽取式*解释（即“模型将输入令牌跨度识别为证据，并附带生成的理由”），并发现了一个系统性权衡：英语中枢解释能够实现与人类理由更高的跨度一致性，同时其证据在模型预测中的因果根基变弱（通过全面性和充分性衡量）。在3个任务、5种语言和2个多语言LLM家族中，我们发现英语解释经常产生流畅但松散锚定的理由，其全面性相对于母语条件下降高达5.7倍——尽管任务准确性在不同设置下保持稳定。对于社交细微分类，英语中枢还未能保留语用线索，同时降低了忠实性和跨度一致性。我们建议在输入语言中进行解释审计，报告超越词汇重叠的多维度忠实性指标，并将英语理由视为沟通摘要而非忠实的决策轨迹。

失之翻译：跨语言解释中的合理性与忠实性权衡

## 1 引言

随着LLM在全球范围内的部署日益广泛（Eiden 2024；Jadhav 等人 2025），它们通常面临跨语言约束，即用户的输入语言与系统的报告语言不同。这种设置常见于客户支持和公共服务工作流等应用中，用户以本地语言（如中文、印地语、马来语）提交请求，而下游的分析师、审计师或运营团队需要英语解释来进行分类和决策（Amazon Web Services 2024；19）。在本工作中，我们特别关注抽取式解释，即模型从输入文本中识别出作为其预测证据的跨度，同时生成自由文本的理由。这种双输出格式（“证据跨度+叙述性解释”）在需要可审计性（哪些跨度重要？）和可解释性（模型为何做出此决策？）的部署系统中很常见。关键的是，叙述性解释可以任何语言生成，但证据跨度始终直接从输入中提取，从而实现语言无关的忠实性评估。

例如，在一个银行支持流程中，用户用印地语报告：“mera UPI debit ho gaya lekin balance nahi aaya”（钱已扣除但未到账）。给后台团队的预期英文摘要应为：“UPI交易：金额已从客户账户扣除，但收款人未收到入账。请检查待处理状态或退款情况。”然而，模型有时会生成错误的摘要：“UPI交易失败”，将“已扣款但未到账”事件归并为一般性失败，从而改变了操作解释。

请参见图注 图1： e-SNLI（Qwen2.5-7B）中的合理性与忠实性权衡。箭头表示从母语解释到英语中枢解释的转变。英语中枢倾向于增加与人类理由的跨度一致性（y轴），同时降低全面性（x轴），表明所引用的证据对预测的因果必要性减弱。

这种报告语言选择通常反映了开发者的偏好、组织策略以及以英语为中心的工具和评估基准的主导地位。这种语言错配引入了一个关键且尚未被充分审视的问题：当模型以不同于输入的语言解释其决策时，解释是否会失去忠实性？换句话说，它是否仍然准确反映模型底层的决策过程？

图1展示了我们研究的核心张力——以英语而非输入语言生成解释，是否会增加感知到的合理性，同时降低忠实性。先前的研究已广泛研究了单语英语环境中自解释的忠实性（Jacovi 和 Goldberg 2020），并建立了合理性与忠实性之间的基本区分（Wiegreffe 等人 2021）。最近，研究转向跨语言设置，探索翻译对之间的归因忠实性（Vamvas 和 Sennrich 2023）。然而，这些研究通常保持输入和报告语言一致，未能将报告语言本身视为独立的实验变量。我们通过系统评估解释-语言错配，并将报告语言作为受控实验变量，来填补这一空白。我们借鉴 Huang 等人（2023）的工作，他们指出多语言LLM通常在推理中表现出英语偏差。我们假设这种常被描述为充分性与流畅性之间权衡的偏差（Conneau 等人 2020），会导致我们称之为合理性与忠实性权衡的现象。

在三个任务——自然语言推理（NLI；Camburu 等人 2018）、事实验证（Thorne 等人 2018）和仇恨言论检测（Mathew 等人 2020）中，我们观察到英语解释通常比输入语言生成的解释具有更高的人类理由跨度一致性，尤其是在推理密集型任务和事实性任务中。人工评分的子样本确认，跨度一致性与感知合理性呈中等相关（ρ=0.67, p<0.001；附录G）。然而，根据ERASER风格评估（DeYoung 等人 2020）进行的基于删除的扰动测试表明，这些相同的英语解释对因果驱动模型预测的特征的忠实性往往较低。

通过本研究，我们做出以下贡献：

1. 我们首次对解释-语言错配进行了受控实证研究，将报告语言作为自变量，并衡量其对跨度级一致性和基于扰动的忠实性（全面性和充分性）的影响。
2. 我们识别出合理性与忠实性权衡：在多种语言和任务中，英语中枢解释可能显示出与人类理由更高的跨度一致性，而其所引用的证据却对模型预测的因果必要性降低，这已通过多个忠实性探测和提示敏感性分析得到确认。
3. 我们表明这种效应是任务依赖的：对于社交细微分类，英语中枢会降低两个维度，揭示出一种与语用线索丢失相关的独特失败模式。

## 2 相关工作

解释中的忠实性与合理性。Jacovi 和 Goldberg (2020) 规范了忠实性（解释是否反映模型的实际推理）与合理性（解释是否对人类有说服力）之间的区分，确立了这两个属性是独立的且可能分化。Wiegreffe 等人 (2021) 通过扰动测试对文本分类器的忠实性测量进行了操作化。ERASER基准（DeYoung 等人 2020）通过全面性和充分性指标标准化了评估，我们采用了这些指标。最近的工作表明，LLM的自解释可能具有说服力但不忠实，充当事后合理化（Turpin 等人 2023；Lanham 等人 2023）。

跨语言可解释性。Vamvas 和 Sennrich (2023)；Banerjee 等人 (2025a) 研究了翻译对之间的归因忠实性，发现翻译可能改变显著性图。Banerjee 等人 (2025b) 从安全性角度探索了可解释NLP能力的跨语言迁移。然而，这两条工作线都保持输入和解释语言一致。我们则将报告语言本身作为受控变量，与此不同。

多语言LLM中的英语偏差。Huang 等人 (2023) 证明多语言LLM通常用英语推理更有效，Conneau 等人 (2020) 则描述了多语言模型中的充分性-流畅性张力。这些发现支持我们的假设：英语中枢解释可能为流畅性优化，但以牺牲对非英语输入线索的忠实性为代价。

## 3 实验框架

为了探究报告语言与模型忠实性之间的关系，我们设计了一个受控实验设置，在保持任务和输入语义恒定的前提下，隔离解释的语言变量。

### 3.1 语言条件

对于每个数据集，我们评估三种仅在输入和报告语言上不同的实验条件，从而隔离报告语言不匹配的影响。

1. 条件A (EN→EN)：输入和解释均为英语。该条件提供单语参照点，近似于解释质量的上限。
2. 条件B (L_native→L_native)：输入和解释均为同一种非英语语言。该条件捕获语言对齐的多语言使用场景。
3. 条件C (L_native→EN)：输入为非英语语言，但解释以英语生成。该条件实例化以英语为中心部署中典型的报告语言不匹配。

### 3.2 数据集与任务

我们使用三个涵盖不同推理需求的基准数据集：(1) e-SNLI (Camburu 等人 2018)：自然语言推理，测试组合与逻辑推理能力。(2) FEVER (Thorne 等人 2018)：事实验证，需要证据识别以及与支持上下文的事实一致性。(3) HateXplain (Mathew 等人 2020)：仇恨言论分类，依赖于对社会细微差别的敏感性。

### 3.3 多语言数据构建

我们评估五种语言：英语 (EN) 以及四种在多语言应用中常见的非英语语言——中文 (ZH)、印地语 (HI)、阿拉伯语 (AR) 和孟加拉语 (BN)。对于每个数据集，我们通过将原始英语测试实例翻译成每种目标语言来构建语义匹配的测试集，同时保留任务格式和黄金标签（示例见图2）。我们使用 NLLB-200 (3.3B distilled)（Costa-jussà 等人 2022），通过官方 Hugging Face checkpoint 访问，来翻译原始英语测试实例。选择 NLLB-200 有三个原因：首先，它对所有四种目标语言（中文、印地语、阿拉伯语、孟加拉语）提供统一的开放权重覆盖，避免了混合翻译系统可能导致的异构质量；其次，FLORES-200 评估基准（Costa-jussà 等人 2022；NLLB Team 等人 2024）公开报告了我们研究中使用每对语言方向的 chrF++ 和 spBLEU 分数，方便读者交叉参考基线翻译质量；第三，该模型完全开放权重且可重现。

为了在语言间保持合理性评估的一致性，我们还翻译了与每个实例相关的人类理由信号。对于 e-SNLI，我们翻译自然语言解释；对于 FEVER，我们使用黄金证据句子作为理由信号；对于 HateXplain，我们翻译全文和注释的突出显示跨度。我们应用 Unicode 标准化，并过滤掉翻译为空或格式错误的实例。为验证翻译质量，我们进行了结构化审计：对于每种目标语言，两名双语注释者通过 Prolific¹¹独立评估 50 个随机抽样的实例，评估 (1) 语义保留（含义是否忠实保留，采用 3 点量表：保留/轻微变化/重大变化）和 (2) 标签有效性（黄金标签对于翻译后的实例是否仍然正确）。完整审计统计数据见附录 H。被任一注释者标记为标签更改的实例被排除。此外，我们计算回译与原始英语之间的 chrF++ 分数（Popović 2015），以提供自动交叉检查。这些措施旨在解决翻译伪影可能混淆合理性或忠实性测量的问题。

请参见图注 图2：翻译示例。

所有实验均使用相同的翻译输入，仅改变模型解释所需使用的语言。这种设计在保持任务语义恒定的同时，隔离了解释语言不匹配。

### 3.4 评估指标

我们沿四个互补维度评估解释。所有跨度级指标均基于模型从输入中逐字复制的证据跨度 E_m(x) 计算。符号说明：对于输入实例 x，令 I(x) 表示其分词后的输入序列。令 E_m(x) ⊆ I(x) 为模型生成的证据跨度所覆盖的输入令牌索引集，令 E_h(x) ⊆ I(x) 为人类理由注释所覆盖的输入令牌索引集（如果可用）。²²对于人类理由以自由形式文本提供（如 e-SNLI 解释）的任务，我们通过精确子串匹配将其与输入对齐（对于非拉丁文字符在字符级别，对于英语在词级别），并将匹配到的输入令牌索引用作 E_h(x)。这种保守方法会低估释义理由的重叠度，从而阻止膨胀的跨度一致性。每种语言的工作示例见附录 B.3。

跨度一致性：我们衡量模型识别的证据与人类注释的证据之间的重叠度。

迷失在解释中：跨语言解释中的合理性与忠实性权衡

相似文章

使用Layer Swap重新思考多语言推理差距

言行而非推理：定位LLM智能体中的忠实度缺口

忠实还是虚构？LLM评审中合理化偏见的因果框架

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

大型语言模型中的解释公平性：关于LLM在不同人口群体中如何证明决策的实证分析

提交意见反馈