所有语言都重要:理解并缓解多语言 RAG 中的语言偏见

arXiv cs.CL 论文

摘要

研究者发现多语言 RAG 重排器存在系统性英语与查询语言偏见,提出 LAURA——一种面向效用的对齐方法,通过跨语言检索答案关键文档显著提升性能。

arXiv:2604.20199v1 公告类型: new 摘要:多语言检索增强生成(mRAG)利用跨语言证据将大型语言模型(LLM)锚定于全球知识。然而,我们发现当前 mRAG 系统在重排阶段存在语言偏见,系统性地偏向英语及查询本身语言。通过引入估计的“神谕证据”分析,我们量化了现有重排器与可达到上限之间的显著性能差距。进一步分析揭示关键的分布失配:虽然最优预测需要分散在多语种的证据,现有系统却系统性地压制这类“答案关键”文档,从而限制下游生成性能。为弥合这一差距,我们提出**语言无关、效用驱动的重排器对齐(LAURA)**,将多语言证据排序与下游生成效用对齐。在多种语言与生成模型上的实验表明,LAURA 有效缓解语言偏见,并持续提升 mRAG 性能。
查看原文
查看缓存全文

缓存时间: 2026/04/23 10:03

# 理解并缓解多语言 RAG 中的语言偏见  
来源:https://arxiv.org/html/2604.20199  
王丹¹²,∗,莫国钊¹²,石亚飞³,张成³,郑波³,曹博希¹,†,陈轩昂¹,陆垚杰¹,林宏宇¹,何苯¹²,韩先培¹²,孙乐¹²  
¹ 中国科学院软件研究所中文信息处理实验室  
² 中国科学院大学  
³ 蚂蚁集团网商银行  
{wangdan2023, moguozhao2024, caoboxi, chenxuanang}@iscas.ac.cn  
{shiyafei.syf, zc481262, guangyuan}@mybank.cn  
[email protected]  
{luyaojie, hongyu, sunle, xianpei}@iscas.ac.cn  

###### 摘要  

多语言检索增强生成(mRAG)利用跨语言证据将大模型锚定在全球知识中。然而,我们发现当前 mRAG 系统在重排序阶段存在语言偏见:系统性地偏向英语与查询母语。通过引入“估计 Oracle 证据”分析,我们量化了现有重排序器与理论上限之间的巨大差距。进一步分析发现关键分布错配:最优预测需要多语言证据,但现有系统却系统性压制这些“答案关键”文档,从而限制下游生成效果。为此,我们提出 Language-Agnostic Utility-driven Reranker Alignment(LAURA),将多语言证据排序与下游生成效用对齐。跨多种语言与生成模型的实验表明,LAURA 有效缓解语言偏见并持续提升 mRAG 性能。  

所有语言都重要:理解并缓解多语言 RAG 中的语言偏见  

王丹¹²,∗,莫国钊¹²,†(同等贡献),石亚飞³,张成³,郑波³,曹博希¹,†,陈轩昂¹,‡(通讯作者),陆垚杰¹,林宏宇¹,何苯¹²,韩先培¹²,孙乐¹²  
¹ 中国科学院软件研究所中文信息处理实验室  
² 中国科学院大学  
³ 蚂蚁集团网商银行  

## 1 引言  

检索增强生成(RAG)通过引入外部文档证据,已成为提升大模型事实一致性、知识覆盖与可控性的核心技术。多语言 RAG(mRAG)因此成为服务全球用户的关键技术。现实世界中,知识在各语言间并非均匀分布,而是呈现跨语言、互补结构:许多地域事实、文化语境、政策细节与技术知识仅存在于特定语言。因此,有效的 mRAG 系统不应仅支持多语言输入输出,而应跨语言选取并融合文档,为生成模型提供信息价值最大化的证据集。  

图 1:重排序语言偏见导致的失败示例。  

尽管目标如此,已有研究报道当前 mRAG 系统存在偏见。本文系统分析该偏见,并进一步探究其成因及对下游预测的重大影响。  

基于 MKQA 数据集,我们在 13 种语言、多种重排序器上展开全面评估。首先构建多语言候选文档池,执行标准检索与重排序,随后分析 top 文档的语言构成。结果发现:当前 mRAG 系统在重排序阶段表现出显著语言偏好,系统性地偏向英语与查询母语。例如,使用主流 BGE 重排序器时,平均 70% 以上的 top-5 文档来自英语与查询语言。  

这种偏见可能源于:1) 某些语言确实包含更准确或更丰富的信息;2) 重排序模型多语言能力有限,难以识别其他语言中的相关证据。为厘清二者,我们提出一种多语言证据估计方法,近似最优下游预测所需的 Oracle 证据分布,独立于重排序器的语言偏好。  

对比发现,现有重排序器跨语言能力有限,与 Oracle 相比性能差距近 20%。进一步分析表明,Oracle 证据在多语言间分散,而非被单一语言主导;候选集中已存在的高质量多语言证据被语言偏见重排序器系统性降权,从而限制下游性能。  

为此,我们提出 LAURA:通过将证据选择与下游生成质量对齐,缓解多语言重排序中的语言偏见。LAURA 不再仅依赖语义相关信号(易偏向查询语或高资源语言),而是利用实际带来更好生成结果的多语言文档作为监督,训练重排序器优先选择“答案关键”证据,无论其语言。该效用驱动对齐减少证据选择中的系统语言偏好,并持续提升生成效果。  

主要贡献:  
- 系统研究并量化 mRAG 中的语言偏见;提出估计 Oracle 证据分析框架,揭示该偏见显著制约生成性能。  
- 提出 LAURA,以生成结果为监督的效用驱动重排序框架,有效缓解语言偏见并一致提升下游任务表现。  

## 2 mRAG 系统中的重排序偏见  

图 2:Oracle 证据估计策略示意:按语言分组候选文档,各语言独立重排序选 top-5,再按答案正确性挑选多语言证据。  

以往工作发现 mRAG 性能下降,但多聚焦于翻译等流水线级优化,未严格量化理论上限,亦未厘清瓶颈在于检索池信息不足,还是筛选机制无法识别多语言证据。为此,我们系统对比标准检索流程与 Oracle 证据估计设置,揭示“相关度”选择与“答案效用”间的错配。  

### 2.1 语言分布分析  

我们定义两种对比设置及语言分布分析方法。  

#####  vanilla 文档重排序。  

沿用标准多语言 RAG 设置,对每条查询 q∈Q,从统一多语言语料(共 13 种语言)中检索。流程分两阶段:首先用 BGE-M3 跨语言取 top-50 候选段落;其次用多语言重排序器(如 BGE-Reranker-V2-M3、Qwen3-Reranker-0.6B)选 top-5 段落拼接为生成上下文。下游答案质量按后续指标评估。  

##### Oracle 证据估计。  

如图 2,为估计候选池性能上限,采用按语言重排序策略:将 50 候选按文档语言分组,每组内选 top-5(不足则全取),生成该语言专属答案。查询 q 的最终性能取所有语言组中的最高分,作为语言选择的估计上限。检索与重排序分别使用 BGE-M3 与 BGE-Reranker-V2-M3。  

##### 语言分布计算。  

- vanilla 分布:对每条查询,统计 top-5 文档中各语言比例,再按查询语言平均,得整体上下文语言分布。  
- Oracle 分布:对每条查询,找出产生最佳答案的文档语言,按性能赋权重:单语言最佳则权重 1,多语言并列则均分。再按查询语言平均。  

### 2.2 实验设置  

##### 数据集。  

多语言文档语料使用英文 Wikipedia 与各用户语言 Wikipedia,按 100 词切分;中文、日文、泰文按 100 Unicode 字符切分,并附加文章标题。  

多语言问答采用 MKQA 数据集,含 10k NQ 问题翻译自 25 种语言。我们选取与 KILT NQ 重叠的 2.7k 样本,以获取文档级相关判断。  

##### 模型。  

检索:BGE-M3。  
重排序:BGE-Reranker-V2-M3(编码器类)、Qwen3-Reranker-0.6B(LLM 类)。  
生成:Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct。  

##### 评估指标。  

采用字符级 3-gram 召回,详见附录 A。  

### 2.3 分析结果  

#### 2.3.1 多语言重排序器存在系统语言偏见  

##### 结论 1  

当前多语言 RAG 系统在重排序阶段表现出显著语言偏好,系统性地偏向英语与原始查询语言。  

图 3 热图显示两条主导模式:对角线强烈偏向查询语言,水平线强烈偏向英语。以 BGE-Reranker 为例,约 60% 候选文档集中于英语与查询语言。这表明重排序器主要依据表层语言匹配或英语先验,而非公平评估各语言语义相关度。

相似文章

将LLM性别偏见锚定于人类基线:一项跨语言审计

arXiv cs.CL

本文对六种大型语言模型在英语、韩语、中文和日语中的性别刻板印象进行审计,并以人类基线作为锚定。研究发现,LLM的刻板印象程度往往超过人类跨国差异,且可能跨语言叠加,为此引入了一个四模式框架来表征此类行为。

使用Layer Swap重新思考多语言推理差距

arXiv cs.CL

本文重新审视了LLM中的多语言推理差距,发现在可比较的监督条件下,该差距比先前报告的要小。本文引入了Layer Swap,它将来自英语推理专家的中间层权重转移到母语专家,几乎消除了这一差距,同时保留了母语链式思维。