通过一致性驱动的强化学习提升跨语言事实召回
摘要
本文介绍了PolyFact,一个大规模多语言事实问答数据集,并展示了通过GRPO的强化学习相比监督微调能显著提升LLM的跨语言事实一致性,通过重组多语言表示。
arXiv:2606.06586v1 公告类型:新
摘要:主要基于英语数据训练的大型语言模型(LLM)编码了大量世界知识,但往往无法在其他语言中可靠地表达这些知识,这种现象称为跨语言事实不一致性。为了研究并解决这一问题,我们引入了PolyFact,一个大规模并行多语言事实问答数据集,包含12种类型多样语言中10万个基于维基数据的事实。利用PolyFact,我们比较了轻量持续预训练(CPT)、监督微调(SFT)和基于组相对策略优化(GRPO)的强化学习在Qwen-2.5-7B和OLMo-2-1124-7B上提升跨语言事实召回的效果。我们发现GRPO始终优于SFT,在跨语言一致性和对未见语言的泛化方面均有提升,而基于并行数据的CPT带来的额外收益有限。机制分析进一步表明,GRPO通过减少MLP层和注意力头中的语言专门化,重组了多语言路由,从而促进了更多共享的跨语言表示。我们公开了代码、模型和数据集。
查看缓存全文
缓存时间: 2026/06/08 09:18
# 通过一致性驱动的强化学习提升跨语言事实回忆
来源: https://arxiv.org/html/2606.06586
Jonathan von Rad††通讯作者。 Louis Arts George Burgess Eleftheria KolokythaHarry O’Donnell Ektor Oikonomidis Doumpas Eduardo SanchezYao Lu Pontus Stenetorp伦敦大学学院,人工智能中心
\{jonathan\.rad\.25,eduardo\.sanchez\.22,yao\.lu\}@ucl\.ac\.uk
###### 摘要
以英语数据为主训练的大型语言模型 (LLMs) 编码了丰富的世界知识,但往往无法在其他语言中可靠地表达这些知识,这被称为*跨语言事实不一致*。为了研究并解决这一问题,我们推出了**PolyFact**,一个大规模、完全并行的多语言事实问答数据集,包含跨越12种类型多样化语言的10万个基于维基百科的事实。我们利用该数据集,比较了轻量级持续预训练 (CPT)、监督微调 (SFT) 以及通过组相对策略优化 (GRPO) 进行的强化学习,以提升 Qwen-2.5-7B 和 OLMo-2-1124-7B 的跨语言事实回忆能力。GRPO 始终优于 SFT,既提升了跨语言一致性,也增强了向未见语言的泛化能力;而基于并行数据的 CPT 带来的额外提升有限。机制分析表明,GRPO 通过减少 MLP 层和注意力头中的语言专门化,并促进共享的跨语言表示,从而重组了多语言路由。我们公开了代码、模型和数据集。111jvonrad/Lost-in-Mistranslation (https://github.com/jvonrad/Lost-in-Mistranslation) jvonrad/PolyFact (https://huggingface.co/datasets/jvonrad/PolyFact)
通过一致性驱动的强化学习提升跨语言事实回忆
Jonathan von Rad††通讯作者。 Louis Arts George Burgess Eleftheria KolokythaHarry O’Donnell Ektor Oikonomidis Doumpas Eduardo SanchezYao Lu Pontus Stenetorp伦敦大学学院,人工智能中心
\{jonathan\.rad\.25,eduardo\.sanchez\.22,yao\.lu\}@ucl\.ac\.uk
## 1 引言
以英语数据为主训练的大型语言模型 (LLMs) 编码了丰富的世界知识,但难以在其他语言中可靠地访问这些知识,导致了**跨语言事实不一致**Wang等人(2025a (https://arxiv.org/html/2606.06586#bib.bib1)); Schut等人(2025 (https://arxiv.org/html/2606.06586#bib.bib10))。这引发了一个关键问题:如何使模型能够通过非英语界面访问其已经存在的潜在知识,而无需进行大规模额外的预训练?
最近的研究表明,多语言模型可能依赖共享的内部表示Schut等人(2025 (https://arxiv.org/html/2606.06586#bib.bib10)); Wendler等人(2024 (https://arxiv.org/html/2606.06586#bib.bib30)),其中推理在共享的潜在空间中进行,然后转换为目标语言。与此观点一致,先前的工作表明,跨语言事实不一致通常并非源于知识缺失,而是在*语言转换阶段*出现Wang等人(2025a (https://arxiv.org/html/2606.06586#bib.bib1)); Gekhman等人(2025 (https://arxiv.org/html/2606.06586#bib.bib24)); Lu等人(2025 (https://arxiv.org/html/2606.06586#bib.bib29)); Liu等人(2025b (https://arxiv.org/html/2606.06586#bib.bib35))。具体来说,模型可能在中间层正确检索到答案,但无法在后续层将其可靠地映射到目标语言,从而导致跨语言的输出不一致或错误。
参考图例图1:通过在 PolyFact 数据集上进行后训练来激励跨语言事实一致性。基于 GRPO 的强化学习促进了共享的内部表示,从而在不同语言中产生一致的事实预测,而 SFT 主要导致表面级的记忆。
最近,并行数据已被确定为预训练期间多语言能力的关键驱动因素Qorib等人(2025 (https://arxiv.org/html/2606.06586#bib.bib2)); Shao等人(2026 (https://arxiv.org/html/2606.06586#bib.bib23)); Wang等人(2025b (https://arxiv.org/html/2606.06586#bib.bib28)); Qorib等人(2025 (https://arxiv.org/html/2606.06586#bib.bib2)); Fu等人(2024 (https://arxiv.org/html/2606.06586#bib.bib25)); Lin等人(2025 (https://arxiv.org/html/2606.06586#bib.bib27)); Wu等人(2024 (https://arxiv.org/html/2606.06586#bib.bib26))。然而,虽然对并行语料库进行持续预训练 (CPT) 可以提升翻译流利度,但往往无法显著改善更具挑战性的任务(如多语言事实回忆)的性能Shen等人(2025 (https://arxiv.org/html/2606.06586#bib.bib3))。这表明,并行数据主要改善了内部表示的对齐,但模型仍然难以通过非英语语言界面可靠地访问由对齐表示编码的知识,从而导致多语言输出不一致。
基于这一见解,我们假设,对于以英语为主的 LLM,可以通过将*表示对齐*与*跨语言知识访问*分离,在不进行大规模重训练的情况下,提升其多语言事实回忆能力。具体而言,我们的贡献如下:
1. (i) 我们表明,对并行数据进行轻量级 CPT 对跨语言事实回忆的提升有限,从而激励将多语言事实问答作为更直接的机制进行后训练,以提升以英语为主的 LLM 的潜在事实知识访问能力。
2. (ii) 我们证明,在事实问答后训练方法中,通过 GRPO 进行的一致性驱动 RL 始终优于 SFT,提升了跨语言事实一致性和向未见语言的泛化能力,同时重塑了内部表示和多语言路由,如图1 (https://arxiv.org/html/2606.06586#S1.F1) 所示。
3. (iii) 我们创建并开源了 **PolyFact**,一个完全并行的多语言事实问答数据集,基于维基百科,包含跨越12种类型多样化语言(涵盖高资源和低资源语言,如图2 (https://arxiv.org/html/2606.06586#S3.F2) 所列)的10万个事实。
## 2 相关工作
#### 跨语言事实回忆。
最近对大型语言模型 (LLMs) 的机制研究发现,跨语言事实回忆任务的主要瓶颈并非知识不足,而是语言转换阶段的失败Wang等人(2025a (https://arxiv.org/html/2606.06586#bib.bib1))。这种故障可能发生在早期层,即模型无法将提示映射到其共享的类英语语言无关概念空间;或者更常见的是,发生在最终层,即潜在概念无法解码为正确的目标语言 tokenLiu等人(2025b (https://arxiv.org/html/2606.06586#bib.bib35)); Wang等人(2025a (https://arxiv.org/html/2606.06586#bib.bib1))。虽然诸如“主题注入”或英语枢轴法Bandarkar等人(2026 (https://arxiv.org/html/2606.06586#bib.bib36)); Liu等人(2025b (https://arxiv.org/html/2606.06586#bib.bib35)) 之类的查询级干预措施可以暂时缓解这些不一致,但它们只是推理时的补丁。它们的成功表明,跨语言对齐是多语言一致性的一个重要瓶颈,从而激发了更持久的模型级适应。
#### 并行数据。
扩展以英语为中心的语言模型多语言能力的一种常见方法依赖于持续预训练 (CPT)Fujii等人(2024 (https://arxiv.org/html/2606.06586#bib.bib5)); Kuulmets等人(2024 (https://arxiv.org/html/2606.06586#bib.bib6)); Shao等人(2026 (https://arxiv.org/html/2606.06586#bib.bib23))。然而,CPT 计算成本高昂,并且常常导致原始模型英语能力的灾难性遗忘Fujii等人(2024 (https://arxiv.org/html/2606.06586#bib.bib5))。最近,并行数据已被确定为预训练期间多语言能力最显著的来源Qorib等人(2025 (https://arxiv.org/html/2606.06586#bib.bib2)); Fu等人(2024 (https://arxiv.org/html/2606.06586#bib.bib25)); Lin等人(2025 (https://arxiv.org/html/2606.06586#bib.bib27)); Wu等人(2024 (https://arxiv.org/html/2606.06586#bib.bib26))。然而,Shen等人(2025 (https://arxiv.org/html/2606.06586#bib.bib3)) 指出了其一个显著局限性:虽然对并行语料库进行 CPT 可以提升翻译能力,但往往无法显著提高更具挑战性任务(如跨语言事实回忆)的性能。这表明,虽然 CPT 成功创建了一个表现性的接口,通过表面流利度给人多语言能力的错觉,但它很大程度上仍然与模型的内部知识脱节。
#### 通过强化学习进行后训练。
强化学习 (RL) 作为一种后训练方法的出现,为适应新领域和改善与任务特定目标的对齐提供了一条新路径。Matsutani等人(2025 (https://arxiv.org/html/2606.06586#bib.bib37)) 的机制分析表明,监督微调 (SFT) 和 RL 在后训练期间扮演互补角色:SFT 扩展了模型的行为搜索空间,而 RL 则“压缩”它,将概率质量集中在一致且正确的推理路径上。虽然当前关于单语言推理一致性的工作,如 DeReasonHu等人(2026 (https://arxiv.org/html/2606.06586#bib.bib38)) 和 CC-LearnYe等人(2025 (https://arxiv.org/html/2606.06586#bib.bib39)),强调 RL 在 SFT “热身”之后最有效,以缓解其冷启动问题,但 RL 对跨语言一致性的影响在很大程度上尚未被探索。GRPO 由 DeepSeek-R1 普及,通过可验证的一致性奖励来激励推理能力Guo等人(2025 (https://arxiv.org/html/2606.06586#bib.bib16))。该方法最近在多语言领域得到了验证,由Qi等人(2026 (https://arxiv.org/html/2606.06586#bib.bib40)) 应用于 RAG,从而为多语言优化带来了根本性转变。
## 3 方法
#### PolyFact 数据集。
我们构建了 **PolyFact**,一个用于研究跨语言事实一致性的完全并行的多语言多项选择题 QA 数据集。从维基百科 truthy 三元组开始,222https://dumps.wikimedia.org/wikidatawiki/entities/latest-all.json.bz2 我们保留了涵盖地理、传记、创意作品以及组织或文化纽带的22个事实关系,并从图2 (https://arxiv.org/html/2606.06586#S3.F2) 所示的12种高资源和低资源语言中提取标签。对于每个事实,我们从同一属性的共现对象中采样三个类型和长度匹配的干扰项,然后使用轮询平衡采样获取10万个事实。我们使用 Gemma-3-27B-IT 生成并行的多项选择题包(Kamath等人,2025 (https://arxiv.org/html/2606.06586#bib.bib22))。通过使用基于网络的 GPT-4o 评判员和人工审核进行质量评估,达到91%的 LLM-人工一致性,并为高模糊性关系推荐了一个 **PolyFact-Clean** 过滤器。最终语料库包含95,000个训练事实、2,500个验证事实和2,500个测试事实,并包含验证标签和质量等级。更多细节见附录 D (https://arxiv.org/html/2606.06586#A4)。
#### 持续预训练。
我们在 **TED2025**Shen等人(2025 (https://arxiv.org/html/2606.06586#bib.bib3)) 上进行持续预训练,这是一个覆盖图2 (https://arxiv.org/html/2606.06586#S3.F2) 中12种语言的多路并行语料库。我们保留包含至少两种目标语言的演讲,并将每一行格式化为一个多语言块,其中可用的翻译版本出现一次,按随机顺序排列,后跟一个序列结束标记。来自同一演讲的相邻行被打包成约 ∼\\sim512 个 token 的块,并在1024个 token 处截断。为了提高斯瓦希里语和孟加拉语的覆盖率,我们用 Rogendo 英语-斯瓦希里语和 AI4Bharat Samanantar 英语-孟加拉语句子对来增强 TED2025。最终的 CPT 语料库包含325,134个打包块,总计2.355亿个 token(表3 (https://arxiv.org/html/2606.06586#A2.T3))。
参考图例图2:将语言覆盖率从仅英语扩展到12种使用最广泛的语言(占全球人口的 18.5% → 70%)。
#### 通过 GRPO 进行后训练。
我们在 PolyFact 数据集上应用 GRPO 的多语言变体Shao等人(2024 (https://arxiv.org/html/2606.06586#bib.bib17)),其中每个训练项都是一个事实多项选择题,以所有12种语言的并行版本提供。对于每个事实,我们采样 G=8G=8 个分组 rollout;每个 rollout 由十二个*独立*生成组成,每种语言一个,由语言特定的提示生成,指示模型以目标语言返回答案。对于一个产生跨 L=12L=12 种语言的答案 \{y^l\}l=1L\\\{\\\hat\\{y\\}\_\\{\\ell\\}\\}\_\\{\\ell=1\\}^\\{L\\} 的 rollout,奖励计算如下
R\\displaystyle R =∑l=1Lrl\+1\[∀l,rl=1\],\\displaystyle=\\sum\_\\{\\ell=1\\}^\\{L\\}r\_\\{\\ell\\}\\;\\+\\;\\mathbb\\{1\\}\\\!\\left\[\\forall\\ell,\\;r\_\\{\\ell\\}=1\\right\],(1)rl\\displaystyle r\_\\{\\ell\\}=\{\+1y^l正确选项−0\.5y^l幻觉0y^l错误选项\\displaystyle=\\begin\\{cases\\}\+1&\\hat\\{y\\}\_\\{\\ell\\}\\text\\{ 正确选项\\}\\\\ \-0\.5&\\hat\\{y\\}\_\\{\\ell\\}\\text\\{ 幻觉\\}\\\\ \\phantom\\{\\+\\}0&\\hat\\{y\\}\_\\{\\ell\\}\\text\\{ 错误选项\\}\\end\\{cases\\}(2)
其中,如果 y^l\\hat\\{y\\}\_\\{\\ell\\} 与黄金答案 yl⋆y^\\{\\star\\}\_\\{\\ell\\} 匹配,则答案被视为正确;如果与 Ol\\mathcal\\{O\\}\_\\{\\ell\\} 中的任何选项都不匹配,则视为无效。最后一项在所有语言都回答正确时添加 \+1\+1 的奖励,以鼓励跨语言一致性。
#### 通过 SFT 进行后训练。
作为 GRPO 的监督对应项,我们在 PolyFact 上对 Qwen-2.5-7B 和 OLMo-2-1124-7B 进行微调,使用联合分类加一致性目标:
L=−1L∑l=1Llogpl\(yl⋆\)\+λ⋅1L∑l=1LKL\(pl∥sg\(p ̄\)\),\\mathcal\\{L\\}=\-\\tfrac\\{1\\}\\{L\\}\\sum\_\\{\\ell=1\\}^\\{L\\}\\log p\_\\{\\ell\\}\(y^\{\\star\}\_\\{\\ell\}\)\\;\\+\\;\\lambda\\cdot\\tfrac\\{1\\}\\{L\\}\\sum\_\\{\\ell=1\\}^\\{L\\}\\mathrm\\{KL\\}\\\!\\left\(p\_\\{\\ell\\}\,\\\|\\,\\mathrm\\{sg\\}\(\\bar\\{p\}\)\\right\),(3)其中 pl∈Δ4p\_\\{\\ell\\}\\in\\Delta^\\{4\\} 是模型在语言 l\\ell 上关于 \{A,B,C,D\\}\\\{A,B,C,D\\\} 的分布,p ̄\\bar\\{p\\} 是事实的 L=12L\\{=\\}12 个并行副本(在同一前向传播中处理)的组均值,sg\(⋅\)\\mathrm\\{sg\\}\(\\cdot\) 是停止梯度,λ=0\.5\\lambda=0\.5。我们引入一致性项,因为初步的 GRPO 实验表明,其联合奖励将模型的内部表示重塑为更语言无关的空间;为了分离这种效应是由*目标*(奖励跨语言一致)还是由*算法*(在线策略 RL)驱动的,我们的 SFT 基线必须共享前者。λ=0\\lambda=0 的纯 SFT 变体的结果见附录 E.1 (https://arxiv.org/html/2606.06586#A5.SS1)。
#### 机制可解释性 - LAHIS
为了研究微调如何影响内部语言处理,我们将 LAHISLiu等人(2025a (https://arxiv.org/html/2606.06586#bib.bib13)) 应用于基础模型、SFT 微调和 GRPO 微调模型。LAHIS 使用关于学习到的头掩码的一阶泰勒近似来估计单个注意力头对语言特定处理的贡献。我们使用来自 TED2025 语料库的并行句子跨所有12种语言运行分析Shen等人(2025 (https://arxiv.org/html/2606.06586#bib.bib3))。对于每种语言,注意力头根据其产生的重要性得分进行排名,排名前2%(在 OLMo-2-7B 的 32×3232\\times 32 配置中为20个,共1024个)的头被指定为语言特定头。相似文章
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。
质询的艺术:一致性增强空间推理中的事实性
本文提出一种自监督强化学习框架,利用一致性验证器(检查变换下几何和语义一致性的奖励函数)来提升大型推理模型的空间推理能力,无需真实标注。该方法接近监督微调的准确率,并能泛化到多种任务。
FACTS Grounding:评估大语言模型事实性的新基准
DeepMind推出FACTS Grounding,这是一个包含1,719个示例的全面基准测试,用于评估大语言模型在源材料中的事实依据能力以及避免幻觉的准确性。该基准包括一个公开数据集和一个在线Kaggle排行榜,用于追踪LLM在事实准确性和事实依据任务上的表现。
基于语义奖励的强化学习实现低资源语言扩展而无对齐代价
本文提出使用基于语义奖励的强化学习(通过GRPO)来将LLM扩展到低资源语言,避免了典型的灾难性遗忘对齐代价,展示了相比监督微调更好的语义质量和迁移性。
跨语言共识:通过多语言自一致性对齐多语言文化知识
本文提出一个自监督框架,利用多语言自一致性和自我批评机制在不同语言间迁移文化知识,通过从本地语言表征中揭示潜在文化知识,在BLEnD基准测试的英语查询中平均提升5.03%。