使用Layer Swap重新思考多语言推理差距

arXiv cs.CL 论文

摘要

本文重新审视了LLM中的多语言推理差距,发现在可比较的监督条件下,该差距比先前报告的要小。本文引入了Layer Swap,它将来自英语推理专家的中间层权重转移到母语专家,几乎消除了这一差距,同时保留了母语链式思维。

arXiv:2605.26735v1 公告类型:新 摘要:最近的推理型大型语言模型在生成链式思维(CoT)时,即使输入是非英语语言,也主要使用英语。先前的研究表明,强制CoT保持输入语言(\emph{母语推理})会显著降低性能,而允许模型先用英语推理再用输入语言回答(\emph{英语中枢推理})则表现更好。然而,大多数关于这种母语推理差距的研究依赖于推理时干预或有限的母语训练数据。我们在更大规模且监督条件可比较的情况下重新审视了这一对比。我们构建了涵盖六种语言(英语、法语、德语、西班牙语、汉语和斯瓦希里语)的多语言长推理数据集;在\texttt{Qwen/Qwen3-8B-Base}基础上分别微调了母语和英语中枢两种模式的专用模型,并在数学、科学、通用知识和代码四个领域进行了评估。在此设置下,五种非英语语言的平均母语推理差距缩小到1.9%–3.5%,远低于先前报告的数值。对母语专用模型的权重空间分析显示,中间层的微调更新是对齐的,而外层则出现分歧。这表明存在一个很大程度上与语言无关的推理核心,周围是语言特定的层。利用这一结构,我们引入了Layer Swap:将英语专家的更强推理中间层权重转移到每个母语专家中,从而在保持目标语言链式思维的同时,几乎消除了五种非英语语言中的母语推理差距。我们发布了所有模型和数据集。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:09

# 重新思考多语言推理差距:层交换法

来源:https://arxiv.org/html/2605.26735

Maxence Lasbordes¹,²  Amélie Chatelain¹  Djamé Seddah²

¹LightOn, Paris  ²Inria, Paris  
\{maxence\.lasbordes, amelie\}@lighton\.ai  djame\.seddah@inria\.fr

###### 摘要

当前的推理型大语言模型生成的思维链(CoT)主要使用英语,即使提示使用的是非英语语言。先前的工作表明,强制CoT保持输入语言(*原生推理*)会显著降低性能,与允许模型先用英语推理再用输入语言回答(*英语枢纽推理*)相比。然而,大多数关于这种原生推理差距的研究依赖于推理时的干预或有限的母语训练数据。我们在更大规模且监督条件可比的情况下重新审视了这一比较。我们构建了涵盖六种语言(英语、法语、德语、西班牙语、汉语和斯瓦希里语)的长篇多语言推理数据集;在Qwen/Qwen3-8B-Base基础上,分别针对原生推理和英语枢纽推理两种范式微调出专门的模型,并在数学、科学、通用知识和代码领域进行评估。在此设置下,五种非英语语言的平均原生推理差距缩小至1.9%–3.5%,远小于先前报道的值。对原生专家的权重空间分析表明,中间层的微调更新在不同语言间高度对齐,而外层则出现分歧。这揭示了一个核心的、基本与语言无关的推理核心,其周围是语言特定的层。利用这一结构,我们引入了“层交换”方法:将英语专家中更强的推理中间层迁移到每个原生专家中,从而在保持目标语言CoT的同时,基本消除了五种非英语语言中原生推理差距的大部分。我们开源了所有模型和数据集¹¹¹https://huggingface.co/collections/lightonai/multilingual-reasoning。

## 重新思考多语言推理差距:层交换法

参照图注

图1:(*左*)层交换:将英语专家中间层窗口迁移到原生专家中,在保持输入语言CoT的同时,缩小了剩余的原生推理差距。(*右*)本文比较的两种基线:原生推理(CoT使用输入语言,此处为法语)和英语枢纽推理(无论输入语言如何,CoT均使用英语),后者是当前开放多语言推理模型的默认行为。

## 1 引言

推理模型,如OpenAI o1(Jaech et al., 2024 (https://arxiv.org/html/2605.26735#bib.bib34))、DeepSeek-R1(Guo et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib7))和Qwen3(Yang et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib6)),依赖长篇思维链(CoT)来解决数学、代码和科学等领域的复杂任务。在当前的开源推理模型中,CoT绝大部分使用英语生成,即便输入是非英语语言:模型仅在最终回答时切换回输入语言(Saji et al., 2026 (https://arxiv.org/html/2605.26735#bib.bib24); Park et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib16)),我们将这种模式称为*英语枢纽推理*(图1 (https://arxiv.org/html/2605.26735#S0.F1))。这种默认行为会带来实际代价。仅限英语的推理限制了非英语用户的可解释性,减少了原生推理轨迹所捕获的语言和文化细微差异,并且会累积与任务复杂性相复合的翻译型错误(Saji et al., 2026 (https://arxiv.org/html/2605.26735#bib.bib24))。因此,将CoT约束在输入语言内,即*原生推理*(图1 (https://arxiv.org/html/2605.26735#S0.F1)),是可取的,但大多数尝试会显著降低关键基准测试的准确率(Barua et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib23); Zhang et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib18))。我们将针对特定非英语语言训练的原生推理模型称为*原生专家*。

然而,这些测量通常仅通过提示(Saji et al., 2026 (https://arxiv.org/html/2605.26735#bib.bib24); Kang et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib28))或在少量原生推理数据上微调(Barua et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib23); Qi et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib21))获得,所用的后训练预算远低于有意义的原生推理监督所需。据我们所知,一旦原生后训练的规模与英语枢纽后训练相当,报告的差距是否仍然存在,这一点尚未得到充分研究。

在本工作中,我们在严格可比的训练条件下重新审视了这一比较。我们构建了一个大型多语言推理数据集,涵盖六种语言(法语、德语、西班牙语、斯瓦希里语、汉语和英语),每种语言约50万个样本,最长可达32k个token,并在Qwen/Qwen3-8B-Base上使用大约每种语言100亿token的数据进行监督微调(SFT),包括两种范式(原生推理和英语枢纽推理)。在通用知识、数学、代码和科学基准测试中,五种非英语语言的平均原生推理差距缩小至1.9%–3.5%(图2 (https://arxiv.org/html/2605.26735#S1.F2)),远小于先前报道的结果(Barua et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib23); Qi et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib21));差距主要集中在复杂推理基准上,其他基准上的差距则小得多。对每种语言的SFT更新进行权重空间分析进一步表明,跨语言的更新在中间层紧密对齐,但在边界层出现分歧。我们利用这一结构提出了*层交换*(Bandarkar et al., 2024 (https://arxiv.org/html/2605.26735#bib.bib15))(图1 (https://arxiv.org/html/2605.26735#S0.F1)),这是一种免训练的方法,将英语专家的中间层迁移到每个原生专家中。据我们所知,该技术此前尚未应用于长CoT推理模型,也未应用于共享同样推理技能但训练语言不同的专家对(本工作所研究的情形)。层交换可缩小法语和德语83%–89%的差距,斯瓦希里语60%,汉语27%,并在西班牙语上达到英语枢纽推理的上限,且全部保持CoT使用目标语言(图2 (https://arxiv.org/html/2605.26735#S1.F2))。

我们的贡献如下:
(i)一个公开可用的、涵盖六种语言的长CoT推理语料库(32k上下文),CoT使用目标语言,覆盖欧洲和非欧洲语言,包括斯瓦希里语和汉语;
(ii)在可控SFT token预算下,对原生推理与英语枢纽推理差距的大规模、严格控制测量;
(iii)一项权重空间分析,揭示了中间层存在一个基本与语言无关的推理核心,以及一种免训练的层交换方法,利用这一结构在保持目标语言CoT的同时缩小了剩余差距的大部分;
(iv)一项输入语言消融实验,表明在相匹配的原生SFT条件下,输入理解仍然是主要的瓶颈。

参照图注

图2:目标语言下MGSM-Rev2、Global-MMLU-Lite、GPQA-Diamond、AIME 24/25和HumanEvalPlus的平均准确率,针对不同语言xx∈\in  {fr, de, es, zh, sw}。每种语言比较三种设置:原生推理(Qwen3-8B-xx,CoT使用xx)、层交换(Qwen3-8B-xx-Swap,将英语专家中间层窗口迁移到原生专家中,CoT使用xx;详见第5节 (https://arxiv.org/html/2605.26735#S5))和英语枢纽推理(Qwen3-8B-xx-Pivot-EN,CoT使用英语)。

## 2 相关工作

#### 原生多语言推理训练

最近的工作通过数据和后训练目标两种方式尝试解决原生推理差距问题,取得了不同程度的效果。公开可用的原生长CoT语料库仍然稀缺(Ghosh et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib1)):现有发布仅提供每种语言几百到几千个样本(Barua et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib23); Qi et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib21)),而更广泛的多语言语料库要么保留英语CoT,要么不针对长形式推理。在这个有限的范围内,Barua等人(2025 (https://arxiv.org/html/2605.26735#bib.bib23))展示了翻译后的长CoT监督可以有效训练非英语推理模型,这启发了我们在六种语言上以更大规模构建翻译数据管线的做法。

后训练方法同样揭示了显著的原生推理差距。在Qwen/Qwen3-8B-Base上进行纯SFT时,Barua等人(2025 (https://arxiv.org/html/2605.26735#bib.bib23))发现目标语言CoT的表现不如英语枢纽推理,AIME 24/25的差距在九种语言中平均约19%(法语约17%)。Son等人(2025 (https://arxiv.org/html/2605.26735#bib.bib12))在韩语中报告了类似的差距,并通过在推理轨迹中插入英语锚定片段来缓解。基于强化学习(RL)的方法提供了混合的证据:Huang等人(2025 (https://arxiv.org/html/2605.26735#bib.bib17))表明,对非英语数据进行RL可以改善跨语言迁移,而“跨语言崩溃”(Park et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib16))则识别出一种反复出现的失败模式:在GRPO(Shao et al., 2024 (https://arxiv.org/html/2605.26735#bib.bib19))下,随着准确率提升,CoT会漂回英语。

混合方法则结合了两个阶段:“Think Natively”(Zhang et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib18))应用SFT后接带有语言一致性和跨语言对齐奖励的GRPO;而同步的独立工作ReasonXL(Gurgurov et al., 2026 (https://arxiv.org/html/2605.26735#bib.bib20))则在SmolLM3-3B上结合了SFT和RLVR,覆盖五种欧洲语言,上下文长度为16k。与一些先前工作类似,ReasonXL评估训练好的原生专家时是与原始的基座模型进行比较,这可能使得难以区分原生推理的效果与专门化本身的效果。在本工作中,我们则是在相同条件下训练的原生专家和英语枢纽专家之间进行比较,唯一区别在于CoT推理所使用的语言。我们的实验设计使得这种比较能够在更广泛的范围内进行,基于一个8B模型:涵盖六种语言,包括汉语和斯瓦希里语;扩展了32k的训练上下文;并且每种语言都有在匹配的问答数据上训练的原生和英语枢纽专家。

#### 英语作为潜在推理语言

另一条研究路线认为,多语言LLM在内部会通过英语对齐的表征来路由推理。使用logit-lens探测Llama-2,Wendler等人(2024 (https://arxiv.org/html/2605.26735#bib.bib25))表明中间状态会经过一个英语对齐的区域,然后才解析为目标语言;Schut等人(2025 (https://arxiv.org/html/2605.26735#bib.bib26))通过多种语言的激活转向验证了这一点,发现从英语推导的转向向量比从母语推导的具有更强的迁移能力。同样的偏差也体现在行为上:Etxaniz等人(2024 (https://arxiv.org/html/2605.26735#bib.bib27))表明明确的自我翻译成英语可以胜过直接的非英语推理,而Saji等人(2026 (https://arxiv.org/html/2605.26735#bib.bib24))则认为英语枢纽推理引入了“迷失在翻译中”的错误,并且随着任务复杂性而加剧。与我们的设置最接近的是Kang等人(2025 (https://arxiv.org/html/2605.26735#bib.bib28)),他们将多语言推理差距的大部分归因于输入理解而非推理过程本身。我们通过一项额外的消融实验重新审视了这一分解:该实验在我们的原生专家中仅改变输入语言(这些模型自然会在其训练语言中继续推理,而不受任何约束),从而将推理语言的贡献与输入理解的贡献分离开来。

## 3 数据和基准

### 3.1 数据集构建

在非英语语言中训练开源推理模型需要大量包含长CoT推理轨迹的母语语料库,这些语料库目前仍然稀缺。我们通过从英文源进行自动翻译来构建这样一个语料库,样本最多可达32,768个token,涵盖五种目标语言。

#### 源语料库

我们从*allenai/Dolci-Think-SFT-32B*(Olmo et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib4))出发,这是一个经过去污染的英文后训练数据集,涵盖数学、代码、指令遵循、科学、安全、通用聊天和结构化数据。我们均匀采样约50万个示例,保持类别分布(表3 (https://arxiv.org/html/2605.26735#A1.T3),附录)。

#### 语言

我们针对五种语言,涵盖多样的类型学和资源条件:法语、德语和西班牙语(高资源欧洲语言,拉丁字母)、汉语(高资源、非字母文字、类型学上距离较远)以及斯瓦希里语(低资源)。加上原始的英语子集,我们得到了每种语言约50万个样本的六种语料库(表A.1 (https://arxiv.org/html/2605.26735#A1.SS1),附录)。

#### 翻译

受先前证据(翻译后的长CoT数据优于直接母语蒸馏)的启发(Barua et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib23)),我们使用google/gemma-3-27b-it将英语语料库翻译成五种目标语言,该模型因其强大的多语言覆盖能力而被选中。单次翻译表现出两种失败模式:对于最长的样本(输入加输出达64K token),模型会进入退化的长上下文区域,频繁出现循环;此外,与长度无关,在少量但持续的样本中,模型会静默地丢弃推理轨迹,而仍翻译问题和最终答案,这种失败在使用其他“分隔符”时也持续存在。因此,我们将每个样本按组件翻译:将问题、推理轨迹和最终答案在句子或段落边界处分割成约2k token的块,独立翻译每个块,然后重新组合,但这会牺牲一定的全局连贯性。我们手动检查了部分翻译以验证质量和推理轨迹的保留情况。

#### 过滤

我们应用了两轮过滤。在翻译前,我们移除了明确提到翻译成或使用特定语言回答的英文样本,因为它们在翻译后会变得自相矛盾。在翻译后,我们丢弃了(i)空输出;(ii)zlib(Gailly and Adler, 2012 (https://arxiv.org/html/2605.26735#bib.bib35))压缩比与源数据集的均值异常偏离的样本(这能捕捉到退化或重复的输出);(iii)翻译后与源文本长度比同样异常偏离的样本(标志截断或过度生成);(iv)总长度超过32K token训练上下文的样本(这对分词效率较低的语言(如斯瓦希里语)或较冗长的语言(如法语、西班牙语)影响尤为严重)。分块翻译限制了每次调用的上下文,并保持了较低的翻译错误率。

### 3.2 基准测试

我们在四个不同领域进行评估:

- **数学**:*MGSM-Rev2*(Peter et al., 2025 (https://arxiv.org/html/2605.26735#bib.bib2)),这是小学数学基准*GSM8K*(Shi et al., 2022 (https://arxiv.org/html/2605.26735#bib.bib5))的修订版多语言版本,修正了翻译错误;以及*AIME24*和*AIME25*(Qi et al., 2025 (https://arxiv.org/html/26

相似文章

多语言思维,而非更难的思维:教授推理模型代码切换的数据高效框架

arXiv cs.CL

本文介绍了一个数据高效的微调框架,用于教授推理模型有效地进行代码切换(混合使用多种语言),证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为,并开发了促进有益代码切换模式的干预措施。

大规模推理模型(尚)不是多语言潜在推理器

arXiv cs.CL

本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。

面向多语言推理的跨语言在线策略自蒸馏

Hugging Face Daily Papers

本文提出了跨语言在线策略自蒸馏(COPSD)方法,该方法通过共享的学生-教师架构,将高资源语言的推理能力迁移到低资源语言中。在17种非洲语言上的实验表明,该方法的数学推理能力和答案格式遵循度均得到显著提升,性能优于组相对策略优化(GRPO)。

通过纠正少数决策令牌即可恢复推理能力

arXiv cs.AI

本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。