x1:跨语言与文化自适应推理学习

arXiv cs.CL 论文

摘要

研究人员推出了 x1,这是一类推理模型家族,能够针对每个具体实例自适应地选择最优语言进行推理,证实了在多语言及文化相关任务中,语言选择会对推理质量产生影响。

arXiv:2604.16917v1 公告类型:新发布 摘要:语言编码了不同的抽象概念与归纳先验,然而大多数大语言模型(LLM)却忽视这种多样性,仅依赖单一主导语言进行推理。在本工作中,我们推出了 x1,这是一类推理模型家族,能够针对每个具体实例自适应地在优势语言中进行推理。为独立验证推理语言选择的影响,x1 的构建并未拓展模型的知识边界,而是通过对比相同输入下语言特征迥异的推理轨迹进行训练。广泛的实验结果表明,自适应多语言推理在多语言数学推理与文化语境任务中均展现出显著优势。此外,我们的研究结果挑战了关于缩放定律(scaling laws)的简化认知:尽管模型规模的扩大减少了数学推理等程序性领域的跨语言差异,但并不会消除文化关联语言在文化语境任务中的优势,因为我们通过实证表明,此类推理能够实现更高效、更准确的文化知识召回。总体而言,我们的发现确立了语言选择作为推理过程的一项功能组件,这对构建更具通用性和全球胜任力的推理模型具有重要启示。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:04

# x1: 跨语言与文化自适应思考学习
来源: https://arxiv.org/html/2604.16917
Yangfan Ye<sup>1</sup>, Xiaocheng Feng<sup>1,2</sup>††感谢: 通讯作者, Xiachong Feng<sup>3</sup>, Yichong Huang<sup>1</sup>, Zekun Yuan<sup>1</sup>, Lei Huang<sup>1</sup>, Weitao Ma<sup>1</sup>, Qichen Hong<sup>4</sup>, Yunfei Lu<sup>4</sup>, Dandan Tu<sup>4</sup>, Bing Qin<sup>1,2</sup>
<sup>1</sup>哈尔滨理工大学 <sup>2</sup>鹏城实验室 <sup>3</sup>香港大学 <sup>4</sup>华为技术有限公司
\{yfye, xcfeng\}@ir.hit.edu.cn

###### 摘要
语言编码了不同的抽象概念与归纳先验,但大多数大语言模型(LLMs)通常通过单一的主导语言进行推理,从而忽视了这种多样性。在本文中,我们引入 **x1**,这是一系列能够*自适应地*在每个实例基础上选择优势语言进行推理的推理模型。为了隔离推理语言选择的独立效应,x1 的构建并未扩展模型的知识边界,而是通过对同一输入采用语言学上截然不同的推理轨迹进行对比训练。我们的广泛实验证明了自适应多语言推理在多语言数学和文化关联任务中的显著优势。此外,我们的结果挑战了关于缩放定律(scaling law)的简单化观点:虽然缩放降低了数学推理等程序性领域中的跨语言差异,但并未消除在文化场景中与文化关联语言进行推理的优势。正如我们所实证表明的那样,此类推理能够实现更高效、更准确的文化知识检索。总体而言,我们的研究确立了语言选择在推理中的功能性地位,对构建更具通用性和全球胜任力的推理模型具有重要意义。
[[GitHub]](https://github.com/YYF-Tommy/x1-adaptive-multilingual-reasoning)

## 1 引言
“我的语言的界限意味着我的世界的界限。” —— 路德维希·维特根斯坦 (Wittgenstein, 1922)

“推理”赋予大语言模型(LLMs)超越表层模式匹配的能力,使其能够处理竞赛级数学、逻辑推理及多跳问答等复杂任务。然而,大多数现有 LLM(如 OpenAI-o1/o3 和 Qwen3)主要在资源丰富的高频语言(如英语、中文)中进行推理。虽然在优势语言中推理通常有效,但它隐含地假设单一的 Linguistic perspective 是普遍最优的。然而,语言编码了不同的抽象概念、文化先验和表达方式,这些会微妙地影响问题的分解、解释和解决过程。因此,将推理限制在单一语言可能会未充分利用这种多样性,特别是在多语言和文化关联的场景中。

**图 1:** 非英语推理与英语推理路径在 Qwen3-4B 上的 MGSM 数据集的胜率/平局率/负率。非英语推理的启用机制详见第 1 节([链接](https://arxiv.org/html/2604.16917#S1))。其中“Win”表示非英语推理表现优于英语推理;“Tie”表示两种路径结果相同(区分 correct/incorrect);“Lose”表示英语推理表现优于非英语推理。参见图注说明。

**图 2:** x1 模型的构建流程与推理使用概览。

近期,yong2025crosslingual 对跨语言推理进行了详细分析,证明在涉及多语言的数学问题时,英语并非总是最优的推理语言。在图 1 中,我们通过衡量非英语相比英语推理的赢/平/输比例来量化非英语推理的优势,结果显示在 MGSM 数据集中,大约有 3%–9%(因语言而异)的实例可以通过非英语推理路径解决,而英语推理却失败了。除了数学推理,该研究还观察到英语推理的测试时缩放(即延长推理长度)并不一定能提升文化感知场景下的性能,因为成功往往需要更多的知识回忆或基于文化的推理。这一局限性进一步促使我们探索非英语推理路径,尤其是在文化情境推理中,思维语言的选择可能起着决定性作用。

在本论文中,我们迈出利用英语与非英语语言提供的多样化推理视角的一步。基于现有的开源推理模型,我们引入 **x1**,该模型系列能够*自适应地选择*每个实例更优势的思维语言。关键在于,这一过程*不扩展模型的知识边界*,使我们在受控且可比的设置下隔离推理语言选择的效应,而非单纯强调绝对的性能提升。具体来说,我们首先通过自监督训练使模型具备在*指定语言*下进行多语言推理的能力,然后通过对比同一输入的语言学不同推理轨迹来诱导自适应推理行为。我们在两个深度交织的场景中调查自适应多语言推理:多语言数学推理和文化推理。我们的发现表明,LLM 中的推理并非语言无关的,而是受推理语言选择的影响。通过启用自适应多语言推理,我们展示了语言多样性带来的系统性收益超越了单一语言的依赖。

重要的是,我们的结果挑战了对缩放定律的简单看法:虽然缩放减少了数学推理等程序性领域的跨语言差异,但在文化关联任务中,它未能消除在与文化相关的语言中进行推理的固有优势,这导致了更高效、更准确的文化知识检索。总之,这些发现表明语言选择不仅仅是思想的表层实现,而是推理本身的功能组件,对构建真正具有通用性和全球胜任力的推理模型具有重要意义。

## 2 构建 x1
为了实现在不扩展模型知识边界的情况下于优势语言中进行推理,我们提出了一种两阶段训练策略,利用自生成的对比信号来诱导自适应多语言推理。

### 2.1 步骤 1:成为多语言推理器
第一步旨在拓展模型的多语言推理空间,使其能够刻意思考指定语言,而不是隐式锚定于其默认思维语言。为此,我们采用轻量级的自监督训练策略,教授模型按要求使用指定语言进行推理,同时确保最终答案与提示语言保持一致[^1]。在实践中,我们首先使用从 Flan_v2 中采样的 200 个种子问题查询骨干模型 $\mathcal{M}$,收集其生成的推理轨迹 $\{t_i\}_{i=1}^{200}$ 和最终答案 $\{a_i\}_{i=1}^{200}$。然后,我们指示 $\mathcal{M}$ 自身将每个推理轨迹翻译为 30 种不同的语言 $\{l_j\}_{j=1}^{30}$(列表见附录 A.1),从而生成多语言推理轨迹集 $\{t_i^{l_j}\}_{i=1,j=1}^{200,30}$。为确保语言保真度,我们使用 COMET 分数进行质量过滤,丢弃明显低质量的翻译。

利用这些翻译后的推理轨迹,我们通过显式指定推理语言的模板格式对骨干模型 $\mathcal{M}$ 进行微调(完整示例见图 6):
```text
// 使用阿拉伯语推理的示例
Input: {Question_i}
Output: ```
t_i^Ar
```
Output: ```
a_i
```
```
得到的“兄弟”模型 $\mathcal{M}_{surface}$ 可被视为一个*表层多语言推理器*:它能够遵循简单模板,通过在推理时附加特定语言标记来实现指定语言 XX 的推理,同时避免不必要的语言漂移。值得注意的是,此能力纯粹作用于推理表达层面:它暴露了替代的语言条件推理路径,并未引入任何外部知识或能力扩展(如 Google Translate、外部知识库或更强的辅助模型)。

[^1]: 例如,如果提示为英语,但推理语言约束为德语,最终响应仍应以英语生成。

### 2.2 步骤 2:成为自适应推理器
步骤 2 的目标是将多语言推理从单纯的语言跟随提升为自适应选择更具优势的推理语言。借助 $\mathcal{M}_{surface}$,我们能够针对每个输入生成成对的英语与非英语推理轨迹[^2]。这些成对轨迹可视为由不同语言选择引发的*反事实推理路径*,为对比学习提供了基础。

##### 训练数据来源
我们在两个深度交织的场景中研究自适应推理:
1. **多语言数学问题 ($D_{math}$)**:使用 MGSM8KInstruct 数据集,包含数学问题及其正确答案。我们在 10 种语言中各采样 200 个样本,共获得 2,000 个训练实例。
2. **文化相关问题 ($D_{culture}$)**:使用 CultureBank 数据集,提供文化问题及其背后的文化知识。我们从 25 个语言组中各采样 100-200 个样本(视可用性而定),涵盖来自 45 个国家/地区的文化问题,总计 4,413 个样本。(详细统计见附录 A.2)

##### 优势语言识别
对于 $D_{math}$ 或 $D_{culture}$ 中的每个问题,我们首先使用 $\mathcal{M}$ 和 $\mathcal{M}_{surface}$ 获取英语和非英语的成对推理轨迹[^2]。基于最终答案的质量确定优势推理语言,原则是更强的推理应在更优的输出中体现。对于多语言数学问题,答案质量通过精确数值匹配判定。对于文化相关问题,我们采用 LLM-as-a-Judge 评估回答对相关知识蕴含的程度。得分更高的轨迹所关联的语言即被视为该实例的优势思维语言。(详细的比较实现见附录 A.2)

**表 1:** 各个数据集在所有语言/文化上平均的性能结果(Mean@3)。

| 模型 | MGSM (非思考/思考) | MT-AIME (非思考/思考) | FOR (非思考/思考) | CulturalBench (非思考/思考) |
|---|---|---|---|---|
| **顶级推理模型** | | | | |
| o4-mini-high | – / 82.32 | – / 75.33 | – / 74.46 | – / 82.31 |
| DeepSeek-V3 | 79.24 / 76.32 | 53.00 / 85.67 | 72.83 / 78.80 | 84.60 / 89.16 |
| **开源推理模型** | | | | |
| Qwen3-4B | 70.21 / 76.59 | 12.89 / 21.78 | 74.64 / 73.73 | 68.76 / 70.85 |
| Qwen3-14B | 77.64 / 82.56 | 19.33 / 29.22 | 74.46 / 73.91 | 75.50 / 78.24 |
| Qwen3-32B | 80.52 / 83.98 | 21.83 / 33.89 | 78.26 / 81.88 | 78.76 / 81.26 |
| DeepSeek-R1-Distill-Qwen-7B | 54.76 / 60.05 | 8.33 / 25.83 | 40.04 / 55.25 | 29.58 / 38.63 |
| DeepSeek-R1-Distill-Llama-8B | 38.17 / 40.36 | 2.67 / 14.44 | 37.86 / 74.09 | 35.02 / 57.19 |
| **x1 系列模型 (+ Math + Culture)** | | | | |
| x1-Qwen3-4B | 70.30 / 77.69 (↑1.10) | 13.56 / 22.83 (↑1.05) | 75.18 / 78.08 (↑4.35) | 68.46 / 72.74 (↑1.89) |
| x1-Qwen3-14B | 77.38 / 83.64 (↑1.08) | 19.44 / 33.11 (↑3.89) | 73.12 / 76.81 (↑2.90) | 76.07 / 81.58 (↑3.34) |
| x1-Qwen3-32B | 80.12 / 84.43 (↑0.45) | 22.11 / 34.50 (↑0.61) | 79.17 / 82.61 (↑0.73) | 80.47 / 81.99 (↑0.73) |
| x1-DeepSeek-R1-Distill-Qwen-7B | 54.52 / 63.24 (↑3.19) | 9.00 / 27.00 (↑1.17) | 54.89 / 58.70 (↑3.45) | 44.82 / 49.04 (↑10.4) |
| x1-DeepSeek-R1-Distill-Llama-8B | 38.01 / 52.17 (↑11.8) | 2.89 / 17.00 (↑2.56) | 57.07 / 76.27 (↑2.18) | 51.13 / 60.88 (↑3.69) |

##### 训练数据构建
对于每个实例,我们仅保留优势语言对应的推理轨迹和答案,并丢弃英语与非英语推理得分平局的情况,以强化替代推理路径之间的对比,并提供清晰的语言偏好信号。我们使用参数高效的 LoRA 微调技术,通过显式指定选定推理语言 XX 的模板格式(类似于步骤 1)对骨干模型 $\mathcal{M}$ 进行训练。给定问题 $Q$,若语言 $X$ 被确定为优势推理语言,对应推理轨迹为 $T$,最终答案为 $A$,我们构造训练实例如下:
```text
Input: {Q}
Output: ```
T
```
Output: ```
A
```
```
此外,我们引入了辅助的自我意识数据,将模型的语言选择决策外化为明确的预测任务。这鼓励模型将推理语言的选择内化为其推理策略中的一个刻意组成部分,而非固定的或隐式的启发式规则。数据格式如下(完整示例见图 7):
```text
Input: ...decide in which language you should internally think...for question {Q}
Thinking Language:
Output: ```
X
```
```
步骤 2 的所有训练数据均由 $\mathcal{M}$ 或 $\mathcal{M}_{surface}$ 自动生成。此阶段依赖于替代推理语言选择之间的实例级比较,从而使骨干模型能够选择和利用其晚期...

相似文章

多语言思维,而非更难的思维:教授推理模型代码切换的数据高效框架

arXiv cs.CL

本文介绍了一个数据高效的微调框架,用于教授推理模型有效地进行代码切换(混合使用多种语言),证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为,并开发了促进有益代码切换模式的干预措施。

大规模推理模型(尚)不是多语言潜在推理器

arXiv cs.CL

本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。

AdaMame: 自适应多语言推理的训练方案

arXiv cs.CL

本文介绍了AdaMame,一种两阶段训练方案(SFT + GRPO),用于在多语言数学推理中自适应地将推理语言与查询语言对齐,在不牺牲准确性的情况下缓解语言崩溃。

使用Layer Swap重新思考多语言推理差距

arXiv cs.CL

本文重新审视了LLM中的多语言推理差距,发现在可比较的监督条件下,该差距比先前报告的要小。本文引入了Layer Swap,它将来自英语推理专家的中间层权重转移到母语专家,几乎消除了这一差距,同时保留了母语链式思维。