AdaMame: 自适应多语言推理的训练方案

arXiv cs.CL 2026/06/16 04:00 论文

multilingual reasoning training-recipe reinforcement-learning language-collapse nlp arxiv

摘要

本文介绍了AdaMame，一种两阶段训练方案（SFT + GRPO），用于在多语言数学推理中自适应地将推理语言与查询语言对齐，在不牺牲准确性的情况下缓解语言崩溃。

arXiv:2606.15080v1 公告类型：新摘要：尽管大型推理模型（LRM）在英语中表现出色，但它们常常无法使用查询语言进行推理，这种现象被称为语言崩溃。现有的基于强化学习的修复方法通常会在准确性目标上增加一个二元语言保真度奖励，但仍然会带来准确性权衡、中间推理过程的语码转换以及过多的token使用。在这项工作中，我们提出了AdaMame，一种用于多语言数学推理的两阶段训练方案，通过自适应地将推理语言与查询语言对齐而不牺牲准确性，解决了这些局限性。第一阶段SFT阶段在五种语言的自然发生的推理轨迹上进行微调，以建立多语言推理能力。在随后的RL阶段，我们引入了AdaMame-GRPO，这是对群组相对策略优化（GRPO）的一种改编，其中查询条件对齐因子在训练过程中逐步增长，引导模型首先探索多样的推理语言，然后利用查询语言进行推理。在两个基准测试、两个LRM和12种语言上的评估表明，AdaMame-GRPO在所有基线上实现了推理准确性、语言保真度和token效率的帕累托最优性能，在域外、低资源语言上取得了最强的提升。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:45

# AdaMame：自适应多语言推理的训练方案 来源：https://arxiv.org/html/2606.15080 Dayeon Ki![[Uncaptioned image]](https://arxiv.org/html/2606.15080v1/figures/logo/peapod.png),Kevin Duh![[Uncaptioned image]](https://arxiv.org/html/2606.15080v1/figures/logo/carrot.png),Marine Carpuat![[Uncaptioned image]](https://arxiv.org/html/2606.15080v1/figures/logo/peapod.png) ![[Uncaptioned image]](https://arxiv.org/html/2606.15080v1/figures/logo/peapod.png)马里兰大学，![[Uncaptioned image]](https://arxiv.org/html/2606.15080v1/figures/logo/carrot.png)约翰·霍普金斯大学 dayeonki@umd\.edu ###### 摘要 虽然大型推理模型（Large Reasoning Models, LRMs）在英语中表现出色，但它们通常无法以查询语言进行推理，这种现象被称为语言崩塌。现有的基于强化学习（RL）的修复方法通常会在准确性目标上增加一个二元语言保真度奖励，但仍然会在准确性、推理过程中的语码转换以及过度的 token 使用上产生权衡。在这项工作中，我们提出了 AdaMame，1一个两阶段训练方案，用于多语言数学推理，通过自适应地将推理语言与查询语言对齐来解决这些限制，同时不损害准确性。第一阶段的 SFT 在五种语言的自然推理轨迹上进行微调，以建立多语言推理能力。在后续的 RL 阶段，我们引入了 AdaMame-GRPO，这是对组相对策略优化（GRPO）的一种改进，其中查询条件对齐因子在训练过程中逐渐增长，引导模型首先探索多样化的推理语言，然后利用查询语言进行推理。在两个基准测试、两个 LRM 和 12 种语言上的评估中，AdaMame-GRPO 在所有基线上实现了推理准确性、语言保真度和 token 效率的帕累托最优性能，在领域外、资源较低的语言上提升最为显著。2代码、数据和模型可在 https://github.com/dayeonki/adamame 获取。

## 1 引言

在多语言环境中部署的大型推理模型（LRMs）必须同时满足两个目标：产生正确答案（推理准确性）以及以与查询相同的语言生成推理轨迹（即思维链，CoTs）（语言保真度）[Shi等, 2022](https://arxiv.org/html/2606.15080#bib.bib13)；[Muennighoff等, 2023](https://arxiv.org/html/2606.15080#bib.bib7)；[Yong等, 2025](https://arxiv.org/html/2606.15080#bib.bib6)）。语言保真度既关乎实用性——用户以其母语交互时希望得到相应的回复——也关乎技术性：有效的推理策略因语言而异[Ki等, 2026](https://arxiv.org/html/2606.15080#bib.bib2)；[Gurgurov等, 2026](https://arxiv.org/html/2606.15080#bib.bib27)），模型有时能在原始查询语言中更有效地推理[Gao等, 2025](https://arxiv.org/html/2606.15080#bib.bib5)），并且多语言思考有助于提升输出多样性[Blasi等, 2022](https://arxiv.org/html/2606.15080#bib.bib3)；[Xu和Zhang, 2026](https://arxiv.org/html/2606.15080#bib.bib4)）。然而，由于绝大多数 LRM 训练数据都是英语[Ghosh等, 2025](https://arxiv.org/html/2606.15080#bib.bib46)），这些模型遭受所谓的语言崩塌问题，即无论查询语言为何，模型默认使用英语进行推理[Park等, 2026](https://arxiv.org/html/2606.15080#bib.bib24)）。

![图1](https://arxiv.org/html/2606.15080v1/figures/logo/peapod.png) 图1：准确性（Pass@4）与语言保真度（LCPR：语言混淆通过率）的对比。骨干模型：Distill-Qwen 1.5b。AdaMame-GRPO 在两个目标上都实现了帕累托最优性能。

![图2](https://arxiv.org/html/2606.15080v1/figures/logo/peapod.png) 图2：AdaMame 的有效性。我们比较了香草模型和 AdaMame 在法语和泰卢固语查询上的推理行为。香草模型未能以查询语言正确回答问题，在推理过程中进行语码转换，并且过度思考导致 token 使用过多，而 AdaMame 适应了查询语言，生成了正确且 token 高效的推理。

最近解决语言崩塌的努力共享一种常见设计：通过手动调整的加权比例，在准确性目标上附加一个二元语言保真度奖励[Zhang等, 2026](https://arxiv.org/html/2606.15080#bib.bib26)；[Sutawika等, 2026](https://arxiv.org/html/2606.15080#bib.bib25)；[Gao等, 2026](https://arxiv.org/html/2606.15080#bib.bib39)）。尽管这种方法具有吸引力，但它有几个持续的局限性（图2）：(1) 推理准确性的权衡[Wang等, 2025b](https://arxiv.org/html/2606.15080#bib.bib43)）；(2) 推理轨迹中的交替语言（即语码转换）[Wang等, 2025a](https://arxiv.org/html/2606.15080#bib.bib45)）；以及 (3) 过度思考，即模型在推理上花费过多 token 而没有成比例的提高[Chen等, 2024b](https://arxiv.org/html/2606.15080#bib.bib41)；[Sui等, 2025](https://arxiv.org/html/2606.15080#bib.bib42)）。大多数现有方法还需要英语参考推理轨迹[Sutawika等, 2026](https://arxiv.org/html/2606.15080#bib.bib25)；[Zhang等, 2026](https://arxiv.org/html/2606.15080#bib.bib26)），并且依赖于固定的、开发者指定的加权机制，这限制了可扩展性[Gurgurov等, 2026](https://arxiv.org/html/2606.15080#bib.bib27)）。

在这项工作中，我们提出了![[Uncaptioned image]](https://arxiv.org/html/2606.15080v1/figures/logo/bean.png)AdaMame，一种用于多语言数学推理的两阶段训练方案，能够自适应地将推理语言与查询语言对齐，同时优化推理准确性和语言保真度（§3）。AdaMame 建立在成熟的 SFT-然后-RL 后训练方案之上，引入了有针对性的修改，将模型行为转向查询语言。在第一阶段，我们对五种语言的自然推理轨迹应用监督微调（SFT），使模型具备基础的多语言推理能力和对语言特定推理模式的敏感性[Ki等, 2026](https://arxiv.org/html/2606.15080#bib.bib2)）。在第二阶段，我们引入了 AdaMame-GRPO，这是对组相对策略优化（GRPO）[Shao等, 2024](https://arxiv.org/html/2606.15080#bib.bib47)）的一种改进，受 ARM [Wu等, 2026b](https://arxiv.org/html/2606.15080#bib.bib48)）启发，整合了一个查询条件对齐因子，该因子在训练过程中自适应地增长。这鼓励模型逐步将其推理语言与查询语言对齐，同时保持推理准确性作为主要目标。在两个多语言数学推理基准测试、两个 LRM 以及 12 种领域内和领域外语言上（§4），我们展示了 AdaMame-GRPO 在准确性和语言保真度上实现了帕累托最优性能，同时使用的 token 少于所有基线。虽然仅 SFT 阶段就大幅减少了语言崩塌，但结合 AdaMame-GRPO 的 RL 阶段进一步提高了对领域外语言的泛化能力，在低资源语言上提升最为显著（§5.1）。进一步的分析证实，AdaMame-GRPO 诱导了预期的“先探索后利用”课程：模型最初探索多样化的推理语言，然后随着查询对齐因子的增长，逐渐收敛到查询语言（§5.2），并且增加对齐因子的权重可获得可控制的准确性权衡下改进的语言保真度（§5.3）。

总之，我们的贡献有三方面：

- •我们提出了 AdaMame，一种用于多语言数学推理的两阶段后训练方案（SFT+RL），具有针对查询语言对齐的有针对性修改。
- •我们发布了一个包含五种语言 30K 自然推理轨迹的数据集，支持多语言推理研究。
- •AdaMame-GRPO 在所有测试基线上实现了推理准确性、语言保真度和 token 效率的帕累托最优性能，在领域外和资源较低的语言上泛化能力最强。

## 2 相关工作

### 2.1 改进多语言推理

越来越多的研究工作记录了当查询以英语以外的语言提出时，LRMs 存在的显著性能差距[Wang等, 2025b](https://arxiv.org/html/2606.15080#bib.bib43)；[Luo等, 2025](https://arxiv.org/html/2606.15080#bib.bib50)）和语言崩塌问题[Park等, 2026](https://arxiv.org/html/2606.15080#bib.bib24)）。解决这些问题的先前方法分为两个方向。首先是基于提示的方法，例如添加语言特定指令[Yong等, 2025](https://arxiv.org/html/2606.15080#bib.bib6)；[Qi等, 2025](https://arxiv.org/html/2606.15080#bib.bib49)）或在模型生成开始时添加前缀[Tam等, 2025](https://arxiv.org/html/2606.15080#bib.bib1)）来引导输出语言。其次是在多语言 CoT 上微调模型[Lai和Nissim, 2024](https://arxiv.org/html/2606.15080#bib.bib35)；[Shi等, 2024](https://arxiv.org/html/2606.15080#bib.bib51)；[Chai等, 2025](https://arxiv.org/html/2606.15080#bib.bib52)）。更近期的强化学习（RL）方法在 GRPO 奖励中增加一个显式的语言保真度项[Liu等, 2026](https://arxiv.org/html/2606.15080#bib.bib28)；[Zhang等, 2026](https://arxiv.org/html/2606.15080#bib.bib26)；[Sutawika等, 2026](https://arxiv.org/html/2606.15080#bib.bib25)）。例如，M-Thinker 除了 GRPO 之外，还结合了两个奖励项：一个二元语言保真度奖励，当推理语言与查询语言匹配时触发；以及一个跨语言思考对齐奖励，其中 LLM 评委以 0–1 连续评分评估推理轨迹与英语参考轨迹的匹配程度[Zhang等, 2026](https://arxiv.org/html/2606.15080#bib.bib26)）。虽然有效，但这些方法表现出三种持续失败模式（图2）：(1) 以牺牲答案正确性为代价来匹配推理语言与查询语言，(2) 推理轨迹内的语码转换，以及 (3) 过度使用 token 进行过度思考。如表1所示，许多先前方法还需要英语参考推理轨迹进行监督，并依赖于奖励组件之间的固定、开发者指定的加权机制[Gao等, 2026](https://arxiv.org/html/2606.15080#bib.bib39)；[Gurgurov等, 2026](https://arxiv.org/html/2606.15080#bib.bib27)），限制了对此比例变化的鲁棒性。AdaMame-GRPO 通过一个自适应奖励解决了这一差距，该奖励在 GRPO 训练过程中逐渐增强查询语言对齐，不需要英语参考轨迹。

### 2.2 自适应推理

最近的研究探索了使 LRM 推理自适应化，范围从关于是否进行思考的二元决策[Tu等, 2026](https://arxiv.org/html/2606.15080#bib.bib57)），到基于任务难度的推理格式或努力的细粒度自适应[Yu等, 2025](https://arxiv.org/html/2606.15080#bib.bib58)；[Wu等, 2026b](https://arxiv.org/html/2606.15080#bib.bib48)；[Wang等, 2026](https://arxiv.org/html/2606.15080#bib.bib59)；[Wu等, 2026a](https://arxiv.org/html/2606.15080#bib.bib54)；[Yang等, 2026](https://arxiv.org/html/2606.15080#bib.bib56)）。在多语言环境中，自适应推理已被研究用于为给定查询选择最有效的推理语言，通过语言路由器[Guo等, 2026](https://arxiv.org/html/2606.15080#bib.bib63)）、LLM 作为评委[Zheng等, 2025](https://arxiv.org/html/2606.15080#bib.bib60)）或与英语轨迹比较[Ye等, 2026](https://arxiv.org/html/2606.15080#bib.bib61)）。AdaMame-GRPO 在这些方法中与众不同，因为它不将推理语言视为可按查询自由选择的变量。相反，它固定查询语言对齐为目标，并通过在 GRPO 训练过程中增加查询对齐因子，逐步适应这一目标。

| 方法 | 数据集 | 目标 |
|------|--------|------|
| M-Thinker [Zhang等, 2026](https://arxiv.org/html/2606.15080#bib.bib26) | q,c,o,c\_\{en\} | GRPO（准确性 + 语言保真度 + 格式 + 跨语言思考对齐） |
| SP3F [Sutawika等, 2026](https://arxiv.org/html/2606.15080#bib.bib25) | q,c,o,c\_\{en\} | GRPO（准确性 + 语言保真度 + 格式 + 评委偏好反馈） |
| TRIT [Liu等, 2026](https://arxiv.org/html/2606.15080#bib.bib28) | q,c,o | GRPO（准确性 + 语言保真度 + 格式 + 重复惩罚） |
| ExpLang [Gao等, 2026](https://arxiv.org/html/2606.15080#bib.bib39) | q,c,o | GRPO（准确性 + Pass@k + 语言保真度 + 格式 + 思考语言多样性） |
| ReasonXL [Gurgurov等, 2026](https://arxiv.org/html/2606.15080#bib.bib27) | q,c,o | GRPO（准确性 + 语言保真度 + 格式 + 重复惩罚） |
| ![[Uncaptioned image]](https://arxiv.org/html/2606.15080v1/figures/logo/bean.png) AdaMame（我们的） | q,c,o | AdaMame-GRPO（§3.3） |

表1：AdaMame 与先前方法的比较。数据集：所需的训练数据组件；目标：RL 训练中使用的奖励组件。q：查询，c：推理轨迹，o：最终输出，c\_\{en\}：英语参考轨迹。AdaMame 不需要英语参考轨迹，也不使用手动调整的奖励组件加权。

## 3 ![[Uncaptioned image]](https://arxiv.org/html/2606.15080v1/figures/logo/bean.png)AdaMame：一种训练方案

AdaMame 建立在 SFT-然后-RL 后训练方案之上，具有有针对性的修改，通过自适应地将推理与查询语言对齐，优化推理准确性、语言保真度和 token 效率。我们首先构建一个高质量的多语言训练数据集（§3.1），然后分两个阶段进行训练：SFT（§3.2）之后是 RL（§3.3）。

### 3.1 准备原料

我们考虑多语言数学推理，其中模型接收以某种语言ℓ提出的数学查询q，并必须生成推理轨迹 c 和最终输出 o。目标是生成与真实答案 g 匹配的正确 o 以及以 ℓ 编写的 c。因此，我们的训练数据集需要 (1) 所有 ℓ ∈ ℒ 的查询 q，以及 (2) 以相应查询语言 ℓ 编写的自然推理轨迹 c，而不是英语轨迹的机器翻译版本。这使得模型能够跨语言 ℒ 进行推理，并学习语言特定的推理模式（详见附录 B.1）。

#### 查询。
我们从 DAPO-MATH-17K [Yu等, 2026](https://arxiv.org/html/2606.15080#bib.bib67) 中采样查询，涵盖五种领域内语言（法语、葡萄牙语、日语、韩语和泰语），这些查询来自 Liu 等 [2026](https://arxiv.org/html/2606.15080#bib.bib28)。3我们专门使用 DAPO-MATH-17K，因为它具有广泛的难度级别和手动验证的质量 [Yu等, 2026](https://arxiv.org/html/2606.15080#bib.bib67)）。每个 q 都使用 DeepSeek-V3.2-Exp [DeepSeek-AI, 2025b](https://arxiv.org/html/2606.15080#bib.bib68) 从英语机器翻译而来，翻译质量由 Qwen3 32B [Yang等, 2025](https://arxiv.org/html/2606.15080#bib.bib69) 验证。###

AdaMame: 自适应多语言推理的训练方案

相似文章

LEAD：用于大型语言模型的长度高效自适应与动态推理

大型语言模型中的数学推理：基准、架构、评估与开放挑战

通过可操控模型合并增强多语言推理

当进一步推理无益时停止：推理模型中的注意力状态自适应生成

使用Layer Swap重新思考多语言推理差距

提交意见反馈