Translate-R1：基于强化学习的成本感知翻译工具使用

arXiv cs.CL 2026/06/08 04:00 论文

reinforcement-learning translation llm cost-aware tool-use language-model low-resource-languages

摘要

Translate-R1引入了一种基于强化学习的方法，用于大语言模型中的成本感知翻译工具使用。该模型根据自身的理解能力和一个成本敏感性参数，学会决定何时翻译输入，从而在多种语言之间实现帕累托最优权衡。

arXiv:2606.06835v1 公告类型：新摘要：大语言模型中跨语言的性能差距已有充分记录，而原生缩小这一差距需要对大多数语言都不存在的语料库进行预训练或微调。翻译提供了一种替代方案：将输入转换为模型的主导语言，即可一次性释放其全部能力。然而，对每个输入都应用翻译，对于模型已经能处理的语言来说是浪费的；而将选择权交给模型则会在相反方向失败，因为大语言模型过度自信，即使无法理解输入也会跳过该工具。先前的工作通过特定语言的规则、领域启发式方法、语言识别器或外部路由器来解决此问题，每种方法都需要手动工程。相反，我们学习了一个单一的策略，仅从奖励中决定何时翻译，开发了语言和领域自适应的内省能力，评估自身理解水平，仅当无法原生解决任务时才调用翻译。使用由我们的保留答案的翻译管道构建的数据，我们在后训练的Qwen3-4B上对3个资源层级（高、低、极低）的22种语言和5个领域继续进行强化学习，并引入了用于成本敏感工具使用的置信度门控GSPO。门控策略在基线之上将奖励提升了高资源+4.6，低资源+23.5，极低资源+17.5。与几乎总是翻译的无约束策略相比，它以63%的成本保留了全部奖励，并在87%的成本敏感性范围内实现帕累托最优。此外，为了模拟在完全未见语言上的行为，我们创建了2种合成语言，即使在这些无法理解的输入上，我们的门控策略比过度自信且未充分利用工具的基线提升了+18.7。该策略零样本迁移到9种保留语言，并且我们分析了工具使用在训练过程中如何按语言和按领域出现。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:20

# Translate-R1：基于强化学习的成本感知翻译工具使用  
来源：https://arxiv.org/html/2606.06835  
Pratik Jayarao、Chaitanya Dwivedi、Himanshu Gupta、Neeraj Varshney、Adithya M Devraj、Meet Vadera、Priyanka Nigam、Bing Yin  
Amazon Stores Foundation AI  

###### 摘要  
LLM 在不同语言上的性能差距已有充分记录，要原生地弥合这一差距，需要对大多数语言并不存在的语料进行预训练或微调。翻译提供了一种替代方案：将输入转换成模型的主导语言，从而一次性释放其全部能力。然而，对每个输入都应用翻译，对于模型已经能够处理的语言而言是浪费的；而将选择权留给模型则走向相反的错误方向，因为 LLM 过于自信，即使在无法理解输入时也会跳过工具（Wang 等人，2025b (https://arxiv.org/html/2606.06835#bib.bib37)）。先前的工作通过特定语言规则、领域启发式方法、语言标识符或外部路由器来解决这一问题（Kang 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib15)；Son 等人，2025b (https://arxiv.org/html/2606.06835#bib.bib34)），每种方法都需要手动工程或辅助组件。相反，我们仅从奖励中学习一个单一策略来决定何时翻译，发展出语言和领域自适应的内省能力，评估自身的理解水平，并仅在无法原生解决任务时调用翻译。利用我们构建的答案保留翻译流水线生成的数据，我们在经过后训练的 Qwen3-4B 上继续对 22 种语言（分属高、低、极低三个资源等级）和 5 个领域进行强化学习，并引入置信度门控 GSPO 来实现成本敏感的工具使用。门控策略在奖励上比基线提升了：高资源 +4.6，低资源 +23.5，极低资源 +17.5。与几乎总是翻译的无约束策略（奖励上限）相比，它以 63% 的成本保留了全部奖励，并且在 87% 的成本敏感度范围内达到帕累托最优，其中在低资源和极低资源上达到 95–100%。此外，为了模拟模型在完全未见语言上的行为，我们创建了 2 种合成语言，我们的门控策略比过度自信且即使在不可理解输入上也未充分利用工具的基线策略提升了 +18.7。该策略能够零样本迁移到训练中未出现的 9 种保留语言，最后我们分析了工具使用在训练过程中如何按语言和按领域涌现。

图 1：帕累托最优——哪个模型在每个成本敏感度 α 下取得最高的成本调整分数 (R−αC)。绿色 = 门控模型胜出。对于低资源语言（低资源、极低资源、合成语言），门控模型在 95–100% 的范围内占优。无约束的自由工具模型（蓝色）仅在高资源条件下（此时成本无关）是帕累托最优。

## 1 引言  
LLM 在不同语言上的性能差距已有充分记录（Shi 等人，2023 (https://arxiv.org/html/2606.06835#bib.bib31)；Son 等人，2025a (https://arxiv.org/html/2606.06835#bib.bib33)；Singh 等人，2024 (https://arxiv.org/html/2606.06835#bib.bib32)），要原生地弥合这一差距需要对大多数语言而言稀缺的语料进行预训练或微调。翻译提供了一条不同的路径：与那些增强单一能力的工具（如搜索知识、计算）不同，翻译将一个不可理解的输入转换成模型已经能够很好推理的形式，一次性释放其全部能力。  
翻译也有其自身的困境。对每个输入都应用翻译，对于模型已经能够处理的语言而言是浪费的，甚至在翻译器引入错误时反而有害。将选择权留给模型则走向相反的错误方向：Wang 等人 (2025b (https://arxiv.org/html/2606.06835#bib.bib37)) 发现 LLM 在 14 种语言上从未调用翻译工具，从而失去了巨大的收益。正确的选择取决于语言、领域和具体输入，这是一个无法手工指定的逐样本决策。  
先前的工作通过特定语言规则、领域启发式方法、显式语言标识符或外部路由器来做这一选择（Kang 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib15)；Son 等人，2025b (https://arxiv.org/html/2606.06835#bib.bib34)），所有这些都需要手动工程或辅助组件。  
我们想知道这一选择是否能够仅从奖励中涌现。我们学习一个单一策略，涵盖从高资源到极稀缺的语言、多种领域以及不同的成本预算。仅通过任务奖励进行训练，它发展出语言和领域自适应的内省能力：感知自身的胜任度，并且仅在这样做有回报时才翻译。没有语言识别，没有路由规则，也没有关于何时翻译的监督演示。我们的贡献：  
1. **一种习得的内省策略**。仅从任务奖励出发，模型学会了语言和领域自适应的工具使用：它在低资源语言上翻译数学和问答问题，但在相同语言上原生地解决指令遵循任务。两种行为都在没有显式工程的情况下涌现。  
2. **通过门控 GSPO 实现成本敏感的工具使用**。现有的成本敏感工具使用方法要么施加一个固定的惩罚（平坦型），无法适应语言难度；要么使用群体相对信号（OTC），但在低资源语言上会被幸运猜测所污染。两者都对最需要翻译的语言过度压制工具使用。我们引入一个置信度门控，仅在模型展现出强原生胜任度时施加成本压力，无需资源等级标签即可自动适应语言难度。得到的策略在 87% 的成本敏感度范围内是帕累托最优的，并以 63% 的成本保留了全部无约束奖励。  
3. **一种保留答案的翻译流水线**。多语言 RLVR 要求正确答案在翻译后保持不变，但朴素翻译会破坏答案，而 LLM 评判器无法可靠验证低资源语言。我们的流水线通过完全在模型的主导语言中进行回译验证来规避这一问题，在 22 种语言上达到 98.4% 的保真度。  
4. **在全新语言上的工具使用**。模型在从未见过的语言上表现如何？正确的行为是始终翻译，但基线策略过于自信且未充分利用工具。为干净地研究这一点，我们构建了 2 种不可能有先前暴露的合成语言，其中部分理解是不可能的。我们的门控策略学会了识别自己无法理解输入并翻译，比基线高出 +18.7 分。  
这些共同表明，一个单一模型，仅通过任务奖励训练，可以学会校准自身多语言限制的感知，并在需要时精确地寻求帮助。我们进一步验证了这一行为的泛化性，能够零样本迁移到训练中未出现的 9 种保留语言。

## 2 相关工作  
#### 多语言推理。  
跨语言差距已得到充分证实（Shi 等人，2023 (https://arxiv.org/html/2606.06835#bib.bib31)；Son 等人，2025a (https://arxiv.org/html/2606.06835#bib.bib33)；Qiu 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib29)）；MGSM（Shi 等人，2023 (https://arxiv.org/html/2606.06835#bib.bib31)）、MMLU-ProX（Yue 等人，2024 (https://arxiv.org/html/2606.06835#bib.bib43)）和 mAceReason-Math（Dobler 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib5)）等基准报告低资源语言的性能下降高达 24%。最近的工作将瓶颈归因于理解而非推理（Li 等人，2025c (https://arxiv.org/html/2606.06835#bib.bib21)；Kim 等人，2025a (https://arxiv.org/html/2606.06835#bib.bib16)；Kang 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib15)；Huo 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib13)）。基于翻译的方法从固定的先翻译后求解流水线（Qin 等人，2023 (https://arxiv.org/html/2606.06835#bib.bib28)；Huang 等人，2023 (https://arxiv.org/html/2606.06835#bib.bib11)；Chen 等人，2024 (https://arxiv.org/html/2606.06835#bib.bib2)）到通过 RL 强制英语中介（TAPO；Son 等人，2025b (https://arxiv.org/html/2606.06835#bib.bib34)）。与我们决策问题最接近的是选择性翻译（Kang 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib15)），它使用显式失败检测器仅翻译 20% 的输入。我们则从奖励出发端到端地学习决策，同时覆盖语言和领域，没有检测模块。  
#### 多语言 RL。  
GRPO（Shao 等人，2024 (https://arxiv.org/html/2606.06835#bib.bib30)）及其扩展（DeepSeek-AI，2025 (https://arxiv.org/html/2606.06835#bib.bib4)；Yu 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib41)；Zhang 等人，2025c (https://arxiv.org/html/2606.06835#bib.bib46)）现在是带有可验证奖励的 RL 的标准。RL 在跨语言上的泛化能力优于 SFT（Huang 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib12)），尽管对翻译数据进行 GRPO 可能导致思维链向主导语言坍缩（Kim 等人，2025b (https://arxiv.org/html/2606.06835#bib.bib17)）；后续工作添加了语言一致性奖励（Park 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib27)；Liu 等人，2025a (https://arxiv.org/html/2606.06835#bib.bib22)；Wang 等人，2025a (https://arxiv.org/html/2606.06835#bib.bib36)）以强制原生推理。Zhang 等人（2025b (https://arxiv.org/html/2606.06835#bib.bib45)）研究多语言 RAG 中的已见 vs. 未见语言，Wu 等人（2025 (https://arxiv.org/html/2606.06835#bib.bib40)）在 GRPO 中将语言视为潜在变量，但两者均不学习工具使用决策。我们问的是另一个问题：模型何时应该停止假装自己可以原生推理，转而寻求帮助？  
#### 多语言智能体。  
LLM 即使可用也从不调用翻译工具（Wang 等人，2025b (https://arxiv.org/html/2606.06835#bib.bib37)），而多语言智能体的性能随着语言资源水平急剧下降（Hofman 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib10)；Kulkarni 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib18)）。没有工作通过 RL 学习翻译策略。  
#### 用于工具使用的 RL。  
Search-R1（Jin 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib14)）、ToRL（Li 等人，2025a (https://arxiv.org/html/2606.06835#bib.bib19)）、ReTool（Feng 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib6)）、ToRA（Gou 等人，2024 (https://arxiv.org/html/2606.06835#bib.bib7)）、Tool-R1（Zhang 等人，2025a (https://arxiv.org/html/2606.06835#bib.bib44)）和 OTC（Wang 等人，2025c (https://arxiv.org/html/2606.06835#bib.bib38)）通过 GRPO 训练模型调用搜索或代码工具。Wang 等人（2025d (https://arxiv.org/html/2606.06835#bib.bib39)）学习何时直接使用代码 vs. 推理，StepTool（Yu 等人，2024 (https://arxiv.org/html/2606.06835#bib.bib42)）在每个工具步骤上塑形奖励。我们的设置本质不同：模型可能根本不理解其输入，必须识别自身的不理解，这是一种元认知判断而非难度估计。工具的效用也是语言条件性的，因为同样的问题在豪萨语中需要翻译，而在法语中则不需要——先前工作从未面临这种情况。  
#### 成本感知路由。  
RouteLLM（Ong 等人，2024 (https://arxiv.org/html/2606.06835#bib.bib26)）、xRouter（Chen 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib3)）、Router-R1（Zhang 等人，2025d (https://arxiv.org/html/2606.06835#bib.bib47)）和 Think When Needed（Guo 等人，2025 (https://arxiv.org/html/2606.06835#bib.bib8)）在成本约束下在模型或推理模式之间路由。我们在单个模型内部向翻译工具路由以应对理解失败。我们的成本机制将 Nemotron Nano（NVIDIA，2025 (https://arxiv.org/html/2606.06835#bib.bib25)）和 Dr. GRPO（Liu 等人，2025b (https://arxiv.org/html/2606.06835#bib.bib23)）的群体相对优化从响应长度扩展到工具成本，并添加了一个置信度门控，防止在真正需要翻译的语言上过度压制。

## 3 数据  
### 3.1 语言与领域  
我们选择 22 种自然语言，分属 3 个资源等级（表 1 (https://arxiv.org/html/2606.06835#S3.T1)），从高资源到极低资源，按它们的大致数字说话者数量设定，这反映了每种语言在网络规模预训练数据中的代表性程度。我们根据说话者数量而非模型性能来定义等级，因为二者并非单调关系：在某些任务上，模型在极低资源语言上的得分可能高于低资源语言，因此资源水平与原生胜任度相关但不同。我们还构建了 2 种合成语言 Kivari 和 Toqal，在预训练中完全没有暴露过（第 3.4 节 (https://arxiv.org/html/2606.06835#S3.SS4)）。  

表 1：基于大致数字说话者数量的语言等级。  
我们在 5 个领域上进行训练：3 个可验证领域（数学、问答、指令遵循）具有确定性奖励，2 个不可验证领域（摘要、翻译）由 LLM 评判器评分。这种组合迫使形成领域特定策略：翻译在豪萨语中帮助数学，但在相同语言中对于指令遵循是不必要的。

### 3.2 可验证领域的可扩展翻译流水线  
RLVR 依赖于一个简单的不变性：真实答案必须在翻译后保持有效。如果翻译一道数学题改变了系数，则 \boxed{} 答案也会改变，模型会得到错误的奖励。在监督微调中，此类错误仅降低输入质量；在 RLVR 中，它们会污染学习信号本身。  
朴素验证在低资源语言上失败：表面指标（BLEU/chrF）会漏掉语义损坏，直接 LLM 评判器缺乏目标语言能力，而基于求解的检查在大规模下成本过高（图 2 (https://arxiv.org/html/2606.06835#S3.F2)，左）。我们的见解是**回译**到英语，然后让评判器**比较**而非求解，在其最强的语言中工作，且只需一个简短的是/否裁定。流水线包含五个阶段，每个阶段针对不同的失败模式；每个训练样本通过全部五个阶段：

#### 源文本过滤。  
我们在翻译**之前**过滤问题，丢弃那些缺乏自然语言内容（主要是 LaTeX/代码）或过长的样本，这类样本翻译最容易出错。这避免了在携带多语言信号较少的样本上花费计算资源。

#### 正向翻译。  
领域感知提示列出了必须逐字保留的内容（数学符号、JSON 结构、选项键），并将翻译限制在自然语言部分。输出用 XML 标签包裹以便可靠提取。

#### 启发式过滤。  
在昂贵的评判器调用之前，廉价的检查捕获退化的翻译：重复检测（音节循环，在低资源输出中常见）、长度比例界限（信息丢失或幻觉）、源文本复制检测（翻译器原封不动地复制英语）。这些几乎不花费成本，却移除了 15–30% 的低资源翻译。

#### 回译 + chrF。  
我们将翻译回译成英语，并计算 chrF 与原始文本的对比，在提交给评判器之前捕捉往返信息损失。

#### LLM 评判器。  
最终关卡将原始英语与回译进行比较，并返回关于答案保留的二进制 SAME/DIFFERENT 裁定。其标准刻意狭窄：忽略表面变化（改述、重命名实体），仅标记那些改变答案的损坏（数字移位、约束丢失、泄露解答）。在英语中进行评判绕过了核心问题——评判器无法可靠评估低资源文本。

#### 回收。  
失败的样本被同一语言中另一个不同的源问题替换。

相似文章

ReflectMT：将反思内化为高效高质量机器翻译

arXiv cs.CL

ReflectMT提出两阶段强化学习方法，让大推理模型把反思能力内化，实现单次高质量翻译，比DeepSeek-R1等多步推理模型少用94%的token。

推理的代价：神经机器翻译中强化学习的成本-质量权衡

arXiv cs.CL

研究了推理痕迹在神经机器翻译强化学习中的重要性，显示在推理过程中加入推理可以提升质量，但代价是增加计算需求。

强化学习激发对未见语言的语境翻译学习

Hugging Face Daily Papers

本文提出了一种强化学习方法，使大型语言模型能够通过利用上下文中的语言知识来翻译未见过的语言，其表现优于上下文学习和监督微调。

利用可验证奖励强化学习激励参数知识以优化跨文化实体翻译

arXiv cs.CL

# 利用可验证奖励强化学习激励参数知识用于跨文化实体翻译来源：[https://arxiv.org/html/2604.16881](https://arxiv.org/html/2604.16881) Jiang Zhou1, Xiaohu Zhao2, Xinwei Wu1, Tianyu Dong1, Hao Wang2, Yangyang Liu2, Heng Liu2, Linlong Xu2, Longyue Wang2, Weihua Luo2, Deyi Xiong1† 1天津大学 TJUNLP 实验室，中国 2阿里巴巴集团，中国 [dyxiong@tju\.edu\.cn](https://arxiv.org/html/2604.16881v1/mailto:[email protected]) ###### 摘

CLewR：用于机器翻译偏好学习的课程学习与重启策略

arXiv cs.CL

CLewR引入了一种带重启的课程学习策略，用于通过偏好优化改进LLM的机器翻译性能。该方法通过多次迭代简易到困难的课程来解决灾难性遗忘问题，在Gemma2、Qwen2.5和Llama3.1模型上展现了一致的性能提升。

相似文章

ReflectMT：将反思内化为高效高质量机器翻译

推理的代价：神经机器翻译中强化学习的成本-质量权衡

强化学习激发对未见语言的语境翻译学习

利用可验证奖励强化学习激励参数知识以优化跨文化实体翻译

CLewR：用于机器翻译偏好学习的课程学习与重启策略

提交意见反馈