ReflectMT：将反思内化为高效高质量机器翻译

arXiv cs.CL 2026/04/22 04:00 论文

摘要

ReflectMT提出两阶段强化学习方法，让大推理模型把反思能力内化，实现单次高质量翻译，比DeepSeek-R1等多步推理模型少用94%的token。

arXiv:2604.19144v1 公告类型：新增摘要：近年来，将大推理模型（LRM）用于机器翻译（MT）受到越来越多的关注。现有方法普遍采用“先思考后翻译”范式。尽管显式推理轨迹显著提升翻译质量，却带来极高的推理成本与延迟。为克服这些局限，我们提出ReflectMT，一种面向机器翻译的两阶段反思内化算法，采用“先翻译后思考”范式。该方法通过强化学习培养模型的“翻译-反思-润色”能力。第一阶段，我们培育模型高质量反思与润色的能力，从而增强其语义理解与任务相关知识。第二阶段，我们训练模型将反思阶段获得的知识内化。因此，在推理时，ReflectMT以直接翻译模式运行，首次尝试即可输出高质量翻译，无需任何显式推理步骤。在WMT24等数据集上的实验结果表明，我们模型推理时的首遍翻译在自动指标与基于GPT的评估中均优于DeepSeek-R1等多步推理LRM，基于GPT的翻译质量评分提升2.16分，同时token消耗减少94.33%。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:30

# ReflectMT：将反思内化的高效高质量机器翻译  
来源：https://arxiv.org/html/2604.19144  

李昆泉¹，张颖雪²，孟凡东²，苏劲松¹  
¹厦门大学信息学院，中国  
²腾讯微信 AI，中国  
[email protected]，[email protected]  
{yxuezhang,fandongmeng}@tencent.com  

###### 摘要  
近年来，将大型推理模型（LRMs）应用于机器翻译（MT）受到越来越多的关注。现有方法普遍采用“先思后译”范式。尽管显式推理轨迹显著提升翻译质量，却带来高昂的推理成本与延迟。为此，我们提出 ReflectMT——一种“先译后思”的两阶段反思内化算法。该方法通过强化学习培养模型的“翻译–反思–润色”能力：第一阶段建立高质量反思与修正能力，增强语义理解与任务知识；第二阶段将反思获得的知识内化。推理时，ReflectMT 直接输出一次到位的高质量译文，无需任何显式推理。在 WMT24 等数据集上的实验表明，其首遍翻译在自动指标与 GPT 评估上均优于多步推理 LRM（如 DeepSeek-R1），GPT 翻译质量评分提升 2.16 分，token 消耗降低 94.33%。  

ReflectMT：将反思内化的高效高质量机器翻译  
（略去重复标题与作者信息）

图 1：ReflectMT 的训练与推理范式。训练阶段，模型生成完整反思翻译流程（黑色为初译，灰色为反思分析与终译）；推理阶段仅输出初译（黑色），提前停止以节省开销。

## 1 引言  
近年，OpenAI-o1、DeepSeek-R1 等大型推理模型在数学、编程、逻辑等复杂任务上表现强劲，其秘诀在于长链思维（CoT）：通过推理、自检、迭代优化再给出答案。受此启发，研究者开始把长 CoT 引入机器翻译，统称“先思后译”范式——推理在前，翻译在后。例如 Marco-o1、DRT、ExTrans 等工作均验证了显式推理对难译现象的增益。然而，推理链在推理阶段必须完整生成，计算量与延迟巨大，落地困难。

本文提出 ReflectMT，一种“后思”算法：训练时充分反思，推理时直接翻译。具体采用“生成–反思–润色”流程：先出初译，再按多维结构化模板进行反思，最后产出精修译文。区别于通用自由反思，我们针对 MT 设计结构化反思（覆盖错误定位、歧义分析等），并通过多智能体协作构建高质量反思数据。为将反思能力内化，我们设计了两阶段强化学习策略：阶段一建立显式“翻译–反思–润色”能力；阶段二把反思知识压缩进首遍翻译，实现“显性反思”到“隐性能力”的迁移。推理时模型一次前向即可输出高质量译文。

在 WMT24 等多数据集上的实验表明，ReflectMT 在不进行显式推理的设定下，自动指标与 GPT 评估均超越 DeepSeek-R1 等强基线：GPT 评分提升 2.16 分，token 节省 94.33%，实现质量与效率双升。

主要贡献：  
- 将“后思”反思机制引入神经 MT，设计面向 MT 的多维结构化反思流程，实现系统评估与迭代改进。  
- 提出基于 RL 的反思内化训练算法，通过两阶段策略把反思知识融入首遍生成，推理零额外开销。  
- 通过多智能体协作构建高质量 MT 反思数据集，并经充分消融验证其有效性。

## 2 方法  

### 2.1 概览  
ReflectMT 框架包含三大模块：  
1) 多智能体协作构建含完整反思链的训练数据（§2.2）；  
2) 设计多维奖励函数，联合优化格式、翻译质量、反思质量与改进幅度（§2.3.1）；  
3) 两阶段 RL 策略：先建立反思能力，再将其内化（§2.3.2–2.3.3）。  
目标：训练时借助显式反思建立认知，推理时一次前向输出高质量译文。

### 2.2 数据构造  
高质量反思数据是显式推理能力的关键。现有平行语料缺乏中间推理步骤，因此我们设计迭代多智能体协作系统，通过 Translator 与 Reflector 对话自动生成含完整反思链的数据。流程如下：  
1) 初译：Translator 对源句 x 生成 y₀。  
2) 反思评估：Reflector 对 y₀ 进行多维打分 r₀∈[0,100]（语义准确性、文化适应性、流畅度等），并给出结构化改进建议 f₀。  
3) 迭代精修：循环执行 yₖ=Translator(x,yₖ₋₁,fₖ₋₁,rₖ₋₁)，直至分数达标或达到最大迭代次数 K。  
最终序列 {(yₖ,rₖ,fₖ)}ₖ=0^K 构成完整反思链。数据过滤与超详见附录 A。

### 2.3 渐进式反思内化  
借鉴职业译员的认知发展：新手靠显式反思与修订，经验丰富后可将反思内化，首遍即出高质量译文。据此设计两阶段 RL：

#### 2.3.1 奖励建模  
模型需按严格模板输出：  
`<answer>y_init</answer>`  
`<reflection>f_refl</reflection>`  
`<need_revision>v_rev</need_revision>`  
`<final_answer>y_fin</final_answer>`  

采用 DeepSeek-V3 作 LLM-as-Judge J_v3(·) 进行 0–100 评分。  
- 格式奖励 r_form：正则检查标签顺序，正确得 1。  
- 反思质量奖励 r_refl：J_v3(x,y_init,f_refl)/100。  
- 翻译质量分 s_init、s_fin：分别对初译与终译评分。  
- 改进奖励 r_imp：Δs = s_fin − s_init，分段线性奖励（阈值 η，斜率 μ）。  
总奖励 R = w_form·r_form + w_trans·r_trans + w_refl·r_refl + w_imp·r_imp（超参见附录 B）。  
其中 r_trans 随训练阶段动态调整，详见下文。

#### 2.3.2 阶段一：建立反思能力  
以 Qwen2.5-7B-Instruct 为基座，用 LoRA 冷启动 SFT 学习结构化输出，再采用 GRPO 算法强化完整“翻译–反思–润色”流程。此阶段 r_trans 同时关注初译与终译质量，确保模型精通显式反思。

ReflectMT：将反思内化为高效高质量机器翻译

相似文章

LatentMT: 基于潜在推理的机器翻译

Translate-R1：基于强化学习的成本感知翻译工具使用

通过语言模型函数调用的反思式提示调优

推理先行翻译：利用结构化推理增强法律机器翻译

ReFlect：用于复杂长周期大语言模型推理的有效包装系统

提交意见反馈