ReflectMT:将反思内化为高效高质量机器翻译

arXiv cs.CL 论文

摘要

ReflectMT提出两阶段强化学习方法,让大推理模型把反思能力内化,实现单次高质量翻译,比DeepSeek-R1等多步推理模型少用94%的token。

arXiv:2604.19144v1 公告类型:新增 摘要:近年来,将大推理模型(LRM)用于机器翻译(MT)受到越来越多的关注。现有方法普遍采用“先思考后翻译”范式。尽管显式推理轨迹显著提升翻译质量,却带来极高的推理成本与延迟。为克服这些局限,我们提出ReflectMT,一种面向机器翻译的两阶段反思内化算法,采用“先翻译后思考”范式。该方法通过强化学习培养模型的“翻译-反思-润色”能力。第一阶段,我们培育模型高质量反思与润色的能力,从而增强其语义理解与任务相关知识。第二阶段,我们训练模型将反思阶段获得的知识内化。因此,在推理时,ReflectMT以直接翻译模式运行,首次尝试即可输出高质量翻译,无需任何显式推理步骤。在WMT24等数据集上的实验结果表明,我们模型推理时的首遍翻译在自动指标与基于GPT的评估中均优于DeepSeek-R1等多步推理LRM,基于GPT的翻译质量评分提升2.16分,同时token消耗减少94.33%。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:30

# ReflectMT:将反思内化的高效高质量机器翻译  
来源:https://arxiv.org/html/2604.19144  

李昆泉¹,张颖雪²,孟凡东²,苏劲松¹  
¹厦门大学信息学院,中国  
²腾讯微信 AI,中国  
[email protected][email protected]  
{yxuezhang,fandongmeng}@tencent.com  

###### 摘要  
近年来,将大型推理模型(LRMs)应用于机器翻译(MT)受到越来越多的关注。现有方法普遍采用“先思后译”范式。尽管显式推理轨迹显著提升翻译质量,却带来高昂的推理成本与延迟。为此,我们提出 ReflectMT——一种“先译后思”的两阶段反思内化算法。该方法通过强化学习培养模型的“翻译–反思–润色”能力:第一阶段建立高质量反思与修正能力,增强语义理解与任务知识;第二阶段将反思获得的知识内化。推理时,ReflectMT 直接输出一次到位的高质量译文,无需任何显式推理。在 WMT24 等数据集上的实验表明,其首遍翻译在自动指标与 GPT 评估上均优于多步推理 LRM(如 DeepSeek-R1),GPT 翻译质量评分提升 2.16 分,token 消耗降低 94.33%。  

ReflectMT:将反思内化的高效高质量机器翻译  
(略去重复标题与作者信息)

图 1:ReflectMT 的训练与推理范式。训练阶段,模型生成完整反思翻译流程(黑色为初译,灰色为反思分析与终译);推理阶段仅输出初译(黑色),提前停止以节省开销。

## 1 引言  
近年,OpenAI-o1、DeepSeek-R1 等大型推理模型在数学、编程、逻辑等复杂任务上表现强劲,其秘诀在于长链思维(CoT):通过推理、自检、迭代优化再给出答案。受此启发,研究者开始把长 CoT 引入机器翻译,统称“先思后译”范式——推理在前,翻译在后。例如 Marco-o1、DRT、ExTrans 等工作均验证了显式推理对难译现象的增益。然而,推理链在推理阶段必须完整生成,计算量与延迟巨大,落地困难。

本文提出 ReflectMT,一种“后思”算法:训练时充分反思,推理时直接翻译。具体采用“生成–反思–润色”流程:先出初译,再按多维结构化模板进行反思,最后产出精修译文。区别于通用自由反思,我们针对 MT 设计结构化反思(覆盖错误定位、歧义分析等),并通过多智能体协作构建高质量反思数据。为将反思能力内化,我们设计了两阶段强化学习策略:阶段一建立显式“翻译–反思–润色”能力;阶段二把反思知识压缩进首遍翻译,实现“显性反思”到“隐性能力”的迁移。推理时模型一次前向即可输出高质量译文。

在 WMT24 等多数据集上的实验表明,ReflectMT 在不进行显式推理的设定下,自动指标与 GPT 评估均超越 DeepSeek-R1 等强基线:GPT 评分提升 2.16 分,token 节省 94.33%,实现质量与效率双升。

主要贡献:  
- 将“后思”反思机制引入神经 MT,设计面向 MT 的多维结构化反思流程,实现系统评估与迭代改进。  
- 提出基于 RL 的反思内化训练算法,通过两阶段策略把反思知识融入首遍生成,推理零额外开销。  
- 通过多智能体协作构建高质量 MT 反思数据集,并经充分消融验证其有效性。

## 2 方法  

### 2.1 概览  
ReflectMT 框架包含三大模块:  
1) 多智能体协作构建含完整反思链的训练数据(§2.2);  
2) 设计多维奖励函数,联合优化格式、翻译质量、反思质量与改进幅度(§2.3.1);  
3) 两阶段 RL 策略:先建立反思能力,再将其内化(§2.3.2–2.3.3)。  
目标:训练时借助显式反思建立认知,推理时一次前向输出高质量译文。

### 2.2 数据构造  
高质量反思数据是显式推理能力的关键。现有平行语料缺乏中间推理步骤,因此我们设计迭代多智能体协作系统,通过 Translator 与 Reflector 对话自动生成含完整反思链的数据。流程如下:  
1) 初译:Translator 对源句 x 生成 y₀。  
2) 反思评估:Reflector 对 y₀ 进行多维打分 r₀∈[0,100](语义准确性、文化适应性、流畅度等),并给出结构化改进建议 f₀。  
3) 迭代精修:循环执行 yₖ=Translator(x,yₖ₋₁,fₖ₋₁,rₖ₋₁),直至分数达标或达到最大迭代次数 K。  
最终序列 {(yₖ,rₖ,fₖ)}ₖ=0^K 构成完整反思链。数据过滤与超详见附录 A。

### 2.3 渐进式反思内化  
借鉴职业译员的认知发展:新手靠显式反思与修订,经验丰富后可将反思内化,首遍即出高质量译文。据此设计两阶段 RL:

#### 2.3.1 奖励建模  
模型需按严格模板输出:  
`<answer>y_init</answer>`  
`<reflection>f_refl</reflection>`  
`<need_revision>v_rev</need_revision>`  
`<final_answer>y_fin</final_answer>`  

采用 DeepSeek-V3 作 LLM-as-Judge J_v3(·) 进行 0–100 评分。  
- 格式奖励 r_form:正则检查标签顺序,正确得 1。  
- 反思质量奖励 r_refl:J_v3(x,y_init,f_refl)/100。  
- 翻译质量分 s_init、s_fin:分别对初译与终译评分。  
- 改进奖励 r_imp:Δs = s_fin − s_init,分段线性奖励(阈值 η,斜率 μ)。  
总奖励 R = w_form·r_form + w_trans·r_trans + w_refl·r_refl + w_imp·r_imp(超参见附录 B)。  
其中 r_trans 随训练阶段动态调整,详见下文。

#### 2.3.2 阶段一:建立反思能力  
以 Qwen2.5-7B-Instruct 为基座,用 LoRA 冷启动 SFT 学习结构化输出,再采用 GRPO 算法强化完整“翻译–反思–润色”流程。此阶段 r_trans 同时关注初译与终译质量,确保模型精通显式反思。

相似文章

Translate-R1:基于强化学习的成本感知翻译工具使用

arXiv cs.CL

Translate-R1引入了一种基于强化学习的方法,用于大语言模型中的成本感知翻译工具使用。该模型根据自身的理解能力和一个成本敏感性参数,学会决定何时翻译输入,从而在多种语言之间实现帕累托最优权衡。

CORE:对比反思实现推理能力的快速提升

Hugging Face Daily Papers

对比反思(CORE)是一种非参数算法,通过比较成功与不成功的推理轨迹,生成简洁、可解释的洞见,从而以比现有方法更少的样本和 rollout 次数,实现语言模型更快、更高效的自我改进。