面向MT的无参考强化学习微调:Seq2Seq视角
摘要
本文将组相对策略优化(GRPO)应用于编码器-解码器Seq2Seq模型,用于机器翻译微调,使用无需并行数据的无参考奖励(LaBSE和COMET-Kiwi),并在13种语言上取得了一致的改进。
arXiv:2605.15976v1 公告类型:新
摘要:生产级机器翻译主要依赖编码器-解码器Seq2Seq模型,然而针对机器翻译微调的强化学习方法大部分聚焦于参数量$\geq$7B的仅解码器大型语言模型,对编码器-解码器架构的系统性研究有限。我们将组相对策略优化应用于NLLB-200(600M和1.3B),采用混合无参考奖励(LaBSE和COMET-Kiwi),该奖励在微调时无需并行数据,并在13种类型多样的语言上进行了评估。GRPO在所有13种语言上均取得了一致改进,其中繁体中文的chrF++提升高达$+$5.03,并且在没有任何目标语言数据的情况下,与在形态复杂语言上进行3轮监督微调的效果相当。我们识别出一个一致的实证模式:在基线性能最弱且奖励区分度最高的地方,增益最大,这使得该方法在并行数据最稀缺时最为有效,并且我们在英语和西班牙语源语言上复现了此模式。
查看缓存全文
缓存时间: 2026/05/18 06:34
# 无参考强化学习微调用于机器翻译:从Seq2Seq视角
来源: https://arxiv.org/html/2605.15976
Ernesto Garcia-Estrada, Carlos Escolano, José A. R. Fonallosa 巴塞罗那加泰罗尼亚理工大学,西班牙 \{luis.ernesto.garcia, carlos.escolano, jose.fonallosa\}@upc.edu
###### 摘要
生产环境中的机器翻译主要依赖编码器-解码器Seq2Seq模型,然而,针对机器翻译微调的强化学习方法迄今主要面向≥\\geq7B参数的仅解码器大语言模型,对编码器-解码器架构的系统性研究有限。我们将组相对策略优化应用于NLLB-200(600M和1.3B),采用混合无参考奖励——LaBSE和COMET-Kiwi——其在微调时不需要任何平行数据,并在13种类型多样的语言上进行评估。GRPO在所有13种语言上都取得了一致的改进,繁体中文最高提升了\+\+5.03 chrF\+\+,并且在没有任何目标语言数据的情况下,在形态复杂的语言上与3个epoch的有监督微调相竞争。我们识别出一个一致的实证模式:增益在基线性能最弱且奖励可区分性最高时最大,这使得该方法恰好在对平行数据最稀缺的语言中最有效,并且我们在英语和西班牙语源语言上复现了这一模式。
无参考强化学习微调用于机器翻译:从Seq2Seq视角
Ernesto Garcia-Estrada, Carlos Escolano, José A. R. Fonallosa 巴塞罗那加泰罗尼亚理工大学 西班牙 \{luis.ernesto.garcia, carlos.escolano, jose.fonallosa\}@upc.edu
## 1 引言
编码器-解码器Seq2Seq模型主导着生产环境中的机器翻译。它们比自回归LLM具有更低的推理延迟、更小的内存占用和更强的源-目标对齐能力,使其成为大规模部署的实用选择,特别是对于计算预算受限的语言对长尾分布(Costa-jussà等人,2022 (https://arxiv.org/html/2605.15976#bib.bib23))。然而,最近一波自然语言处理中的强化学习进展几乎完全绕过了这种架构。每一个将组相对策略优化应用于机器翻译的工作都使用了≥\\geq7B参数的仅解码器LLM(He等人,2025 (https://arxiv.org/html/2605.15976#bib.bib13); Feng等人,2025 (https://arxiv.org/html/2605.15976#bib.bib14); Yang等人,2025 (https://arxiv.org/html/2605.15976#bib.bib16); Lu等人,2025 (https://arxiv.org/html/2605.15976#bib.bib17))——这些模型对于世界上大多数语言的机器翻译生产部署来说不切实际——唯一的例外是Attia和Fikri (2026 (https://arxiv.org/html/2605.15976#bib.bib2))的同期工作,我们将在下文讨论。
现在有两个进展使得填补这一差距变得值得。首先,GRPO(Shao等人,2024 (https://arxiv.org/html/2605.15976#bib.bib9); Guo等人,2025 (https://arxiv.org/html/2605.15976#bib.bib10))已经成熟为一种比PPO更节省内存的替代方案,它消除了价值模型,使得无需专门基础设施即可进行强化学习微调。其次,无参考质量估计器——LaBSE(Feng等人,2022 (https://arxiv.org/html/2605.15976#bib.bib20))和COMET-Kiwi(Rei等人,2022 (https://arxiv.org/html/2605.15976#bib.bib21))——已经达到了使其成为可行奖励信号的可靠性水平,从而能够仅从单语源文本进行策略优化。这些进展共同为基于强化学习的机器翻译改进创建了一条实用路径,无需平行数据,且基于从业者实际部署的架构。
关键开放问题不在于GRPO是否能改进机器翻译——它确实能做到,对于高资源语言对和大型仅解码器模型而言。问题在于消除平行监督需要付出什么代价,以及对于哪些语言这种代价是值得支付的。Attia和Fikri (2026 (https://arxiv.org/html/2605.15976#bib.bib2))的同期工作将GRPO应用于NLLB-200,但使用英语作为固定源语言和一个间接的往返重构目标,在六种语言上评估,没有SFT比较或跨领域分析。没有先前工作描述GRPO增益如何在跨越不同文字、形态类型和基线性能水平的类型多样化语言之间变化。
我们呈现了GRPO应用于NLLB-200(600M和1.3B)在13种类型多样化语言上的系统性研究,在单个NVIDIA A10G GPU上使用单语源文本进行训练。虽然奖励模型(LaBSE和COMET-Kiwi)在它们自己的预训练中利用了平行数据,但我们的机器翻译微调过程保持无参考,因为它只需要单语源文本。我们的贡献是:
- •**一致的无参考增益**。GRPO在两个规模上在所有13种语言上均优于基线——繁体中文最高提升\+\+5.03 chrF\+\+,在形态复杂的语言上无需任何目标语言数据即可与3个epoch的SFT竞争,并在FLORES-200和NTREX-128上跨领域迁移。
- •**一个实证增益模式**。增益幅度在基线性能最弱且奖励可区分性最高时倾向于最大。该模式在英语和西班牙语源语言上复现,为从业者提供潜在的判别信号,以选择无参考强化学习最可能帮助的语言。
- •**实际可及性**。完整流程在单个24 GB GPU上运行,采用4位量化和LoRA,约需500个源句子即可获得可靠增益,并且在保留的语言上表现出零灾难性遗忘。
## 2 相关工作
#### 用于序列生成的强化学习。
用于机器翻译的策略梯度方法可追溯到Ranzato等人 (2016 (https://arxiv.org/html/2605.15976#bib.bib3)) 和最小风险训练 (Shen等人,2016 (https://arxiv.org/html/2605.15976#bib.bib4)),两者都通过直接优化评估指标来解决曝光偏差。Ouyang等人 (2022 (https://arxiv.org/html/2605.15976#bib.bib6)) 后来通过PPO确立了RLHF作为主导的对齐范式,但计算成本很高。GRPO (Shao等人,2024 (https://arxiv.org/html/2605.15976#bib.bib9); Guo等人,2025 (https://arxiv.org/html/2605.15976#bib.bib10)) 通过消除价值模型、利用组内奖励变化归一化优势来降低此成本。
#### 组相对策略优化。
Shao等人 (2024 (https://arxiv.org/html/2605.15976#bib.bib9)) 在DeepSeekMath中引入了GRPO作为PPO的内存高效替代方案,通过归一化KK个采样输出组内的奖励并从组内奖励变化中估计优势,消除了价值模型。Guo等人 (2025 (https://arxiv.org/html/2605.15976#bib.bib10)) 随后在DeepSeek-R1中扩展了GRPO,展示了涌现的推理能力,并将其确立为主导的后训练强化学习范式。Yang等人 (2026 (https://arxiv.org/html/2605.15976#bib.bib18)) 识别出GRPO中标量奖励模型的一个并发局限性,他们表明独立评估假设无法区分细粒度质量差异,并提出了一个组相对奖励模型,该模型联合评估所有KK个候选。
#### GRPO应用于机器翻译。
越来越多的工作已将GRPO应用于机器翻译,全部使用大型仅解码器LLM。He等人 (2025 (https://arxiv.org/html/2605.15976#bib.bib13)) 将GRPO与COMET奖励应用于Qwen2.5-7B,以诱导思维链翻译策略。Feng等人 (2025 (https://arxiv.org/html/2605.15976#bib.bib14)) 在7B参数模型上结合了BLEU和COMET-Kiwi奖励,展示了涌现的推理模式,并在分布外任务上与专有系统达到同等水平。Yang等人 (2025 (https://arxiv.org/html/2605.15976#bib.bib16)) 引入了SSR-Zero,使用LLM本身同时作为生成器和评估器,结合自生成奖励与COMET信号实现了最先进的性能。Lu等人 (2025 (https://arxiv.org/html/2605.15976#bib.bib17)) 通过语义对齐奖励和语言特定的令牌前缀,将GRPO应用于以中文为中心的低资源东南亚机器翻译。所有这些工作共享三个局限性,我们的论文直接解决了这些局限性:仅依赖≥\\geq7B参数的仅解码器LLM,聚焦于狭窄的以高资源语言对为主的集合,以及大量的计算需求。
#### 无参考质量估计。
COMET-Kiwi (Rei等人,2022 (https://arxiv.org/html/2605.15976#bib.bib21), 2023 (https://arxiv.org/html/2605.15976#bib.bib22)) 通过对照专业译员的直接评估注释对源-假设对进行评分,无需目标参考即可实现质量估计。LaBSE (Feng等人,2022 (https://arxiv.org/html/2605.15976#bib.bib20)) 将句子映射到一个共享的跨语言嵌入空间,仅从源文本提供语义相似度分数。两者都在大型平行语料库上进行了预训练;它们的无参考属性适用于推理阶段。Kreutzer等人 (2017 (https://arxiv.org/html/2605.15976#bib.bib11), 2018 (https://arxiv.org/html/2605.15976#bib.bib12)) 研究了基于强化学习的机器翻译中的奖励塑形和反馈质量,识别出策略优化对奖励噪声的敏感性。
#### 多语言Seq2Seq机器翻译。
我们的基础模型NLLB-200 (Costa-jussà等人,2022 (https://arxiv.org/html/2605.15976#bib.bib23)) 是一个覆盖200多种语言的编码器-解码器Seq2Seq模型。尽管覆盖范围广,NLLB-200在不同语系之间表现出显著的性能差异,在形态复杂和低资源语言上得分尤其低。Koehn和Knowles (2017 (https://arxiv.org/html/2605.15976#bib.bib24)) 将形态复杂性确定为神经机器翻译的核心挑战。我们的工作将此扩展到强化学习设定,通过表明在我们的研究中形态类型和基线性能与GRPO增益幅度共同关联。与此同时,Attia和Fikri (2026 (https://arxiv.org/html/2605.15976#bib.bib2)) 的近期研究使用往返方法将GRPO应用于NLLB-200。他们的方法使用英语作为固定的源语言,并使用间接的重构目标而非直接的质量估计。我们的工作不同之处在于使用正向翻译上的直接质量估计,评估13种类型多样的语言,并进行明确的SFT比较和跨领域分析。
## 3 方法
### 3.1 用于Seq2Seq机器翻译的GRPO
我们将机器翻译形式化为一个强化学习问题,其中翻译模型充当策略πθ\\pi\_\{\\theta\},将源句子xx映射到目标句子yy。在每一步,策略通过温度采样生成KK个候选翻译。GRPO (Shao等人,2024 (https://arxiv.org/html/2605.15976#bib.bib9)) 直接从组内奖励变化估计每个假设的优势:
Ai=ri−mean\(r\)std\(r\)\+εA\_\{i\}=\\frac\{r\_\{i\}-\\text\{mean\}\(\\mathbf\{r\}\)\}\{\\text\{std\}\(\\mathbf\{r\}\)\+\\varepsilon\} (1)
其中ε=10−4\\varepsilon=10^\{\-4\}是一个稳定性下限,防止奖励方差崩溃时噪声放大——我们在后续训练阶段实证观察到这一现象 (§5 (https://arxiv.org/html/2605.15976#S5))。策略通过一个PPO裁剪替代目标进行更新 (Schulman等人,2017 (https://arxiv.org/html/2605.15976#bib.bib7)):
Lclip=−1K∑i=1Kmin\(ρiAi,clip\(ρi,1−εclip,1\+εclip\)⋅Ai\)\\mathcal\{L\}\_\{\\text\{clip\}\}=\-\\dfrac\{1\}\{K\}\\sum\_\{i=1\}^\{K\}\\min\\\!\\left\(\\rho\_\{i\}A\_\{i\},\\ \\operatorname\{clip\}\(\\rho\_\{i\},\\ 1\-\\varepsilon\_\{\\text\{clip\}\},\\ 1\+\\varepsilon\_\{\\text\{clip\}\}\)\\cdot A\_\{i\}\\right\) (2)
其中ρi=exp\(logπθ\(yi\|x\)−logπref\(yi\|x\)\)\\rho\_\{i\}=\\exp\(\\log\\pi\_\{\\theta\}\(y\_\{i\}\|x\)\-\\log\\pi\_\{\\text\{ref\}\}\(y\_\{i\}\|x\)\)且εclip=0\.2\\varepsilon\_\{\\text\{clip\}\}=0\.2。一个KL惩罚项通过使用Shao等人 (2024 (https://arxiv.org/html/2605.15976#bib.bib9)) 的前向KL近似,正则化策略避免过度偏离参考:
LKL=E\[exp\(logπθ−logπref\)−\(logπθ−logπref\)−1\]\\mathcal\{L\}\_\{\\text\{KL\}\}=\\mathbb\{E\}\\\!\\left\[\\exp\(\\log\\pi\_\{\\theta\}\-\\log\\pi\_\{\\text\{ref\}\}\)\-\(\\log\\pi\_\{\\theta\}\-\\log\\pi\_\{\\text\{ref\}\}\)\-1\\right\] (3)
完整目标是L=Lclip\+β⋅LKL\\mathcal\{L\}=\\mathcal\{L\}\_\{\\text\{clip\}\}\+\\beta\\cdot\\mathcal\{L\}\_\{\\text\{KL\}\},其中β\\beta在§4.5 (https://arxiv.org/html/2605.15976#S4.SS5) 中研究。对于Seq2Seq模型的一个关键实现细节是,πref\\pi\_\{\\text\{ref\}\}通过在同一模型上禁用LoRA适配器获得——不需要单独的参考模型。这将策略锚定到NLLB的预训练多语言知识上,并防止灾难性遗忘。
### 3.2 混合无参考奖励
两个奖励组件在微调时都是无参考的,但均在平行语料库上进行了预训练;无参考属性仅适用于微调阶段。第一个组件LaBSE (Feng等人,2022 (https://arxiv.org/html/2605.15976#bib.bib20)) 通过归一化的源嵌入和假设嵌入之间的余弦相似度提供跨语言语义充分性。第二个组件COMET-Kiwi (Rei等人,2022 (https://arxiv.org/html/2605.15976#bib.bib21), 2023 (https://arxiv.org/html/2605.15976#bib.bib22)) 根据专业译员的直接评估注释提供学习的质量估计。混合奖励以等权重结合两者:
rhyb\(x,yi\)=12\(rLaBSE\(x,yi\)\+rCOMET\(x,yi\)\)r\_\{\\text\{hyb\}\}\(x,y\_\{i\}\)=\\frac\{1\}\{2\}\\bigl\(r\_\{\\text\{LaBSE\}\}\(x,y\_\{i\}\)\+r\_\{\\text\{COMET\}\}\(x,y\_\{i\}\)\\bigr\) (4)
LaBSE防止奖励破解趋向流畅但不忠实的翻译;COMET-Kiwi贡献一个与人类质量判断对齐的更丰富信号。采用等权重作为语言无关的默认设置,并在下面的可区分性分析中得到验证。
### 3.3 奖励可区分性分析
为了验证混合奖励在训练前产生有意义的质量排序,我们评估了每个源句子六个候选翻译的质量梯度(来自FLORES-200开发集的每种语言50个句子),计算了在五种LaBSE/COMET-Kiwi权重配置下奖励分数与质量排名之间的Pearsonrr值。所有配置都实现了良好到优秀的区分度(均值rr从−\-0.90到−\-0.94),展示了对精确权重的稳健性。仅用LaBSE对约鲁巴语最优(r=−0.94r=\-0.94对比仅用COMET-Kiwi的−0.81\-0.81),反映了COMET-Kiwi在代表性不足语言上的校准有限;混合奖励在形态丰富的语言(阿拉伯语、白俄罗斯语)上实现了最高区分度。表11 (https://arxiv.org/html/2605.15976#A9.T11) (附录I (https://arxiv.org/html/2605.15976#A9)) 报告了全部结果。我们采用0.50/0.50等权重作为语言无关的默认设置,这得到两个组件互补性分析的支持:跨越四种研究语言(巴斯克语、孟加拉语、约鲁巴语和繁体中文)的5,060个基线翻译假设中,LaBSE和COMET-Kiwi分数仅显示中等相关性(Pearsonr=0.528r=0.528),证实这两个信号并非冗余,它们的组合捕捉了任何一个组件单独无法覆盖的质量维度。
### 3.4 基础模型和参数高效微调
我们使用NLLB-200 (No Language Left Behind; Costa-jussà等人,2022 (https://arxiv.org/html/2605.15976#bib.bib23)) 作为基础模型,评估蒸馏后的600M和1.3B参数变体。为了在单个GPU上进行训练,我们将模型权重量化为4位NF4精度 (Dettmers等人,2023 <相似文章
基于语义奖励的强化学习实现低资源语言扩展而无对齐代价
本文提出使用基于语义奖励的强化学习(通过GRPO)来将LLM扩展到低资源语言,避免了典型的灾难性遗忘对齐代价,展示了相比监督微调更好的语义质量和迁移性。
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
驾驭极端 Token:基于高斯核优势重权重的协方差感知 GRPO
本文提出了一种协方差感知的组相对策略优化(GRPO)变体,该方法利用高斯核优势重权重技术来稳定训练熵,并提升大语言模型的推理性能。
CEPO:基于对比证据策略优化的RLVR自我蒸馏
CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。
你的语言模型就是其自身的评论者:利用演员内部状态进行价值估计的强化学习
本文介绍了 POISE,一种通过利用模型自身内部状态来估计基线,从而在大型推理模型中实现稳定策略优化的方法,与 PPO 和 GRPO 相比,该方法降低了计算开销。