CLewR:用于机器翻译偏好学习的课程学习与重启策略
摘要
CLewR引入了一种带重启的课程学习策略,用于通过偏好优化改进LLM的机器翻译性能。该方法通过多次迭代简易到困难的课程来解决灾难性遗忘问题,在Gemma2、Qwen2.5和Llama3.1模型上展现了一致的性能提升。
查看缓存全文
缓存时间: 2026/04/20 08:32
# 使用重启的课程学习在机器翻译偏好学习中的应用
来源: https://arxiv.org/html/2601.05858
Alexandra Dragomir1, Florin Brad1, Radu Tudor Ionescu2,⋄ 1Bitdefender, Bucharest, Romania 2Department of Computer Science, University of Bucharest, Bucharest, Romania ⋄raducu\.ionescu@gmail\.com
###### 摘要
大型语言模型(LLMs)在零样本多语言机器翻译(MT)中展现了具有竞争力的性能。一些后续工作通过偏好优化进一步改进了MT性能,但他们在一个关键方面探索不足:训练过程中数据样本的顺序。我们通过将课程学习集成到各种最先进的偏好优化算法中来解决这个问题,以提升MT性能。我们引入了一种新颖的带重启的课程学习策略(CLewR),它在训练过程中多次重复简到难课程,以有效缓解对简单样本的灾难性遗忘。我们在多个模型族(Gemma2、Qwen2.5、Llama3.1)和偏好优化技术中展示了一致的收益。我们在 https://github.com/alexandra-dragomir/CLewR 上公开发布了代码。
CLewR:用于机器翻译偏好学习的带重启的课程学习
## 1 引言
大型语言模型(LLMs)已经实现了多语言机器翻译中的零样本方法Touvron等人(2023)。改进LLMs的MT能力的方法可大致分为预训练和后训练方法。前者通常采用大规模单语或高质量平行数据上的连续预训练(Alves等人,2024;Cui等人,2025;Xu等人,2024a)。相比之下,后训练方法旨在通过采用偏好优化技术(如直接偏好优化DPO)(Rafailov等人,2023)来改进翻译质量,以区分高质量翻译和低质量翻译。在这项工作的基础上,Xu等人(2024b)提出了对比偏好优化(CPO),一种仅基于对数概率差异来评估对距离的无参考技术。最近,Xu等人(2025)引入了自适应拒绝偏好优化(ARPO),通过为非偏好项结合自适应惩罚来进一步改进CPO。
尽管偏好优化(PO)技术取得了显著进步(Rafailov等人,2023;Xu等人,2025、2024b),但一个能够显著影响性能的关键因素仍然探索不足:训练过程中数据样本的处理顺序。这个方面是*课程学习*的核心(Bengio等人,2009),这一范式研究模型如何从简单到困难地学习。Sovianyi等人(2022)的调查解释了简到难学习如何通过操纵不同因素来实现,即数据(Chang等人,2021;Jarca等人,2024;Nagatsuka等人,2023)、模型(Croitoru等人,2025b;Sinha等人,2020)或目标任务(Liu等人,2020a;Narvekar等人,2016)。按特定顺序组织样本属于*数据级课程*的范畴。在数据级课程领域,研究人员探索了简到难和难到简的数据组织,后者被称为反课程(Ankner等人,2024;Florensa等人,2017;Jarca等人,2025)。无论数据组织如何,多项最近的研究表明课程学习可以在各种任务中发挥重要作用,例如自然语言推断(Poesina等人,2024)、意图检测(Gong等人,2021)、问题回答(Liu等人,2018)、图像分类(Liu等人,2022)、模型预训练(Madan等人,2024;Nagatsuka等人,2023)等。课程学习也被应用于神经机器翻译(NMT)(Kocmi和Bojar,2017;Liu等人,2020b;Platanios等人,2019;Zhan等人,2021),但这个领域的贡献早于LLMs时代,使得它们难以或无法适应新的"预训练后进行微调"范式。随着在微调阶段应用的偏好优化技术的出现(Rafailov等人,2023;Xu等人,2025、2024b),一些最近的工作(Croitoru等人,2025a;Pattnaik等人,2024)已经将课程学习集成到DPO中。然而,这些技术没有明确解决灾难性遗忘(Kirkpatrick等人,2017),这是一个在训练开始时学到的样本在训练结束时被模型遗忘的问题,最终会降低性能。
为此,我们提出了一种新颖的用于MT的数据级课程学习框架,其中简到难的训练在每个epoch重新启动。我们的带重启的课程学习策略(CLewR)被原生设计用来通过在每个训练epoch中迭代所有样本来缓解灾难性遗忘。我们通过实证证明CLewR在多个最先进的偏好优化方法(DPO、CPO、ARPO)和LLM族(Gemma2、Qwen2.5、Llama3.1)中的MT性能带来一致的提升。我们的结果表明CLewR不仅增强了高度竞争的偏好优化方法,而且也超越了另一个基于课程学习的竞争方法,即CurriDPO(Pattnaik等人,2024)。
总之,我们的贡献有三方面:
- •我们提出了带重启的课程学习(CLewR),一种用于MT中偏好优化的新方法,其中简到难课程在每个epoch重新启动以避免灾难性遗忘。
- •虽然之前的工作用课程增强了DPO(Pattnaik等人,2024),但我们将课程学习引入到更新的偏好优化算法中,即CPO和ARPO。
- •我们证明了我们的方法优于竞争的课程方法,并在多个模型族(Gemma2、Llama3.1、Qwen2.5)和偏好优化算法(DPO、CPO、ARPO)中一致地改进性能。
## 2 方法
CLewR。我们提出了一种称为CLewR的数据级课程策略,该策略为MT中的偏好优化量身定制。我们在算法1中正式介绍我们的课程策略。训练偏好三元组的形式(x,y_w,y_l)是基于相似度分数s(y_w,y_l)(在步骤9中)在被选中(获胜的)y_w和被拒绝(失败的)y_l翻译之间进行排序的。更准确地说,一对翻译的简易度被定义为首选和被拒绝翻译之间的相似度差异,即高差异对应于简单对,低差异对应于困难对。相似度分数由多个MT指标的平均值(步骤7)给出,从而使CLewR适合翻译:BLEU(Papineni等人,2002)(步骤3)、COMET-22(Rei等人,2022)(步骤4)和METEOR(Banerjee和Lavie,2005)分数(步骤5)。
我们强调我们的方法隐式地使用多个正确的参考翻译来处理给定的源句子。默认情况下,偏好优化技术使用形式为(x,y_w,y_l)的三元组。如果数据集包括同一输入的k个首选输出,我们可以构建k个偏好优化三元组。然后,CLewR可以简单地从更简单的元组(与被拒绝样本最不相似的参考)开始应用PO到更困难的元组。
算法1 CLewR偏好优化
1:输入:初始策略π_θ、训练三元组{(x_i, y_i^w, y_i^l)}_i=1^N、学习率μ。
2:for i=1 to N do
3: b ← BLEU(y_i^w, y_i^l)
4: c ← COMET(y_i^w, y_i^l)
5: m ← METEOR(y_i^w, y_i^l)
6: b̂, ĉ, m̂ ← normalize_(0,1)(b, c, m)
7: s_i ← 1/3(b̂ + ĉ + m̂)
8:end for
9: I ← argsort_↑({s_i}_i=1^N)
10:for epoch = 1 to E do
11: for all batches B ⊂ I do
12: L_PO ← loss(x_B, y_B^w, y_B^l, π_θ)
13: θ ← optimize(θ, μ, ∇_θ L_PO)
14: end for
15:end for
16:输出:优化的模型π_θ
我们在附录A.5中提供了简单和困难偏好样本的示例。排序三元组后,训练在一定数量的epochs上进行(步骤10-15)。在每个epoch,样本被分成小批次(步骤11),按照在步骤9中确定的确切顺序排列,即不涉及随机洗牌。简到难的数据排列在每个epoch中被重新使用,这有助于缓解灾难性遗忘。学习通过给定的PO方法进行(步骤12-13)。注意固定每个epoch中样本的顺序并不意味着过度拟合顺序,即经验风险不依赖于样本顺序。相反,课程学习理论(Bengio等人,2009)表明以有意义的顺序组织样本可以改进训练动态,可能导致更快的收敛和/或更好的最优值。
CLewR-z。对于ARPO(Xu等人,2025),我们开发了一个替代的CLewR实现,称为CLewR-z,其中课程分数s(在算法1的步骤7中使用)来自ARPO距离z。ARPO目标修改CPO目标以结合自适应惩罚项τ_θ,其控制被拒绝项y_l的重要性:
L_ARPO = -E_(x,y_w,y_l)∼D[log σ(β log π_θ(y_w|x) - τ_θ(y_w, y_l) β log π_θ(y_l|x)) + log π_θ(y_w|x)]
τ_θ(y_w, y_l)的值测量y_w和y_l之间的相似度,范围从0到1:
τ_θ(y_w, y_l) = min(e^(η·z_θ(y_w, y_l)) - 1, 1)
其中η是控制z_θ影响的超参数,z_θ(y_w, y_l)通过测量对数似然中的绝对差异来编码所选和被拒绝响应之间的距离:
z_θ(y_w, y_l) = |log(π_θ(y_w|x))/|y_w| - log(π_θ(y_l|x))/|y_l||
对于课程学习,我们在算法1的步骤7中采用s = -z_θ。这个版本称为CLewR-z。
增强的ARPO。我们进一步引入ARPO的增强变体,通过使用不同的距离函数z'_θ(y_w, y_l),该函数也考虑评估指标空间中的距离。具体来说,我们使用:
z' = η_1·z_θ + η_2·z_BLEU + η_3·z_COMET
其中z_θ是原始距离。对于两个指标,z_metric由1 - metric/100给出,以将每个指标归一化到(0,1)区间并具有与原始z_θ相同的单调性。两个不相似的预测导致低BLEU和COMET值,所以z_BLEU和z_COMET将很高。每个z乘以相应的标量η,将它们缩放到相似的区间。我们通过修改标量η_1、η_2和η_3来创建增强ARPO的多个版本。所有ARPO版本都在表6中列出。
## 3 实验设置
数据集。我们在Flores-200数据集上进行测试(Costa-Jussà等人,2022)。对于通用LLMs,我们使用六种罗曼语族的一个组。对于MT适配的模型(GemmaX2),我们使用三种罗曼语族的一个组,遵循Cui等人(2025)。我们选择中文来展示超越罗曼语族的泛化。
LLM骨干网络。我们考虑了几个候选的LLMs进行偏好调优:Llama3.1-8B(Grattafiori等人,2024)、Qwen2.5-7B(Qwen等人,2025)、Gemma2-9B(Team等人,2024)和GemmaX2-9B(Cui等人,2025)。我们也考虑X-ALMA(Xu等人,2025)作为参考基准,它基于Llama2(Touvron等人,2023)。
偏好优化b相似文章
并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进
# 并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进 来源:[https://arxiv.org/html/2604.16937](https://arxiv.org/html/2604.16937) Wei-Chi Wu, Sheng-Lun Wei, Hen-Hsen Huang, Hsin-Hsi Chen α 台湾大学电脑科学与资讯工程学系,台湾 β 中央研究院资讯科学研究所,台湾 γ 台湾大学人工智能研究中心(AINTU),台湾 wcwu@c
Translate-R1:基于强化学习的成本感知翻译工具使用
Translate-R1引入了一种基于强化学习的方法,用于大语言模型中的成本感知翻译工具使用。该模型根据自身的理解能力和一个成本敏感性参数,学会决定何时翻译输入,从而在多种语言之间实现帕累托最优权衡。
CRMA: 一种用于LLM模块化持续微调的谱界主干
CRMA引入了一种谱界残差适配器,通过Sinkhorn归一化强制实现双随机混合矩阵,使LLM能够持续微调而不发生灾难性遗忘。在Mistral-7B和Gemma-2-9B上的实验结果表明,与冻结基底的基线相比,后向迁移得到改善,遗忘减少。
基于语义奖励的强化学习实现低资源语言扩展而无对齐代价
本文提出使用基于语义奖励的强化学习(通过GRPO)来将LLM扩展到低资源语言,避免了典型的灾难性遗忘对齐代价,展示了相比监督微调更好的语义质量和迁移性。
JumpLoRA:大语言模型持续学习的稀疏适配器
JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。