CroCo：基于自生成的跨语言对比偏好调优

arXiv cs.CL 2026/05/27 04:00 论文

cross-lingual preference-tuning self-generations multilingual reward-model dpo alignment

摘要

本文介绍了CroCo，一种基于自生成响应的跨语言对比偏好调优方法，表明在英语偏好上训练的奖励模型能够有效对其他语言的响应进行排序，在无需特定语言标注的情况下，提升模型在14种语言上的性能。

arXiv:2605.26293v1 公告类型：新摘要：先前的研究表明，通过奖励分数设定的大语言模型自生成响应之间的受控对比性，可以提高英语下游偏好调优的效果。我们将该方法扩展到多种语言，并在总共14种高资源和低资源语言上评估了两个模型，涉及多种任务。我们的核心发现是，基于自生成的跨语言对比偏好调优（CroCo）无需特定语言的偏好标注即可迁移。在英语偏好上训练的奖励模型（基于多语言基础模型）能够在大多数语言中生成有效的语内排名，并且无论是单语还是多语设置下的配对，都能在大多数情况下提升每个模型的性能，同时防止监督微调灾难性遗忘。我们观察到，这些增益依赖于策略内数据。策略外响应会降低收益，而在线偏好优化未能优于离线变体。具体而言，在结构化任务上，我们的方法在EuroLLM-9B的6/7种语言和Aya-3B的4/7种设置中匹配或超过基线。在开放式生成任务中，两个调优模型在11种评估语言上均优于各自的基线。总体而言，我们展示了多语言偏好调优的有前景方向。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:02

# CroCo: 基于自生成样本的跨语言对比偏好微调

来源：https://arxiv.org/html/2605.26293

Mike Zhang⋄‡†, Ali Basirat‡, Desmond Elliott⋄†

⋄哥本哈根大学计算机科学系 (DIKU) ‡哥本哈根大学语言技术中心 (CST) †人工智能前沿研究中心

通讯作者: [email protected] (https://arxiv.org/html/2605.26293v1/mailto:[email protected])

###### 摘要

先前的研究表明，通过奖励分数设定的大语言模型自生成响应之间的受控对比性能够改善英语下游偏好微调的性能。我们将此方法扩展到多种语言，并在总共14种高资源和低资源语言上评估了两个模型，涵盖多种任务。我们的核心发现是：基于自生成样本的跨语言对比偏好微调（CroCo）无需特定语言的偏好标注即可迁移。一个基于英语偏好训练（构建于多语言基础模型之上）的奖励模型，在大多数语言中能够产生有用的语内排序；无论是在单语言还是多语言环境中进行配对，都能在大多数设置下提升模型性能，同时防止监督微调导致的灾难性遗忘。我们观察到，性能提升依赖于在线策略数据。离线策略响应会降低收益，而在线偏好优化相较于离线变体未能带来改进。具体而言，在结构化任务上，我们的方法在EuroLLM-9B模型的7种语言中有6种达到或超过基线，在aya-3B模型的7种设置中有4种达到或超过基线。在开放式生成任务上，两个微调后的模型在全部11种评估语言中均优于各自的基线。总体而言，我们展示了多语言偏好微调的有希望的方向。¹

¹代码已公开在 https://github.com/jjzha/CroCo。

CroCo: 基于自生成样本的跨语言对比偏好微调 Mike Zhang⋄‡†, Ali Basirat‡, Desmond Elliott⋄†⋄哥本哈根大学计算机科学系 (DIKU) ‡哥本哈根大学语言技术中心 (CST) †人工智能前沿研究中心通讯作者: [email protected] (https://arxiv.org/html/2605.26293v1/mailto:[email protected])

## 1 引言

将大语言模型（LLM）与人类偏好对齐是后训练的最后标准阶段，直接偏好优化（DPO; Rafailov et al., 2023 (https://arxiv.org/html/2605.26293#bib.bib38)）是主流方法之一。最近，DPO被应用于自生成样本而非人类偏好（Guo et al. 2024 (https://arxiv.org/html/2605.26293#bib.bib12); Xiao et al. 2025 (https://arxiv.org/html/2605.26293#bib.bib56)）：策略模型与一个奖励模型（RM）配对，该RM对其在线策略响应进行评分，从而构建包含“优选”和“拒绝”补全的偏好对。类似地，最近的工作将注意力从优化器转向了数据：Pan et al. (2025 (https://arxiv.org/html/2605.26293#bib.bib34)) 表明优选响应的质量主导了下游性能，Geng et al. (2025 (https://arxiv.org/html/2605.26293#bib.bib11)) 证实了*相对*质量差距驱动改进，而 Xiao et al. (2025 (https://arxiv.org/html/2605.26293#bib.bib56)) 指出了拒绝响应在奖励分布中采样于特定四分位数附近（而非最小值）的“最佳点”。这些发现都仅限于英语。

图1: 设置。LLM为每个提示每种语言生成64个响应；一个外部现成的RM对这些响应进行评分，我们采样特定的四分位数来构建*对比*偏好对。

将偏好微调扩展到英语之外提出了开放性问题。先前的工作依赖于基于翻译的偏好信号（She et al., 2024 (https://arxiv.org/html/2605.26293#bib.bib45)），利用英语/非英语能力差距作为隐式奖励（Yang et al., 2025c (https://arxiv.org/html/2605.26293#bib.bib59), b (https://arxiv.org/html/2605.26293#bib.bib58)），或者对噪声多语言偏好对进行DPO损失重加权（Pokharel et al., 2025 (https://arxiv.org/html/2605.26293#bib.bib36)）。这些工作均未确立基于奖励分布的对构建本身是否能跨语言迁移。因此我们提问：*基于自生成样本的对比偏好微调能否在无需特定语言偏好标注的情况下迁移到多语言环境？* 我们在单语言和多语言训练范式下，以及两个不同规模（3B和9B参数）的后训练模型上对此进行研究。

#### 假设。

我们认为对比偏好微调能够跨语言迁移，因为DPO目标依赖于相对奖励差距而非绝对校准。尽管存在跨语言校准偏差，但一致的*语内*排序就足够了。这预示着：(i) 一个仅英语的RM——构建于多语言基础模型之上，这是开放RM的标准做法（例如，Liu et al., 2025 (https://arxiv.org/html/2605.26293#bib.bib28)）——当对语内样本进行评分时，足以用于多语言微调，从而消除了对每种语言进行标注的需求；(ii) 在线策略数据比生成器质量更重要，因为只有当配对的响应来自策略自身的分布时，对比信号才具有信息量。

#### 贡献。

1 对比偏好微调可以跨语言和跨模型迁移：基于自生成样本的DPO优于SFT基线和现有的多语言偏好微调方法（She et al., 2024 (https://arxiv.org/html/2605.26293#bib.bib45); Yang et al., 2025b (https://arxiv.org/html/2605.26293#bib.bib58)），而标准的SFT在两个模型上都导致灾难性遗忘。
2 多语言偏好微调不需要多语言偏好标注：一个仅英语的RM（构建于多语言基础模型之上）在大多数语言中驱动了持续改进，并且联合多语言训练在两个模型上均达到或超过单语言训练。
3 该方法改进了结构化和开放式评估：在EuroEval上，多语言Paired DPO在EuroLLM-9B的7种语言中有6种达到或超过基线，在aya-3B的7种设置中有4种达到或超过基线；在m-ArenaHard 2.1上，两个DPO微调模型在全部11种评估语言中均优于其基线。
4 关于翻译、提示语言以及在线策略 vs. 离线策略数据的消融实验证实了假设(ii)，并隔离了哪些设计选择至关重要，这与Tajwar et al. (2024 (https://arxiv.org/html/2605.26293#bib.bib51)) 和 Shenfeld et al. (2026 (https://arxiv.org/html/2605.26293#bib.bib46)) 的发现一致。

## 2 问题形式化

#### 偏好微调。

令 \(\pi_\theta\) 为一个由参数 \(\theta\) 参数化的策略语言模型，\(\pi_{\mathrm{ref}}\) 为一个冻结的参考模型。给定一个提示 \(x\) 和一个偏好对 \((y_c, y_r)\)，其中 \(y_c\) 优于*被拒绝的* \(y_r\)，DPO（Rafailov et al., 2023 (https://arxiv.org/html/2605.26293#bib.bib38)）最小化：
\[
\mathcal{L}_{\mathrm{DPO}}(\theta) = -\mathbb{E}_{(x,y_c,y_r) \sim \mathcal{D}} \left[ \log \sigma \left( \Delta r_\theta \right) \right],
\]
其中 \(\Delta r_\theta \coloneqq r_\theta(x,y_c) - r_\theta(x,y_r)\) 是奖励边际，\(r_\theta(x,y) \coloneqq \beta \log \left( \pi_\theta(y \mid x) / \pi_{\mathrm{ref}}(y \mid x) \right)\) 是隐式奖励，\(\sigma(\cdot)\) 是 sigmoid 函数。数据集 \(\mathcal{D} = \{ (x^{(i)}, y_c^{(i)}, y_r^{(i)}) \}_{i=1}^N\) 的质量对下游性能至关重要。

#### 对比偏好对。

遵循 Xiao et al. (2025 (https://arxiv.org/html/2605.26293#bib.bib56))，我们通过在线策略自生成来构建 \(\mathcal{D}\)。对于每个提示 \(x\)，策略生成 \(K\) 个候选响应 \(\mathcal{Y}_x = \{ y^{(k)} \}_{k=1}^K\)，每个候选由一个外部奖励模型 \(R: \mathcal{X} \times \mathcal{Y} \to \mathbb{R}\) 评分。设 \(\mu_x, \sigma_x\) 为 \(\{ R(x, y^{(k)}) \}_{k=1}^K\) 的均值和标准差，则偏好对的形成方式为：
\[
y_c = \arg \max_{y \in \mathcal{Y}_x} R(x, y),
\]
\[
y_r = \arg \min_{y \in \mathcal{Y}_x} | R(x, y) - (\mu_x - 2\sigma_x) |.
\]
换句话说，\(y_r\) 并非选择得分最低的候选，而是选择 \(\mathcal{Y}_x\) 中奖励最接近 \(\mu_x - 2\sigma_x\) 的样本，从而在 \(y_c\) 和 \(y_r\) 之间引入受控的对比性。我们在附录A (https://arxiv.org/html/2605.26293#A1) 中展示了来自奖励分布各区域的样本。

#### 多语言扩展。

先前的工作仅针对英语建立了这种构造；我们将其扩展到目标语言集合 \(\mathcal{L} = \{ \ell_1, \dots, \ell_L \}\)。给定一个英语提示集 \(\mathcal{X}_{\mathrm{eng}}\)，我们通过机器翻译为每个 \(\ell\) 获得平行提示 \(\mathcal{X}_\ell\)。对于每个 \((x, \ell)\)，策略基于 \(\ell\) 语言提示生成 \(K\) 个响应，从而得到特定语言的数据集 \(\mathcal{D}_\ell\)。我们研究两种设置：(1) 单语言，在每个 \(\mathcal{D}_\ell\) 上独立微调；(2) 多语言，在 \(\mathcal{D} = \bigcup_{\ell \in \mathcal{L}} \mathcal{D}_\ell\) 上联合微调。我们使用两种不同规模（3B/9B）的模型来测试对模型大小的鲁棒性。

## 3 实验设置

### 3.1 数据

我们从 Dolci-Instruct-SFT（用于训练 OLMo3 的指令微调语料库，Olmo et al., 2025 (https://arxiv.org/html/2605.26293#bib.bib33)）中分层抽样了 20K 个实例；抽样领域分布如图2 (https://arxiv.org/html/2605.26293#S3.F2) 所示。我们将英语数据翻译成六种欧洲语言：丹麦语 (dan)、荷兰语 (nld)、法语 (fra)、德语 (deu)、意大利语 (ita) 和西班牙语 (spa)，使用 TranslateGemma-27B (Finkelstein et al., 2026 (https://arxiv.org/html/2605.26293#bib.bib10))。每种语言的 token 长度统计报告在图3 (https://arxiv.org/html/2605.26293#S3.F3) 中。使用 EuroLLM-9B² 或 aya-3B³ 作为在线策略模型，我们为每个实例生成 64 个响应（根据 Xiao et al., 2025 (https://arxiv.org/html/2605.26293#bib.bib56) 的研究，超过 60 个样本后性能趋于稳定），EuroLLM-9B 的温度 \(T=0.7\)，aya-3B 的温度 \(T=0.1\)，每种语言产生 128 万个样本。每个样本使用 Skywork-Reward-V2-Qwen3-8B (Liu et al., 2024 (https://arxiv.org/html/2605.26293#bib.bib27), 2025 (https://arxiv.org/html/2605.26293#bib.bib28)) 进行评分，该 RM 的偏好训练仅限于英语，但其基础模型（Qwen3-8B）是多语言的 (Yang et al., 2025a (https://arxiv.org/html/2605.26293#bib.bib57))。我们选择这个 RM，因为这类经过英语偏好训练的 RM 可以稳健地跨语言迁移 (Wu et al., 2024 (https://arxiv.org/html/2605.26293#bib.bib55); Hong et al., 2025 (https://arxiv.org/html/2605.26293#bib.bib15))，并且它在 RewardBench 2.0 (Malik et al., 2026 (https://arxiv.org/html/2605.26293#bib.bib31)) 上排名第六⁴。关键在于，我们的假设要求 RM 在每种目标语言内部以及跨语言之间一致地*评分*响应。我们在附录B (https://arxiv.org/html/2605.26293#A2) 中定性展示了这一点。

²https://huggingface.co/utter-project/EuroLLM-9B-Instruct-2512
³https://huggingface.co/CohereLabs/tiny-aya-global
⁴https://huggingface.co/spaces/allenai/reward-bench

图2: Dolci-Instruct-SFT 的领域分布。我们的 20K 分层样本涵盖九个任务领域，其中编码、推理、聊天和数学占据了大部分实例。

#### 训练数据构建。

我们比较了四种构建策略，分别在单语言和多语言范式下进行，并应用于两个模型：
1. In-Lang / 2. All Lang (SFT)：翻译的语内数据集，或所有语言的并集，使用标准 SFT 进行微调，不包含任何偏好信号。
3. Max-R (SFT)：对于每个提示，仅保留得分最高的响应并进行 SFT：这是一种 best-of-\(K\) 基线，使用了奖励信号但丢弃了对比性。
4. Paired (DPO)：遵循 Xiao et al. (2025 (https://arxiv.org/html/2605.26293#bib.bib56))，我们根据公式 2 构建偏好对，并应用 DPO。我们在附录C (https://arxiv.org/html/2605.26293#A3) 中验证了多语言 Paired 构造不会退化为选择英语作为优选而选择非英语语言作为拒绝，而是跨所有语言进行选择。

图3: 不同语言的子词 token 长度分布。我们将第 90 百分位数上限设为 1,616 个 token。罗曼语族语言（法语、意大利语、西班牙语）产生的翻译系统性地比日耳曼语族语言更长。

### 3.2 训练

我们在 TRL (von Werra et al., 2020 (https://arxiv.org/html/2605.26293#bib.bib53)) 中对所有设置使用 LoRA (Hu et al., 2022 (https://arxiv.org/html/2605.26293#bib.bib16)) 进行微调⁵。对于 SFT，我们训练 1 个 epoch，序列长度为 4,096，全局批大小为 64，学习率为 \(2 \times 10^{-4}\)（余弦调度，5% 预热，权重衰减 \(1 \times 10^{-2}\)），仅优化补全部分的标准自回归交叉熵损失。对于偏好微调，策略 \(\pi_\theta\) 同时也充当冻结的参考模型 \(\pi_{\mathrm{ref}}\)。我们训练 1 个 epoch，学习率为 \(5 \times 10^{-6}\)（余弦调度，5% 预热，权重衰减 \(1 \times 10^{-2}\)），\(\beta = 0.1\)，批大小和序列长度与 SFT 相同。完整的训练细节见附录 D (https://arxiv.org/html/2605.26293#A4)。

⁵我们注意到 Limozin et al. (2026 (https://arxiv.org/html/2605.26293#bib.bib26)) 发现的 TRL 中 SFT 训练的梯度累积和 CPU 卸载 bug；我们在附录 D (https://arxiv.org/html/2605.26293#A4) 中详细说明了我们未受影响。

表 1: EuroEval 评估结果按语言、模型和任务的平均汇总。Base 列显示每个模型在三个随机种子上的绝对聚合 EuroEval 分数。所有其他列显示与同一行模型相比的绝对差异。ICR (Yang et al., 2025b (https://arxiv.org/html/2605.26293#bib.bib58)) 和 MAPO (She et al., 2024 (https://arxiv.org/html/2605.26293#bib.bib45)) 是独立的基线模型，参数数量如列标题所示。每种语言的数据集数量在括号中。英语使用原始的 Dolci SFT 数据。每个数据集的精确数值见附录 J (https://arxiv.org/html/2605.26293#A10)。

表 2: 对 EuroEval 中保留语言（挪威语、葡萄牙语、瑞典语）的跨语言泛化。数值是与 EuroLLM-9B 基线相比的数据集平均绝对差异；每种语言的保留数据集数量在括号中。Paired DPO 在所有三种保留语言中都表现出正的泛化效果，而多语言 SFT 则降低了性能。

(a) EuroLLM: LC 胜率

(b) Aya: LC 胜率

(c) EuroLLM: 按子类别

(d) Aya: 按子类别

CroCo：基于自生成的跨语言对比偏好调优

相似文章

跨语言共识：通过多语言自一致性对齐多语言文化知识

面向多语言推理的跨语言在线策略自蒸馏

通过偏好对齐优化增强多语言反事实生成

当英语并非最佳教师：跨语言上下文学习中的源语言效应

语言模型中跨语言泛化的体外研究

提交意见反馈