xi-DPO:通过比率奖励边际的直接偏好优化

arXiv cs.LG 论文

摘要

本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。

arXiv:2605.10981v1 宣布类型:新论文 摘要:无参考偏好优化已成为人类反馈强化学习的一种高效替代方案,其中 Simple Preference Optimization (SimPO) 通过简单的目标函数消除了显式参考模型,表现出强劲的性能。然而,SimPO 中超参数 $\beta$ 和 $\gamma$ 的联合调整仍然是一个核心挑战。我们认为,这种困难源于 SimPO 中的边际公式在不同奖励间隙结构的数据集上缺乏可解释性。为了更好地理解这一问题,我们对 SimPO 进行了全面分析,发现 $\beta$ 隐式地控制样本过滤,而 $\gamma$ 的效果取决于数据集的奖励间隙结构。基于这些观察,我们提出了 $\xi$-DPO:通过比率奖励边际进行的直接偏好优化。我们首先通过等效变换重构偏好目标,将优化目标从最大化奖励间隙的似然值转变为最小化奖励间隙与最优边际之间的距离。然后,我们将奖励重新定义为选中样本与拒绝样本之间的比率形式,这有效地抵消了 $\beta$ 的影响,并产生了一个有界且可解释的边际。该边际被称为比率奖励边际,记为 $\xi$。与 SimPO 中的边际 $\gamma$ 不同,$\xi$ 明确表示所选响应与拒绝响应之间期望的相对分离度,并且可以从初始奖励间隙分布中确定,从而避免了反复的试错调整。 ....
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:24

# 基于比率奖励边际的直接偏好优化

来源: https://arxiv.org/html/2605.10981
郑源 Fan¹, 吴忠华¹, 杜宇轩¹, 陈群¹
¹西北工业大学计算机学院
{fanzhengyuan,wuxhua,duyuxuan36,chenbenben}@nwpu.edu.cn

###### 摘要

无参考偏好优化已成为从人类反馈中进行强化学习(RLHF)的高效替代方案,其中简单偏好优化(SimPO)通过消除显式的参考模型并采用简单的目标函数,展现了强大的性能。然而,SimPO 中超参数 $\beta$ 和 $\gamma$ 的联合调整仍然是一个核心挑战。我们认为,这种困难源于 SimPO 中的边际公式在具有不同奖励差距结构的数据集上缺乏可解释性。为了更好地理解这一问题,我们对 SimPO 进行了全面分析,发现 $\beta$ 隐式地控制样本过滤,而 $\gamma$ 的效果取决于数据集的奖励差距结构。受这些观察结果的启发,我们提出了 $\xi$-DPO:基于比率奖励边际的直接偏好优化。我们首先通过等效变换重新表述偏好目标,将优化目标从最大化奖励差距的似然转变为最小化奖励差距与最优边际之间的距离。然后,我们将奖励重新定义为被选中响应与被拒绝响应之间的比率形式,这有效地抵消了 $\beta$ 的影响,并产生了一个有界且可解释的边际。该边际称为比率奖励边际,记为 $\xi$。与 SimPO 中的边际 $\gamma$ 不同,$\xi$ 显式地表示了被选中响应与被拒绝响应之间期望的相对分离度,并且可以从初始奖励差距分布中确定,从而避免了反复的试错调整。最后,我们使用 LeakyReLU 防止那些奖励差距已经超过 $\xi$ 的样本被不必要地拉回目标边际。$\xi$-DPO 保持了简单的公式形式,无需引入参考模型或额外的超参数。实验结果表明,$\xi$-DPO 在多个开放基准测试的多项评估指标上均大幅优于现有的偏好优化方法。

††footnotetext: 代码可在 https://github.com/zyfan1/Xi-DPO 获取。

## 1 引言

随着大型语言模型 Team (2025); OpenAI (2025) 的快速发展,使其响应与人类偏好保持一致变得至关重要。Ouyang 等人 Ouyang et al. (2022a) 引入了从人类反馈中进行强化学习(RLHF),这是一种使大型语言模型输出与人类偏好保持一致的方法。在他们的框架中,使用近端策略优化(PPO)算法 Schulman et al. (2017) 对模型进行优化。RLHF 包括三个阶段:1. 在下游任务上对大型模型进行监督微调(SFT);2. 基于 SFT 模型进行奖励建模;3. 最终的强化学习阶段。尽管有效,但这种多阶段管道给训练过程引入了相当大的复杂性。

Christiano 等人 Christiano et al. (2017) 提出使用 Bradley-Terry 模型(BT 模型) Bradley and Terry (1952) 进行偏好建模,以优化奖励模型 $r(y,x)$:给定数据集 $D=\{(x,y_w,y_l)\}$,它由提示 $x$ 和成对响应 $(y_w, y_l)$ 组成,其中 $y_w$ 是被选中的响应(获胜),$y_l$ 是被拒绝的响应(失败)。它们的偏好关系为:

$$ p(y_w \succ y_l | x) = \frac{\exp(r(y_w,x))}{\exp(r(y_w,x)) + \exp(r(y_l,x))} = \sigma(r(y_w,x) - r(y_l,x)) \quad (1) $$

其中 $\sigma$ 是 sigmoid 函数。后续工作,如直接偏好优化(DPO) Rafailov et al. (2023),显著简化了 RLHF。DPO 的关键创新在于推导了奖励模型与优化策略之间的关系,从而将奖励建模和强化学习合并为一个单一阶段。这极大地简化了偏好优化的过程。研究人员只需使用以下 DPO 损失函数优化目标模型 $\pi_\theta$,即可使模型的响应与人类偏好保持一致:

$$ \ell_{\text{DPO}}(\theta) = \mathbb{E}_{(x,y_w,y_l) \sim D} \left[ -\log \sigma \left( \beta \left( \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right) \right]. \quad (2) $$

其中 $\pi_\theta$ 是要优化的策略模型,$\pi_{\text{ref}}$ 是参考策略,$\pi_\theta(y|x)$ 和 $\pi_{\text{ref}}(y|x)$ 分别表示在策略模型和参考模型下,给定提示 $x$ 生成响应 $y$ 的概率,$y_w$ 表示被选中的响应,$y_l$ 表示被拒绝的响应。

最近的研究 Wu et al. (2024); Pan et al. (2025) 表明,DPO 超参数 $\beta$ 对数据分布高度敏感,这使得调优困难,并且可能导致性能提升有限。Junkang 等人 Wu et al. (2024) 通过实验分析了 $\beta$ 的选择如何依赖于数据分布。具体而言,当被选中 ($y_w$) 和被拒绝 ($y_l$) 响应之间的奖励差距较大时,偏好较大的 $\beta$;当差距较小时,$\beta$ 应该较小。

简单偏好优化(SimPO) Meng et al. (2024) 通过重写 DPO Rafailov et al. (2023) 的奖励 $\beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)}$ 为 $\frac{\beta}{\|y\|} \log \pi_\theta(y|x)$,并进一步鼓励被选中响应 $y_w$ 与被拒绝响应 $y_l$ 之间的奖励差距至少为 $\gamma$,提供了一种更高效的公式。他们强调了 $\gamma$ 的必要性,认为它直接影响奖励差距分布的均匀性或平坦度。形式上,SimPO 的损失函数定义为:

$$ \ell_{\text{SimPO}}(\theta) = \mathbb{E}_{(x,y_w,y_l) \sim \mathcal{D}} \left[ -\log \sigma \left( \frac{\beta}{\|y_w\|} \log \pi_\theta(y_w|x) - \frac{\beta}{\|y_l\|} \log \pi_\theta(y_l|x) - \gamma \right) \right]. \quad (3) $$

SimPO 需要联合调整 $\beta$ 和 $\gamma$。如在 $\beta$-DPO Wu et al. (2024) 中,我们对低差距数据使用较小、固定的 $\beta$,对高差距数据使用较大的 $\beta$。我们使用 SimPO Meng et al. (2024) 微调 Pythia-2.8B Biderman et al. (2023),设置 $\gamma$ 从大到小衰减(6 到 1)。详细的基于 GPT-4 的评估结果见表 1。可以观察到,低差距数据上的胜率从 3.2% 增加到 49.5%,而在高差距数据上,胜率从 31.46% 下降到 30.16%。如表 1 所示,$\beta$ 和 $\gamma$ 都表现出高敏感性,因此需要进行多次实验以确定合适的值。这些结果还揭示了 SimPO 中奖励边际 $\gamma$ 的可解释性问题。在我们关于 $\gamma$ 的实验中,改变 $\gamma$ 在低差距数据上导致比高差距数据更大程度的性能变化。从这个角度来看,$\gamma$ 被视为一种与数据内在差距结构相匹配的约束强度,而不是作为一种期望迫使大多数样本的奖励差距超过规定阈值的边际。

基于我们的分析,当类似 SimPO 的方法应用于不同的数据集时,这些数据集的内在奖励差距各不相同。然而,这种变化难以量化,使得不清楚 $\gamma$ 应该增加还是减少,以及增减多少。这种不确定性是选择合适的 $\gamma$ 具有挑战性的主要原因之一。

表 1:不同数据类型下随 $\beta, \gamma$ 变化的胜率。左表展示了 $\beta$-DPO Wu et al. (2024) 的结果,说明了 $\beta$ 的效果如何随数据类型变化。右表报告了我们的结果,探讨了 $\gamma$ 的效果如何随数据类型变化。

(a) 随 $\beta$ 变化的胜率。$\beta$-DPO 的结果。

| 数据类型 | $\beta=0.1$ | $\beta=0.3$ | $\beta=0.5$ |
| :--- | :--- | :--- | :--- |
| 低差距 | 43.0 | 37.0 | 33.0 |
| 高差距 | 7.0 | 28.0 | 31.0 |

(b) 随 $\gamma$ 变化的胜率。结果来自基于 SimPO 构建的实验。

| 数据类型 | $\beta$ | $\gamma=6$ | $\gamma=3$ | $\gamma=1$ |
| :--- | :--- | :--- | :--- | :--- |
| 低差距 | 2 | 3.20 | 46.94 | 49.45 |
| 高差距 | 10 | 31.46 | 30.70 | 30.16 |

DPO 和 SimPO 都采用 $\sigma(\beta(r(y_w|x) - r(y_l|x)))$ 形式的优化目标。$\beta$ 通常作为缩放因子。然而,在本文中,我们从不同的角度重新审视 $\beta$ 的作用,并证明它隐式地用于过滤高差距样本。这为为什么现有的动态超参数调整策略 Wu et al. (2024, 2025) 在实践中有效提供了有力的解释。

基于这些见解,我们提出了 $\xi$-DPO:基于比率奖励边际的直接偏好优化。首先,我们通过等效函数映射简化 SimPO 的优化目标。它将目标从最大化奖励差距的概率似然转化为最小化奖励差距与理论最优差距之间的均方误差。其次,我们将被选中响应与被拒绝响应的比率转换为奖励的归一化形式。这种归一化不仅有效地消除了 $\beta$,还将奖励差距约束在区间 [0, 1] 内,我们将其定义为比率奖励边际 $\xi$。最后,我们采用 LeakyReLU 激活函数以防止奖励退化,即防止那些已经超出 $\xi$ 的奖励差距被拉回,这会导致被拒绝奖励的增加和被选中奖励的减少。形式上,$\xi$-DPO 的优化目标定义如下:

$$ \min_\theta \; \mathbb{E}_{(x,y_w,y_l) \sim \mathcal{D}} \left[ \operatorname{LeakyReLU} \left( \xi - \left( \frac{\frac{1}{\|y_w\|} \log \pi_\theta(y_w|x) - \frac{1}{\|y_l\|} \log \pi_\theta(y_l|x)}{\left| \frac{1}{\|y_w\|} \log \pi_\theta(y_w|x) + \frac{1}{\|y_l\|} \log \pi_\theta(y_l|x) \right|} \right) \right)^2 \right] \quad (4) $$

其中 $\operatorname{LeakyReLU}$ 是激活函数。上述方程只有一个可调整参数 $\xi$,可以根据数据集特征进行选择,而不是仔细的试错调整。具体而言,$\xi$ 由策略初始奖励差距分布的分位数决定。在实际实现中,对于使用强奖励模型构建的低差距数据集,我们建议将 $\xi$ 设置在分布的第 90-95 百分位范围内。这种选择允许大多数样本参与训练,同时防止过强的奖励信号导致模型过拟合。对于使用较弱奖励模型构建的高差距数据集,通常在第 97-99.9 百分位内,这有助于避免由奖励信号不足引起的优化过早终止。我们的敏感性实验进一步表明,只要在合理范围内选择,$\xi$-DPO 对 $\xi$ 的选择保持鲁棒性。

图 1:奖励曲线比较。(a) 显示了 AlphaDPO 在训练期间的奖励动态,(b) 展示了 $\xi$-DPO 的奖励动态。对于 $\xi$-DPO,被选中响应的奖励稳步增加,而被拒绝响应的奖励减少,表明模型越来越符合被选中响应的偏好,符合我们的优化目标。相比之下,对于 AlphaDPO 方法(如 SimPO),虽然被选中奖励仍高于被拒绝奖励,但两者均呈下降趋势,暗示区分被选中响应与被拒绝响应的能力较弱。值得注意的是,$\xi$-DPO 的三种设计是其有效性的关键。**优化目标的等效映射**消除了 $\beta$ 超参数对 sigmoid 梯度造成的不利优化影响,同时赋予奖励边际强制区分被选中响应与被拒绝响应的明确语义角色。**奖励重定义**消除了 $\beta$ 并使奖励边际有界。最后,**LeakyReLU** 保护了这种强制分离:高差距样本的奖励不会被强行拉回。

我们在图 1 中可视化了 $\xi$-DPO 和 AlphaDPO(SimPO 的动态 $\gamma$ 变体 Wu et al. (2025))训练过程中的奖励曲线。如图所示,对于像 SimPO 这样的 AlphaDPO 方法,虽然被选中响应的奖励仍高于被拒绝响应的奖励,但两者均呈下降趋势,暗示区分被选中响应与被拒绝响应的能力较弱。相比之下,对于 $\xi$-DPO,被选中响应的奖励稳步增加,而被拒绝响应的奖励减少,表明模型越来越符合被选中响应的偏好,符合我们的优化目标。

我们将贡献总结如下:

1. 我们系统地分析了 SimPO 中超参数 $\beta$ 和 $\gamma$ 的作用,并得出了两点见解:i) $\beta$ 不仅是奖励缩放因子,还用于过滤高差距样本;ii) 从 token 级别来看,$\gamma$ 由数据的内在奖励差距决定。$\beta$ 在样本过滤中引入的不确定性以及量化不同数据集内在奖励差距的困难,导致 $\beta$ 和 $\gamma$ 具有敏感性,难以选择。
2. 基于我们对 $\beta$ 和 $\gamma$ 角色分析的见解,我们提出了 $\xi$-DPO。它采用了更简单的优化目标,仅有一个超参数 $\xi$,可以根据数据集特征轻松设置,而无需仔细的试错调整。其新颖的结构,加上边际...

相似文章

GroupDPO:内存高效的分组直接偏好优化

arXiv cs.CL

GroupDPO 引入了一种内存高效的分组直接偏好优化算法,该算法利用每个提示的多个候选响应,通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。

DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡

Hugging Face Daily Papers

# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:

近端策略优化

OpenAI Blog

# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度