DPO与RLHF的条件等价性:隐含假设、失败模式与可证明的对齐

arXiv cs.AI 论文

摘要

本文证明了直接偏好优化(DPO)与基于人类反馈的强化学习(RLHF)之间的等价性是有条件的,并且在实践中经常被违反,揭示了DPO优化相对优势而非绝对对齐的失败模式。作者引入了约束偏好优化(CPO)以实现可证明的对齐,并展示了最先进的性能。

arXiv:2605.20834v1 公告类型: 新 摘要:直接偏好优化(DPO)已成为基于人类反馈的强化学习(RLHF)的热门替代方案,理论上等价且实现更简单。我们证明这种等价性是有条件的而非普遍的,依赖于一个在实践中经常被违反的隐含假设:RLHF最优策略必须偏好人类偏好的回应。当这一假设不成立时,DPO优化的是相对于参考策略的相对优势,而非与人类偏好的绝对对齐,导致病态收敛,即策略在降低DPO损失的同时偏好不被偏好的回应。我们刻画了何时该假设被违反,展示了不良解空间的存在,并证明在这种情况下DPO和RLHF优化的目标根本不同。为了解决这个问题,我们引入了约束偏好优化(CPO),通过约束增强了RLHF以实现可证明的对齐。我们进一步通过软间隔排序提供了几何解释,揭示了DPO实现的是可能带有负目标的间隔排序。我们的理论分析明确了DPO的保证何时成立,并提供了保持简单性的可证明对齐的解决方案。在标准基准上的综合实验表明,CPO达到了最先进的性能。代码可在 https://github.com/visitworld123/CPO 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:49

# DPO 与 RLHF 的条件等价性:隐式假设、失效模式与可证明对齐

###### 摘要

直接偏好优化 (DPO) 已成为从人类反馈中进行强化学习 (RLHF) 的流行替代方案,它通过更简单的实现提供了理论上的等价性。我们证明这种等价性是*有条件*的,而非普遍的,它依赖于一个在实践中经常被违反的隐式假设:RLHF 最优策略必须偏好人类偏好的响应。当此假设不成立时,DPO 优化的是相对于参考策略的*相对优势*,而非与人类偏好的*绝对对齐*,导致病态收敛,即策略在降低 DPO 损失的同时偏好非偏好响应。我们刻画了该假设何时被违反,展示了不良解空间的存在,并证明了在此类情况下 DPO 和 RLHF 优化着根本不同的目标。为解决此问题,我们引入了约束偏好优化 (CPO),通过约束增强 RLHF 以实现可证明的对齐。我们进一步通过软间隔排序提供了几何解释,揭示了 DPO 实现了可能具有负目标的间隔排序。我们的理论分析确立了 DPO 的保证何时成立,并提供了在保持简单性的同时实现可证明对齐的解决方案。在标准基准上的全面实验表明,CPO 达到了最先进的性能。代码可在以下网址获取:https://github.com/visitworld123/CPO。

---

## 1 引言

将大型语言模型 (LLM) 与人类偏好对齐已成为一个核心挑战 (Ouyang 等人,2022; Bai 等人,2022)。一种突出的方法是基于人类反馈的强化学习 (RLHF) (Christiano 等人,2017; Stiennon 等人,2020),它通过利用奖励模型反馈来优化策略模型以生成人类偏好的响应 (Ouyang 等人,2022; Schulman 等人,2017)。然而,其计算昂贵且不稳定的特性 (Casper 等人,2023) 促使了直接偏好优化 (DPO) 的发展,作为一种简洁的替代方案,它以显著更简单的实现提供了与 RLHF 的理论等价性 (Rafailov 等人,2023)。DPO 源自数学重参数化 (Tunstall 等人,2023; Ivison 等人,2023; Dubey 等人,2024):在 Bradley-Terry (BT) 模型 (Bradley 和 Terry,1952) 下,最优 RLHF 策略可以用奖励函数解析表达,从而无需显式奖励建模或 RL 训练即可直接优化策略,这使其得以广泛采用。

最近的理论分析揭示了 DPO 和 RLHF 之间的关键区别。Fisch 等人 (2024) 表明 DPO 的隐式奖励过拟合并趋向于无限大小,通常会产生退化策略,即使偏好响应也获得近乎零的概率。Lin 等人 (2024) 证明 DPO 的隐式奖励模型在分布偏移下的泛化能力显著差于显式奖励模型。Im 和 Li (2024) 研究了当奖励模型和策略模型具有不同表示能力时性能差距如何产生。Shi 等人 (2025) 揭示了 DPO 优先考虑统计上可区分的行为而非价值对齐的行为,这可能在损失降低时仍导致错位。这些发现提出了一个基本开放问题:

DPO 在什么条件下可以通过 RLHF 推导得出?

在这项工作中,我们重新审视了 DPO 的推导,并识别出一个关键但此前被忽视的假设:*RLHF 最优策略必须偏好人类偏好的响应而非非偏好响应*。具体来说,DPO 的推导依赖于将 RLHF 最优策略 π* 代入 BT 模型以消除奖励函数。然而,这种代入仅在 π* *尊重* BT 模型中编码的偏好结构时才有效,即当它为偏好响应分配更高概率时。我们证明这个关键假设*并非*由 RLHF 框架保证 (章节 LABEL:sec:assumption)。这种违反的产生是因为 RLHF 在最大化奖励与相对于参考策略的 KL 散度之间进行权衡。当参考策略足够错位时,KL 惩罚项占主导地位,导致 π* 从 πref 继承错误的偏好,从而违反了 DPO 背后的隐式假设。

我们证明,当这个隐式假设被违反时,DPO 优化着一个与 RLHF 根本不同的目标,造成了与人类偏好错位的风险。具体来说,DPO 优化的是相对于参考策略的*相对优势*,而非与人类偏好的*绝对对齐*,导致优化目标的根本性转变。这种违反导致了病态收敛:策略可以降低 DPO 损失,同时系统性地偏好非偏好响应。我们刻画了一个*不良解空间* (定义 LABEL:def:undesirable),其中策略同时满足 DPO 的优化目标却又与人类偏好相悖。这揭示了 DPO 通过奖励重参数化继承了 RLHF 的代数结构,但并未继承其对齐保证。因此,等价性是有条件的,依赖于参考策略的质量。

为了解决这一根本限制,我们引入了*约束偏好优化 (CPO)*,它通过显式约束增强了 RLHF 目标。约束项将 RLHF 的最优解与 BT 理论的要求对齐,从而保证与人类偏好的对齐。我们进一步通过软间隔排序损失的视角提供了 DPO 和 CPO 的几何解释 (Burges 等人,2005; Schroff 等人,2015)。DPO 近似于间隔排序损失,但其目标间隔可能为负,这为 DPO 为何会收敛到违反偏好的策略提供了直观的几何解释。CPO 通过其约束项确保非负有效间隔来纠正这一点。这种视角为理解 DPO 何时以及为何失败,以及 CPO 如何解决这些失败提供了几何直觉。为了进一步消除对显式奖励建模的需求,我们开发了一个保守变体 E-CPOC,它在标准统计假设下实现了与显式约束 RLHF 的形式等价性。等价性分析的核心是一个*损失-到-Delta 桥接* (命题 LABEL:prop:loss_to_delta),它将可观测的训练损失差距转换为 δ 空间中策略级邻近度的保证,其常数的界*独立于*偏好对数量 N——这使得等价性保证仅从训练诊断中即可*验证*,而无需假设全局最优性。在标准基准上的全面实验表明,CPO 达到了最先进的性能。

我们将主要贡献总结如下:

- • 我们证明了 DPO 和 RLHF 是条件等价的 (章节 LABEL:sec:assumall),依赖于一个隐式假设:RLHF 最优策略必须偏好人类偏好的响应而非非偏好响应。该假设是否成立取决于参考策略的质量。这揭示了 DPO 并未继承 RLHF 的对齐保证,使得等价性有条件地依赖于参考策略质量。
- • 我们确定,当该假设被违反时,DPO 和 RLHF 优化着根本不同的目标:RLHF 优化与人类偏好的绝对对齐,而 DPO 优化相对于参考策略的相对优势。因此,DPO 的梯度下降可以收敛到一个病态空间,其中策略同时满足 DPO 的优化目标却又违反人类偏好 (章节 LABEL:sec:violation)。
- • 我们提出了约束偏好优化 (CPO),通过显式约束增强 RLHF 以强制偏好对齐,并具有可证明的绝对优势保证 (章节 3.2)。我们进一步提出了保守显式约束偏好优化 (E-CPOC),它无需奖励模型即可显式强制偏好对齐 (章节 3.5)。在标准统计学习假设下 (章节 3.1 中的假设 3.1–3.4),E-CPOC 实现了与显式约束 RLHF 的形式等价性 (附录 LABEL:app:aee 中的定理 LABEL:thm:ecpoc_equivalence),仅需要 Bradley-Terry 模型、近似可实现性、有限样本数据以及一个温和的 ℓ²-δ-邻近条件。ℓ²-δ-邻近条件使用了损失函数直接控制的自然均方范数,并且可以在偏好概率上的温和非退化条件下,通过一个具有*与 N 无关*界的可验证桥接 (命题 LABEL:prop:loss_to_delta,推论 LABEL:cor:verifiable_equiv) *从*损失次优性*推导得出*,而无需直接假设全局最优性。
- • 在标准基准上的全面实验证明了我们方法的有效性 (章节 5)。我们还通过证明 DPO 等价于可能具有负间隔的软间隔排序损失,提供了几何理解。我们的方法通过确保非负有效间隔来纠正这一点 (章节 4),将偏好学习与学习排序文献联系起来,并具有直观的几何解释。

## 2 预备知识

### 2.1 符号

令 X 表示提示空间,Y 表示响应空间。策略 π: X × Y → [0,1] 是在给定提示下响应的条件概率分布。我们用 πref 表示一个固定的参考策略 (通常是一个监督微调模型),用 πθ 表示一个由 θ 参数化的可学习策略。

对于给定的提示 x 和响应对 (yw, yl),其中 yw 优于 yl,对数概率比率定义为:

δπ(x, yw, yl) := log π(yw|x) − log π(yl|x)。 (1)

当上下文清晰时,我们将其缩写为 δπ。该量在 log 空间中衡量策略对 yw 相对于 yl 的偏好强度。

### 2.2 RLHF 框架

###### 定义 2.1 (RLHF 目标)

给定奖励函数 r: X × Y → R,参考策略 πref 和温度参数 β > 0,RLHF 优化目标为:

maxπ Ex∼D, y∼π(·|x)[r(x, y)] − β · KL(π(·|x) ‖ πref(·|x)), (2)

其中 D 是提示分布,KL 表示 Kullback-Leibler 散度。

KL 正则化项防止学习策略偏离 πref 太远,确保训练稳定并防止奖励过度优化 (Gao 等人,2023)。

RLHF 目标的最优解具有封闭形式 (Rafailov 等人,2023):

π*(y|x) = (1/Z(x)) πref(y|x) exp(r(x, y)/β), (3)

其中 Z(x) = ∑y′ πref(y′|x) exp(r(x, y′)/β) 是配分函数。那么,对于任意响应对 (yw, yl),奖励差可表示为:

r(x, yw) − r(x, yl) = β [log (π*(yw|x) / πref(yw|x)) − log (π*(yl|x) / πref(yl|x))]。 (4)

这个奖励差可以使用对数概率比率式 (1) 表示为:

δπ* = δπref + (r(x, yw) − r(x, yl)) / β。 (5)

### 2.3 Bradley-Terry 偏好模型

###### 定义 2.2 (Bradley-Terry 模型 (Bradley 和 Terry, 1952))

给定提示 x,人类偏好 yw 优于 yl 建模为:

p*(yw ≻ yl | x) = σ(r*(yw) − r*(yl)) (6)

其中 σ(·) 是 sigmoid 函数,r*(·) 是代表人类偏好的潜在真实奖励函数。

如果 yw ≻ yl (即 p*(yw ≻ yl | x) > 0.5),则必然有 r*(yw) − r*(yl) > 0。

### 2.4 直接偏好优化

将奖励重参数化式 (4) 代入 Bradley-Terry 模型式 (6):

p*(yw ≻ yl) = σ(r*(x, yw) − r*(x, yl)) = σ(β(δπ* − δπref))。 (7)

DPO (Rafailov 等人,2023) 用参数化策略 πθ 近似 π*,并最大化似然:

LDPO(πθ) = −E(x, yw, yl)∼D[log σ(β(δπθ − δπref))]。 (8)

## 3 约束偏好优化

为放松所识别的隐式假设,我们提出了*约束偏好优化 (CPO)*,它将标准 RLHF 增强为带约束的 RLHF。带约束 RLHF 的最优解可以安全地集成到 BT 模型中,因为所提出的约束显式鼓励或确保偏好对齐。在提出框架之前,我们陈述支撑我们理论结果的假设。

### 3.1 假设

我们分析的一个显著特征是,*所有假设要么是标准的,要么是可证明温和的*。我们需

相似文章

xi-DPO:通过比率奖励边际的直接偏好优化

arXiv cs.LG

本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。

超越模式崩溃:面向多样化推理的分布匹配

arXiv cs.AI

本文识别了同策略强化学习方法(如GRPO)中的模式崩溃问题,并提出了DMPO,该方法通过近似前向KL散度最小化来保持解的多样性。在NP难组合优化和数学推理任务上取得了显著改进。