GroupDPO：内存高效的分组直接偏好优化

arXiv cs.CL 2026/04/20 04:00 论文

摘要

GroupDPO 引入了一种内存高效的分组直接偏好优化算法，该算法利用每个提示的多个候选响应，通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。

arXiv:2604.15602v1 公告类型：新发布摘要：偏好优化被广泛用于使大语言模型（LLMs）与偏好反馈对齐。然而，大多数现有方法在每个提示上仅训练单个正负样本对，浪费了偏好数据集中通常包含的多个候选响应提供的额外监督信号。受此限制的启发，最近的工作探索了分组偏好优化，该方法联合对比同一提示的多个响应，但由于分组耦合目标的内存开销，其经验行为和可扩展性仍未得到充分探索。在本工作中，我们引入了一种内存高效的分组偏好优化算法，该算法在保留梯度的同时，在反向传播过程中解耦样本，大幅降低峰值内存使用，从而支持更大分组规模的可扩展训练。在离线和在线对齐设置中，我们展示了利用多个响应相比单对训练具有持续的优势。此外，在正样本上加入负对数似然（NLL）项对于性能提升和训练稳定性都至关重要。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:28

# GroupDPO: 内存高效的分组式直接偏好优化

来源：https://arxiv.org/html/2604.15602

Jixuan Leng CMU [email protected] &Si Si Google Deepmind [email protected] Hsiang-Fu Yu Google [email protected] &Vinod Raman Google Deepmind [email protected] &Inderjit S. Dhillon Google [email protected]

###### 摘要

偏好优化被广泛用于使大语言模型（LLM）与偏好反馈对齐。然而，大多数现有方法在每个提示词上只训练一对正负样本，丢弃了通常包含多个候选响应的偏好数据集中可用的额外监督信息。受此限制的启发，最近的研究开始探索分组式偏好优化，它联合对比同一提示词的多个响应，但由于分组耦合目标的内存开销，其经验行为和可扩展性仍然未被充分探索。在这项工作中，我们引入了一种内存高效的分组式偏好优化算法，在反向传播时保留梯度的同时将样本解耦，大幅减少峰值内存使用，从而支持使用更大分组大小的可扩展训练。在离线和在线对齐设置中，我们都表明利用多个响应始终优于单对训练。此外，在正响应上加入负对数似然（NLL）项对于性能提升和训练稳定性都至关重要。

GroupDPO: 内存高效的分组式直接偏好优化

Jixuan Leng††谢辞：实习期间在Google完成的工作。[email protected] SiGoogle [email protected]

Hsiang-Fu [email protected] RamanGoogle [email protected] S. [email protected]

## 1 引言

图1：GroupDPO及其内存高效代理实现的概览。上图：标准DPO在单对正负样本上训练，而分组式目标利用多个响应但需要联合前向和反向传播，导致高内存使用和大分组大小时的显存溢出。下图：我们的代理通过在无梯度传递中预计算每样本系数并优化样本级损失，避免分组耦合反向传播，大幅减少峰值内存开销，支持使用更大分组进行可扩展训练。

偏好优化已成为现代大语言模型（LLM）对齐的核心组件。许多对齐管道不仅依赖监督微调，还使用偏好反馈来训练策略模型，该反馈比较同一提示词的替代响应。早期方法依赖于人类反馈强化学习（RLHF）（Christiano等人，2017；Ouyang等人，2022；Yang等人，2025b），其中首先训练一个奖励模型，然后使用它来优化策略模型。最近，直接偏好优化（DPO）（Rafailov等人，2023）及相关方法（Meng等人，2024；Hong等人，2024；Liu等人，2024b）通过将偏好对齐重新表述为对选中和拒绝响应的分类问题，简化了这个管道，使策略能够直接从偏好数据进行优化，绕过奖励模型训练和策略梯度强化学习。

尽管取得了这些进展，大多数偏好优化方法基于单个正响应和负响应之间的**成对**比较。然而，在实践中，偏好数据集通常是通过为每个提示词采样多个候选响应并使用人工或自动反馈对其进行评估而构建的（Cui等人，2023）。要应用DPO等成对目标，这些响应集通常会被**二值化**，即选择单个正和负响应，同时丢弃剩余候选。这种简化丢失了关于组内响应相对质量的潜在有用监督信号。因此，最近的工作开始探索在响应集而非单对上进行训练的**分组式**或**列表式**偏好学习方法。

分组式偏好优化可以通过联合对比同一提示词的多个候选响应来提供更丰富的监督。几项最近的方法使用排序或集合级目标将成对偏好学习扩展到这一设置（Song等人，2024；Gupta等人，2024；Liu等人，2025b；Chen等人，2024a）。然而，这些方法的实际行为仍然理解不足，因为先前的工作通常单独提出目标并进行隔离评估，难以在一致的训练设置下进行系统比较。此外，分组式目标在每个提示词组内引入了跨响应依赖关系。由于损失取决于正响应和负响应之间的相互作用，梯度在样本间变得耦合，需要在组上构建联合计算图。在朴素实现中（von Werra等人，2020；Gupta等人，2024），所有样本的激活必须保留到反向传播，导致内存使用随组大小呈指数增长。因此，内存成本限制了先前工作只能处理小组，限制了对分组级监督的利用。

在这项工作中，我们从实践和经验两个角度研究分组式偏好优化。为了解决分组式目标的计算挑战，我们引入了一种内存高效的代理实现，将目标重新表述为具有匹配一阶梯度的样本级代理损失。关键思想是使用额外的轻量级无梯度传递计算每样本梯度系数，然后使用这些系数执行标准令牌级反向传播。这将梯度在样本间解耦，并消除了同时保留多个样本激活的需要，使内存开销基本独立于分组大小。

使用这种实现，我们在离线和在线对齐设置中对几个代表性分组式目标进行了统一表述的经验研究。我们的结果揭示了两个关键发现。首先，每个提示词使用多个样本始终优于单对训练，表明分组级监督提供了更丰富的学习信号。其次，分组式训练可能不稳定：加入额外的负对数似然（NLL）项（Liu等人，2024b；Pang等人，2024；Wang等人，2024a；Grattafiori等人，2024；Pal等人，2024）在正样本上对于防止训练崩溃和改进最终性能至关重要。

我们在多个模型和训练设置上评估了我们的方法。多领域基准上的结果显示分组式偏好优化始终优于单对训练。同时，提议的代理实现大幅减少了内存使用，同时保持竞争力的训练延迟，使分组式训练在更大规模上更实用。

我们的贡献总结如下：

- 我们在离线和在线设置中提供了分组式变体的受控比较。
- 我们表明使用响应组进行训练优于成对训练，且正响应NLL正则化是稳定分组式优化的关键。
- 我们引入了一个与朴素实现一阶等价的内存高效代理。
- 我们证明该代理大幅减少峰值内存开销，支持使用更大分组训练，同时保持良好的效率。

## 2 相关工作

**偏好对齐**。使LLM与人类偏好对齐一直依赖于RLHF（Christiano等人，2017；Ouyang等人，2022），其中在偏好比较上训练的奖励模型使用策略梯度方法（如近端策略优化（PPO））进行优化（Schulman等人，2017）。虽然有效，RLHF由于额外的奖励模型训练和强化学习而引入计算开销和训练不稳定性。

DPO（Rafailov等人，2023）通过将偏好对齐重新表述为选中和拒绝响应的分类问题，提供了一个更简单的替代方案，允许策略直接从偏好数据进行优化，无需训练显式奖励模型。基于这个表述，后续工作探索了扩展以改进训练稳定性和鲁棒性。一个方向是使用监督学习信号增强目标以缓解似然降解和过度优化等问题。例如，正则化偏好优化（RPO）（Liu等人，2024b）在选中响应上引入负对数似然（NLL）项作为隐式正则化器，而迭代推理偏好优化（IRPO）（Pang等人，2024）采用类似的混合目标来稳定复杂推理任务的在线对齐。另一个研究方向调查偏好学习的偏差，包括长度利用和过度自信，并提出校准和归一化方法来解决这些问题（Park等人，2024；Liu等人，2024a；Leng等人，2024）。

由于DPO依赖冻结的参考模型，几项工作也探索了简化训练的无参考表述。例如，SimPO（Meng等人，2024）移除参考模型并使用策略的长度归一化对数似然来构建偏好目标，而ORPO（Hong等人，2024）通过赔率比目标将偏好优化直接集成到监督微调中。除了人工标注的比较，最近的自我改进方法如SPIN（Chen等人，2024b）利用迭代自我博弈在训练期间生成额外的偏好数据以改进性能。

**分组式偏好学习**。虽然DPO基于成对比较，但现代偏好数据集通常为每个提示词包含多个候选响应。将这些响应集简化为独立对会丢失有用的相对信息，限制了训练期间可用的监督信号。为了解决这一限制，最近的工作越来越多地探索分组式或列表式偏好学习，与经典学习排序方法建立连接。

几个方法使用基于排序的目标将偏好优化扩展到超越成对比较。偏好排序优化（PRO）（Song等人，2024）和列表式偏好优化（LiPO）（Liu等人，2025b）使用Plackett-Luce模型（Plackett，1975）将成对比较推广到完整排序。多偏好优化（MPO）（Gupta等人，2024）则使用在响应组上定义的对比目标来建模偏好。类似的分组式或列表式学习范式也在推荐系统中被探索，其中S-DPO（Chen等人，2024a）、LPO4Rec（Li等人，2025）和RankGR（Fu等人，2026）等方法利用大候选集来改进排序和检索性能。

尽管这些进展，先前关于分组式偏好优化的工作有两个关键限制。首先，算法通常为不同设置提出，缺乏分组式目标的统一比较。其次，许多方法由于分组式损失的内存开销而基于相对较小的响应组进行操作。我们通过在统一实验框架下系统地比较代表性方法、研究更大的分组大小，以及引入内存高效代理实现来解决这些限制，其GPU内存使用不随分组大小扩展，支持可扩展训练。

## 3 背景

**分组DPO设置**。我们考虑一个偏好数据集，其中响应被组织成提示词特定的组。每个组g对应一个提示词x，包含正响应集合P_g和负响应集合N_g。组内的响应被视为无序的，没有集合内排序。这个设置在实践中自然产生：例如，在使用基于规则的结果奖励的在线训练中（如数学推理），响应通常只按正确性分区，在推荐系统中反馈通常指示偏好与非偏好项，不涉及排序。

**隐式偏好得分**。按照DPO，我们定义隐式偏好得分如下：

u_θ(y|x) = β(log π_θ(y|x) - log π_ref(y|x))

这是策略π_θ和参考模型π_ref之间的缩放对数似然比，β是缩放因子。

**统一的分组DPO目标视图**。广泛的偏好目标类可以写为

L_group(θ) = (1/G) Σ_{g=1}^G φ_g(u_{P_g}(θ), u_{N_g}(θ))  (1)

其中u_{P_g} = {u_θ(y|x) : y ∈ P_g}，u_{N_g}类似，φ_g是方法特定的，主要区别在于得分如何在组内聚合或对比。尽管损失定义有所不同，这些目标共享一个常见的计算问题：每个组内的跨响应耦合，这使直接优化内存密集。为了解决这个问题，我们在第4章引入了一个内存高效且梯度等价的代理损失。

## 4 内存高效代理

**动机：分组式目标中的跨响应依赖**。分组式偏好目标在每个提示词组内耦合响应。许多变体依赖于跨响应交互（例如，正负响应得分之差u_p - u_n或基于softmax的聚合如log Σ exp(u_n)），这意味着每个响应的梯度贡献取决于同一组中其他响应的得分。因此，单个响应的梯度无法独立计算

GroupDPO：内存高效的分组直接偏好优化

相似文章

xi-DPO：通过比率奖励边际的直接偏好优化

超越聊天机器人的直接偏好优化

DOG-DPO：面向安全对齐的几何动态优化

面向聊天机器人微调的直接偏好优化：一项实证研究

GAGPO：广义优势分组策略优化

提交意见反馈