偏好优化中的虚假相关性学习:机制、后果及通过平局训练的缓解方法
摘要
本文分析了诸如直接偏好优化(DPO)等偏好优化方法中的虚假相关性学习,确定了平均虚假偏差和因果-虚假泄漏等机制。本文提出了使用效用相等的偏好对进行“平局训练”作为一种缓解策略,以减少对虚假特征的依赖,同时不降低因果学习效果。
arXiv:2605.11134v1 公告类型:新论文
摘要:已知直接偏好优化(DPO)等偏好学习方法会导致模型对虚假相关性的依赖,从而导致当前语言模型中的应声虫效应和长度偏差,并可能使未来系统出现严重的目标泛化不良。在本研究中,我们对该现象进行了统一的理论分析,阐述了虚假学习的机制、其在部署中的后果以及一种可证明的缓解策略。我们聚焦于对数线性策略,表明标准的偏好学习目标通过两种途径在群体层面上诱使模型依赖虚假特征:平均虚假偏差和因果-虚假相关性泄漏。随后我们指出,这种依赖导致了对分布偏移的不可消除的脆弱性:来自相同训练分布的更多数据并不能减少模型对虚假特征的依赖。为此,我们提出了平局训练,这是一种利用平局(效用相等的偏好对)引入数据驱动正则化的数据增强策略。我们证明了该方法选择性地减少了虚假学习,而不损害因果学习。最后,我们在对数线性模型上验证了我们的理论,并提供了实证证据,表明虚假学习机制以及平局训练的优势在神经网络和大语言模型中依然持续存在。
查看缓存全文
缓存时间: 2026/05/13 06:31
# 偏好优化中虚假相关性的学习:机制、后果及通过平局训练的缓解策略
来源: https://arxiv.org/html/2605.11134
###### 摘要
诸如直接偏好优化(DPO)等偏好学习方法已知会导致对虚假相关性(spurious correlations)的依赖,从而导致当今语言模型中的阿谀奉承(sycophancy)和长度偏差,并可能在未来的系统中引发严重的目标泛化错误(goal misgeneralization)。在本工作中,我们对这一现象提供了统一的理论分析,刻画了虚假学习的机制、其在部署中的后果以及一种可证明的缓解策略。聚焦于对数线性策略,我们表明标准的偏好学习目标通过两个渠道在总体层面诱导对虚假特征的依赖:均值虚假偏差(mean spurious bias)和因果-虚假相关性泄漏(causal–spurious correlation leakage)。随后,我们证明这种依赖导致了对分布偏移的不可约脆弱性:来自相同训练分布的更多数据并不能减少模型对虚假特征的依赖。为了解决这一问题,我们提出了“平局训练”(tie training),这是一种利用平局(效用相等的偏好对)引入数据驱动正则化的数据增强策略。我们证明了这种方法在选择性降低虚假学习的同时不会损害因果学习。最后,我们在对数线性模型上验证了我们的理论,并提供了经验证据,表明虚假学习机制和平局训练的好处在神经网络和大语言模型中持续存在。
对齐,虚假相关性
## 1 引言
将大语言模型(LLMs)与人类偏好对齐是构建安全且有用的 AI 系统的关键挑战。在当前的对齐流程中,基于人类反馈的强化学习(RLHF)从偏好数据中学习奖励模型,并针对该奖励优化策略(Ziegler et al., 2019; Ouyang et al., 2022)。直接偏好优化(DPO)通过直接在偏好对上优化策略简化了这一流程(Rafailov et al., 2023)。这些方法用于对齐广泛部署的系统,如 ChatGPT(Ouyang et al., 2022)和 Claude(Bai et al., 2022)。
尽管取得了成功,但现有理论对于偏好优化在真实世界人类反馈的分布结构下的行为提供了有限的见解。理解这种行为需要检查偏好数据本身的结构。偏好优化方法在人类比较的数据集上进行训练(Christiano et al., 2017; Rafailov et al., 2023),其中注释者在给定提示词的情况下选择首选响应。这些数据集编码了重复出现的模式,反映了注释者一致的偏差以及首选响应中共享的表面特征。结果,在表面属性与偏好标签之间产生了特征级别的相关性,而这些属性与响应质量并无因果关系。长度、礼貌、格式或与用户一致等表面属性在训练期间往往与偏好标签相关(Sharma et al., 2023; Casper et al., 2023),但可能并不反映真实的响应质量。当这些相关性在部署时发生偏移,依赖它们的模型无法泛化,我们将这种行为称为策略泛化错误(policy misgeneralization),即优化与代理目标对齐,而非预期目标。
除了标准的分布偏移失败外,策略泛化错误具有重要的安全影响。 prior work has raised concerns that AI systems may learn objectives that correlate with intended goals during training but pursue misaligned proxy objectives once those correlations break at deployment(Langosco et al., 2022; Shah et al., 2022)。在这种情况下,高训练奖励可能反映与代理信号的对齐,而非真实任务性能的提升,从而掩盖了在分布偏移下出现的失败(Skalse et al., 2022)。虽然许多文献关注假设性的高能力智能体(Ngo et al., 2024; Bengio et al., 2025),但当前 LLM 中的偏好优化提供了一个具体的场景,即使没有目标规格错误,这种失败模式也会显现。因此,理解虚假相关性在这些系统中产生的机制对于开发鲁棒的对齐方法至关重要。
尽管存在这些风险,但关于偏好优化中虚假相关性的现有工作主要停留在经验层面。先前的研究报道了诸如冗余性(verbosity)等失败(Saito et al., 2023),但描述的是症状而非识别潜在机制。虽然监督学习已通过捷径学习(shortcut learning)发展出分析虚假相关性的数学框架(Geirhos et al., 2020),但诸如 DPO 这样的偏好优化方法缺乏类似的理论。缺乏这种理解,使得缓解策略 largely heuristic 且缺乏原则性保证。
为了弥补这一空白,我们开发了一个用于偏好优化中虚假相关性学习的数学框架。我们将对数线性 DPO 作为成对偏好优化的代表性且易于处理的测试平台进行分析,并刻画特征相关性如何与优化目标相互作用。我们的贡献如下:
(i) 我们通过对线性化对数线性 DPO 目标的总体均衡进行分析,刻画了虚假学习的机制。我们证明,训练分布中的均值虚假偏差或因果-虚假相关性会导致非零的虚假参数(定理 4.1)。这表明虚假学习源于数据的结构性,而非有限样本效应或优化噪声。
(ii) 我们分析了当训练和部署之间的虚假统计量发生偏移时的部署后果。我们使用预期偏好边际作为总体水平的部署代理,以刻画偏移项(命题 5.1 和 5.2)。为了理解有限样本行为,我们将部署次优性分解为由虚假参数驱动的不可约偏移项和随 $O(1/n)$ 衰减的可约估计项(定理 5.3)。这表明扩展训练数据无法消除由偏移引起的误差。
(iii) 我们提出了平局训练(tie training),这是一种数据增强策略,通过添加效用相等但虚假特征不同的偏好对来减少对虚假相关性的依赖。这些平局在虚假方向上注入曲率,在选择性正则化虚假参数而不影响因果学习(定理 6.2 (i))。我们证明这种平局可以减少部署时的不可约偏移误差(定理 6.2 (iii))。
我们通过逐步放宽建模假设的受控实验验证了我们的框架。线性模型证实了与理论的定量一致性。神经网络显示尽管存在隐藏表示,但相同的定性机制仍然存在。扩展到大型语言模型时,平局训练降低了虚假相关性学习,而未损害分布内准确率。
## 2 相关工作
**虚假相关性学习。** 监督学习中的虚假相关性是一个公认的失败模式(Singla and Feizi, 2021)。通过经验风险最小化(ERM)训练的模型通常利用在训练分布中与标签相关但与目标任务缺乏因果关系的表面特征,这种现象被称为捷径学习(Geirhos et al., 2020)、简单性偏差(Shah et al., 2020; Morwani et al., 2023)或虚假特征依赖(Arjovsky et al., 2019)。当虚假相关性在部署时发生偏移(Zhou et al., 2021),模型会出现预测误差(Sagawa et al., 2020)、有偏结果(Geirhos et al., 2018)和性能下降(Xiao et al., 2020)。提出的缓解措施包括数据增强(Chang et al., 2021; Plumb et al., 2021)、少数类样本的重加权(Liu et al., 2021)和修改训练动态(Izmailov et al., 2022; Kirichenko et al., 2022),尽管这些方法通常需要领域知识或对虚假特征的显式标注。从理论上讲,虚假学习已通过优化动态进行分析,其中梯度下降在训练早期优先拟合更简单的特征,导致梯度饥饿(Rahaman et al., 2019; Kalimeris et al., 2019; Qiu et al., 2024),以及通过 NTK 和线性化分析来刻画隐式偏差(Pezeshki et al., 2021; Hermann et al., 2023)。Bombari et al.(Bombari and Mondelli, 2025)研究了 ERM 下的高维线性模型,推导出了揭示数据协方差如何诱导虚假特征依赖的解析解。然而,这些理论假设点状损失景观,并不扩展到偏好优化,其中成对比较引发了根本不同的学习动态。
**偏好优化中的经验失败。** 关于偏好优化的先前工作主要通过观察奖励黑客行为的经验现象记录了虚假相关性学习。研究表明,RLHF 和 DPO 模型利用表面伪影,包括冗长偏差(无论质量如何都偏好更长的响应(Singhal et al., 2023; Saito et al., 2023))、阿谀奉承(为最大化奖励而同意用户信念(Sharma et al., 2023))和格式偏差(过度优化编号列表或风格标记(Zhang et al., 2025))。现有的缓解措施通过临时干预针对个别症状,包括针对冗长的长度惩罚(Park et al., 2024)或合成数据过滤(Chen et al., 2023)。这些方法孤立地处理每种偏差,而未解决产生这些偏差的潜在学习动态。相比之下,我们提供了总体层面的分析,揭示了驱动这些经验观察到的失败的结构性机制。
**偏好优化的理论分析。** 偏好优化的理论分析沿着几条线路发展。关于线性上下文对抗多臂老虎机和对决强化学习的工作在可实现奖励假设下建立了后悔最小化(Dudík et al., 2015; Saha et al., 2023)。最近的对齐工作开发了鲁棒或以安全为导向的分析和训练程序,包括鲁棒公式(Xiong et al., 2023; Wu et al., 2024)、噪声感知损失(Chowdhury et al., 2024a)、隐私保护约束(Chen et al., 2025; Zhou et al., 2025)以及明确分离偏好和拒绝行为的基于散度的对齐目标(Haldar et al., 2025)。在在线性或对数线性 regime 下的补充分析激励了简化的偏好模型,并在理想化假设下分析学习行为(Zhu et al., 2023; Chowdhury et al., 2024b; Zhou et al., 2025)。然而,在这些工作线中,一个关键假设持续存在:即学习到的特征表示对于目标任务是有效的。这些方法通过算法修改解决随机或对抗性失败,但未刻画系统性的虚假相关性学习。
## 3 预备知识
### 3.1 偏好学习设置
**偏好数据集。** 我们考虑一个偏好数据集 $\mathcal{D}=\{(x^{(i)}, y_w^{(i)}, y_l^{(i)})\}_{i=1}^N$,其中 $y_w^{(i)}, y_l^{(i)}$ 表示对提示 $x^{(i)} \in \mathcal{X}$ 的人类首选和被拒绝的响应,遵循标准的成对偏好监督(Rafailov et al., 2023; Christiano et al., 2017)。我们用特征向量 $\phi(x,y) \in \mathbb{R}^d$ 表示每个提示-响应对 $(x,y)$,并在特征差 $\Delta \phi = \phi(x, y_w) - \phi(x, y_l)$ 上进行训练。
**因果和虚假特征分解。** 我们将每个特征向量分解为 $\phi(x,y) = [\phi_c(x,y); \phi_s(x,y)] \in \mathbb{R}^{d_c + d_s}$。因果组件 $\phi_c(x,y) \in \mathbb{R}^{d_c}$ 决定真实的响应效用,而虚假组件 $\phi_s(x,y) \in \mathbb{R}^{d_s}$ 在训练数据中与因果特征相关但不影响效用。这种分解导致了特征差的相应分裂,$\Delta \phi = [\Delta \phi_c; \Delta \phi_s]$。在实践中,虚假特征源于数据收集偏差和特定领域的结构,例如注释者 consistently 偏好更长或更正式的响应,而不考虑内容质量。我们通过以下不变性假设来形式化这种行为。
###### 假设 3.1(不变性)。在修改虚假特征同时保持因果特征固定的干预下,人类偏好保持不变。
### 3.2 对数线性策略和 Bradley-Terry 模型
**策略模型。** 我们采用对数线性策略,这是一种常见的理论分析 regime,能够易于刻画学习...相似文章
xi-DPO:通过比率奖励边际的直接偏好优化
本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。
CiPO:通过迭代偏好优化实现大型推理模型的反事实遗忘
CiPO是一种新颖的机器遗忘框架,用于大型推理模型,它利用迭代偏好优化和反事实推理轨迹,在保持推理能力的同时选择性移除不想要的知识。该方法通过生成逻辑上有效的替代推理路径,解决了依赖于链式思维推理的模型中的遗忘挑战。
FSPO:少样本合成偏好优化实现面向真实用户的个性化
FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法,该算法将奖励建模重新定义为元学习,使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集,在合成用户上实现了87%的个性化性能,在真实用户上实现了70%的个性化性能。
GroupDPO:内存高效的分组直接偏好优化
GroupDPO 引入了一种内存高效的分组直接偏好优化算法,该算法利用每个提示的多个候选响应,通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。
通过偏好对齐优化增强多语言反事实生成
本文介绍了 Macro,一种使用 DPO 进行偏好对齐的框架,旨在提高跨多种语言自我生成反事实解释的有效性和最小性。