基于注意力机制的Token加权直接偏好优化
摘要
提出AttentionPO,一种基于Token加权的直接偏好优化方法,它利用LLM自身的注意力来估计Token权重,在AlpacaEval、MT-Bench和ArenaHard上提升对齐性能,且无需单独奖励模型。
arXiv:2605.21883v1 公告类型:新
摘要:直接偏好优化(DPO)无需单独奖励模型即可使大型语言模型(LLM)与人类偏好对齐。然而,DPO平等对待响应中的所有Token,忽略了单个Token的不同重要性。现有的Token级偏好优化方法通过基于Token位置的启发式函数或单独训练模型给出的概率估计来计算Token权重,这缺乏鲁棒性且带来额外训练成本。相比之下,我们提出Token加权DPO(TwDPO)——一种基于Token加权强化学习的新型训练目标——以及AttentionPO——TwDPO的一个实例,它利用LLM自身的注意力来估计Token权重。AttentionPO促使LLM充当成对裁判,并在比较响应时检查模型关注的位置。这种设计使AttentionPO具有内容感知能力,根据响应内容调整权重,并且高效,每个示例仅增加两次额外前向传播。实验结果表明,AttentionPO在AlpacaEval、MT-Bench和ArenaHard上显著提升性能,超越了现有的偏好优化方法。
查看缓存全文
缓存时间: 2026/05/22 08:44
# 令牌加权直接偏好优化与注意力机制
来源:https://arxiv.org/html/2605.21883
陈煜煌¹,李卓航²,周圣彦¹,Claire Cardie¹
¹康奈尔大学,²范德堡大学
{ch2263,sc3379,ctc9}@cornell.edu,[email protected]
###### 摘要
直接偏好优化(DPO)无需单独的奖励模型即可使大型语言模型与人类偏好对齐。然而,DPO 平等对待回复中的所有令牌,忽略了单个令牌的不同重要性。现有的令牌级偏好优化方法要么使用基于令牌位置的启发式函数,要么使用单独训练的模型的概率估计来计算令牌权重,这缺乏鲁棒性且会增加额外训练成本。相比之下,我们提出了令牌加权 DPO(TwDPO)——一个基于令牌加权强化学习的全新训练目标,以及 AttentionPO——TwDPO 的一个实例化,它利用 LLM 自身的注意力来估计令牌权重。AttentionPO 引导 LLM 充当成对判断器,并在比较回复时检查模型的关注点。这种设计使 AttentionPO 具有**内容感知**能力,能根据回复内容调整权重,并且**高效**,每个示例仅额外增加两次前向传播。实验结果表明,AttentionPO 在 AlpacaEval、MT-Bench 和 ArenaHard 上显著提升了性能,超越了现有的偏好优化方法。GitHub: https://github.com/HCY123902/AttentionPO
# 令牌加权直接偏好优化与注意力机制
陈煜煌¹,李卓航²,周圣彦¹,Claire Cardie¹
¹康奈尔大学,²范德堡大学
{ch2263,sc3379,ctc9}@cornell.edu,[email protected]
## 1 引言
大型语言模型(LLM)与人类偏好和价值观的对齐对于确保生成输出的质量和安全性至关重要。该领域的早期工作使用了基于策略梯度的强化学习算法,如近端策略优化(PPO)[Schulman et al.(2017)](https://arxiv.org/html/2605.21883#bib.bib23);[Ouyang et al.(2022)](https://arxiv.org/html/2605.21883#bib.bib24)。然而,这些传统的强化学习方法需要训练一个单独的奖励模型,利用标注的偏好对在训练过程中提供反馈[Ouyang et al.(2022)](https://arxiv.org/html/2605.21883#bib.bib24)。为了解决这一复杂性,偏好优化(PO)方法如直接偏好优化(DPO)[Rafailov et al.(2023)](https://arxiv.org/html/2605.21883#bib.bib9)应运而生。DPO 的训练目标源于策略梯度,但它直接从偏好对中学习奖励空间,避免了对外部奖励模型的需求。
[参见图注]图 1:AttentionPO 通过注意力对每个令牌进行加权,超越了 DPO 及其他多种基线方法。
尽管 DPO 及其变体——包括 IPO [Azar et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib16)、KTO [Ethayarajh et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib15) 和 SimPO [Meng et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib21)——取得了进展,但这些方法通常将回复中的每个令牌视为同等重要[Meng et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib21)。这种均匀加权忽略了不同令牌对回复整体质量的不同贡献作用[Meng et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib21)。因此,传统的 PO 方法未能提供细粒度的信用分配,无法解释单个令牌对人类偏好的特定重要性。最近的研究尝试通过各种估计技术实现令牌级信用分配。基于令牌级策略梯度方法,TDPO 在 DPO 目标中增加了序列 KL 项[Zeng et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib12)。其他方法,如 TIS-DPO [Liu et al.(2025)](https://arxiv.org/html/2605.21883#bib.bib10)、SePO [Yang et al.(2025)](https://arxiv.org/html/2605.21883#bib.bib11) 和 cDPO [Lin et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib51),通过对比不同策略或模型之间的概率来估计令牌重要性。另外,TI-DPO 使用梯度范数和高斯先验[Yang et al.(2026)](https://arxiv.org/html/2605.21883#bib.bib8),而 D2PO 采用启发式时间衰减函数,优先考虑较早的令牌[Shao et al.(2025)](https://arxiv.org/html/2605.21883#bib.bib13)。然而,这些方法中许多要么需要训练额外的模型来估计权重[Yang et al.(2025)](https://arxiv.org/html/2605.21883#bib.bib11);[Liu et al.(2025)](https://arxiv.org/html/2605.21883#bib.bib10);[Lin et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib51),要么依赖基于令牌位置而非令牌具体语义内容的启发式函数[Yang et al.(2026)](https://arxiv.org/html/2605.21883#bib.bib8);[Shao et al.(2025)](https://arxiv.org/html/2605.21883#bib.bib13)。在这项工作中,我们提出了令牌加权 DPO(TwDPO),这是一个理论上基于令牌加权强化学习的训练目标,以及 AttentionPO——TwDPO 的一个实例化,它利用 LLM 自身的注意力来估计令牌权重。通过从成对判断提示中获取回复令牌的注意力权重,AttentionPO 提供了一种内容感知的重要性度量。这些权重随后被归一化,并在信用分配过程中使用,以更好地使模型与人类偏好对齐。实验结果证明了我们提出方法的有效性。AttentionPO 在多个模型和标准基准上取得了显著的性能提升。在 LLaMA-3-8B-Base-SFT [Grattafiori et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib30);[Meng et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib21) 上,AttentionPO 在 AlpacaEval [Li et al.(2023)](https://arxiv.org/html/2605.21883#bib.bib27);[Dubois et al.(2024)](https://arxiv.org/html/2605.21883#bib.bib28) 上提升了 12%(对 GPT-4-1106-preview [Hurst et al.(2023)](https://arxiv.org/html/2605.21883#bib.bib31) 的胜率),在 MT-Bench [Zheng et al.(2023)](https://arxiv.org/html/2605.21883#bib.bib29) 上提升了 1.05(LLM 评分),在 ArenaHard [Li et al.(2024, 2025)](https://arxiv.org/html/2605.21883#bib.bib26) 上提升了 40%(对 GPT-4-0314 的胜率)。在 LLaMA-3-8B-Instruct 上,AttentionPO 在 AlpacaEval 上提升了 27%,在 MT-Bench 上提升了 1.41,在 ArenaHard 上提升了 14%。AttentionPO 还超越了 SimPO 等强基线(AlpacaEval 上最高提升 4%;MT-Bench 上提升 0.20)。AttentionPO 突显了使用模型内在注意力进行精确令牌级偏好优化的价值。
## 2 方法
[参见图注]图 2:AttentionPO 的工作流程。首先,我们提示 π_ref 充当成对判断器,并在单个输出令牌 y_verdict 中指出哪个回复更好。我们提取 π_ref 在层 L 中从 y_verdict 关注到 y_w 和 y_l 的回复令牌的注意力。提示和权重提取重复两次,交换 y_w 和 y_l 的位置,最终注意力权重 A_w 和 A_l 取两轮的平均值。其次,我们通过应用归一化和修复注意力汇聚点对权重进行后处理。最后,我们使用后处理后的注意力权重应用 TwDPO。
我们首先介绍符号(§2.1)和预备知识(§2.2),然后介绍我们的 TwDPO 目标(§2.3)及其数学推导(§2.4)。最后,我们讨论 TwDPO 的一个实例化,即 AttentionPO,它使用注意力作为权重。AttentionPO 包括三个步骤:(1)首先,我们提示初始 LLM 充当成对判断器以提取注意力权重(§2.5);(2)我们对注意力权重进行后处理以获得权重分布(§2.6);(3)我们使用注意力权重分布应用 TwDPO。可视化见图 2。
### 2.1 符号
我们用参考模型 π_ref 初始化我们的主策略 π_θ。我们在偏好数据集 D = { x^(i), y_w^(i), y_l^(i) }_(i=1)^N 上训练 π_θ,其中每个样本包含一个提示 x^(i)、一个偏好回复 y_w^(i) 和一个不偏好回复 y_l^(i)。每个回复 y 由令牌 { y^1, …, y^|y| } 组成。
### 2.2 预备知识
直接偏好优化是传统策略梯度方法的一种离线变体,用于使 LLM 与人类偏好对齐。它不需要单独的奖励模型,而是将 LLM 本身作为奖励模型,在标注的偏好对上训练。具体来说,DPO 最大化模型预测 y_w 优于 y_l 的概率。形式上,给定偏好数据集 D,DPO 使用以下目标训练 π_θ:
L = -E_(x,y_w,y_l)∼D [ log( p_θ(y_w ≻ y_l|x) ) ]。 (1)
其中 p_θ(y_w ≻ y_l|x) 是模型预测的偏好概率。遵循 Bradley-Terry 模型 [Bradley and Terry (1952)](https://arxiv.org/html/2605.21883#bib.bib42),有:
p_θ(y_w ≻ y_l|x) = exp(r(x,y_w)) / (exp(r(x,y_w)) + exp(r(x,y_l))) = σ(r_θ(x,y_w) - r_θ(x,y_l))。 (2)
其中 r_θ(x,y_w) 是模型预测的奖励,σ 是 sigmoid 函数。进一步,DPO 推导出模型预测的奖励为 r_θ(x,y) = β log(π_θ(y|x)/π_ref(y|x)) + β log(Z(x)),其中 Z(x) 是仅依赖于 x 的配分函数。因此,最终的 DPO 目标是:
L = -E_(x,y_w,y_l)∼D [ log σ( β log(π_θ(y_w|x)/π_ref(y_w|x)) - β log(π_θ(y_l|x)/π_ref(y_l|x)) ) ]。 (3)
公式 (3) 可以改写为令牌级形式:
L = -E_(x,y_w,y_l)∼D [ log σ( β Σ_{t=1}^{|y_w|} log(π_θ(y_w^t | x, y_w^{0…t-1}) / π_ref(y_w^t | x, y_w^{0…t-1})) - β Σ_{t=1}^{|y_l|} log(π_θ(y_l^t | x, y_l^{0…t-1}) / π_ref(y_l^t | x, y_l^{0…t-1})) ) ]。 (4)
公式 (4) 假设所有令牌的权重均匀:每个令牌的 log 比率对整体损失的贡献相同。
### 2.3 令牌加权 DPO(TwDPO)
我们提出令牌加权 DPO(TwDPO),它为每个令牌分配不同的重要性权重。TwDPO 目标定义为:
L_TwDPO = -E_(x,y_w,y_l)∼D [ log σ( β Σ_{t=1}^{|y_w|} a_w^t log(π_θ(y_w^t | x, y_w^{0…t-1}) / π_ref(y_w^t | x, y_w^{0…t-1})) - β Σ_{t=1}^{|y_l|} a_l^t log(π_θ(y_l^t | x, y_l^{0…t-1}) / π_ref(y_l^t | x, y_l^{0…t-1})) ) ]。 (5)
其中 a_w^t 和 a_l^t 分别是 y_w 和 y_l 中第 t 个令牌的注意力权重。这些权重应满足 Σ_{t=1}^{|y_w|} a_w^t = 1 和 Σ_{t=1}^{|y_l|} a_l^t = 1。在下一节中,我们展示 TwDPO 可以从令牌加权强化学习的目标中推导出来。
### 2.4 从令牌加权强化学习推导
……(此处省略部分数学推导,原文有公式但用户只提供了开头,保留原样)相似文章
xi-DPO:通过比率奖励边际的直接偏好优化
本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。
用于离散策略优化的引导对比Token信用分配
本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。
GroupDPO:内存高效的分组直接偏好优化
GroupDPO 引入了一种内存高效的分组直接偏好优化算法,该算法利用每个提示的多个候选响应,通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。
面向高效全模态LLM的阶段自适应Token选择方法
SEATS是一种无需训练的阶段自适应Token选择方法,通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销,实现了9.3倍FLOPs减少和4.8倍预填充加速,同时保持96.3%的性能。
ATTNPO: 用于高效推理的注意力引导过程监督
ATTNPO 引入了一个注意力引导的过程监督框架,通过利用内在的注意力信号进行步级信用分配,减少大型推理模型的过度思考,在 9 个基准测试中实现了更好的性能和更短的推理长度。