DOG-DPO:面向安全对齐的几何动态优化

arXiv cs.LG 论文

摘要

DOG-DPO 是一种无需训练的数据选择框架,它将偏好对视为结构化几何信号,将多数据集偏好几何分解为锚定子空间和残差子空间,以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。

arXiv:2606.07678v1 Announce Type: new 摘要:大型语言模型的安全对齐依赖于偏好数据,但当前流程通常在大规模冗余数据集上进行训练。现有的数据选择方法通常独立地对每个偏好对进行评分,将方向性的偏好信息压缩为标量质量或多样性分数。这种以样本为中心的视角在多数据集设置中尤其受限,因为共享的安全方向与特定于数据集的残余风险并存。我们提出 DOG-DPO,一种无需训练的数据选择框架,它将偏好对视为结构化几何信号。DOG-DPO 首先将每个偏好对表示为模型表示空间中的一个方向。然后,它将多数据集偏好几何分解为全局锚定子空间和特定于数据集的残差子空间。最后,它通过最大化基于多样性的覆盖范围来选择子集,鼓励在 DPO 训练之前对对齐方向进行广泛且无冗余的覆盖。在六个安全基准测试和两个模型主干上,DOG-DPO 仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。它恢复了全数据训练的大部分安全收益,同时完全无需教师、无需训练,并且比代表性选择基线快得多。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:52

# DOG-DPO:几何动态优化用于安全对齐
来源: https://arxiv.org/html/2606.07678
Yi Nian Tiankai Yang Yudi Zhang Qi Pan Zelong XuShenzhe Zhu Qingqing Luan Yue Huang Xiangliang Zhang Yue Zhao 南加州大学 爱荷华州立大学 威斯康星大学麦迪逊分校 德克萨斯大学奥斯汀分校 独立研究者 圣母大学 \{yinian, tiankaiy, panq, yue\.z\}@usc\.edu \{yudizhang628,qingqingluan95\}@gmail\.com zxu684@wisc\.edu shenzhe@utexas\.edu yhuang37@nd\.edu xzhang33@nd\.edu

###### 摘要

安全对齐大型语言模型依赖于偏好数据,但当前的流程通常训练于大型冗余数据集上。现有的数据选择方法通常独立地对每个偏好对进行评分,将方向性的偏好信息压缩为标量的质量或多样性分数。这种以样本为中心的视角在多数据集设置中尤其受限,因为共享的安全方向与数据集特定的残余风险并存。我们提出**DOG-DPO**,一种无训练的数据选择框架,将偏好对视作结构化的几何信号。DOG-DPO首先将每个偏好对表示为模型表示空间中的一个方向。然后,它将多数据集偏好几何分解为一个全局锚定子空间和数据集特定的残余子空间。最后,它通过最大化基于多样性的覆盖来选择子集,在DPO训练前鼓励广泛、非冗余的对齐方向覆盖。在六个安全基准测试和两个模型主干上,DOG-DPO仅使用11%的偏好对就实现了强大的效用-鲁棒性权衡。它恢复了全数据训练的大部分安全收益,同时完全无教师、无训练,并且比代表性选择基线快得多。

免责声明:本文包含可能令读者不适的有害内容。

DOG-DPO:几何动态优化用于安全对齐

Yi Nian Tiankai Yang Yudi Zhang Qi Pan Zelong XuShenzhe Zhu Qingqing Luan Yue Huang Xiangliang Zhang Yue Zhao南加州大学 爱荷华州立大学 威斯康星大学麦迪逊分校 德克萨斯大学奥斯汀分校 独立研究者 圣母大学\{yinian, tiankaiy, panq, yue\.z\}@usc\.edu\{yudizhang628,qingqingluan95\}@gmail\.com zxu684@wisc\.edu shenzhe@utexas\.eduyhuang37@nd\.edu xzhang33@nd\.edu

## 1引言

将大型语言模型(LLM)与安全偏好对齐已成为现代AI系统的核心问题 (Lu等人,2025 (https://arxiv.org/html/2606.07678#bib.bib9); Yang等人,2026 (https://arxiv.org/html/2606.07678#bib.bib10); Wang等人,2024 (https://arxiv.org/html/2606.07678#bib.bib11); Xu等人,2026 (https://arxiv.org/html/2606.07678#bib.bib1))。大多数对齐流程依赖于大规模人类反馈,通常以用于奖励建模或直接偏好优化(DP

相似文章

xi-DPO:通过比率奖励边际的直接偏好优化

arXiv cs.LG

本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。

GroupDPO:内存高效的分组直接偏好优化

arXiv cs.CL

GroupDPO 引入了一种内存高效的分组直接偏好优化算法,该算法利用每个提示的多个候选响应,通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。

DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡

Hugging Face Daily Papers

# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https: