DOG-DPO:面向安全对齐的几何动态优化
摘要
DOG-DPO 是一种无需训练的数据选择框架,它将偏好对视为结构化几何信号,将多数据集偏好几何分解为锚定子空间和残差子空间,以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。
查看缓存全文
缓存时间: 2026/06/09 08:52
# DOG-DPO:几何动态优化用于安全对齐
来源: https://arxiv.org/html/2606.07678
Yi Nian Tiankai Yang Yudi Zhang Qi Pan Zelong XuShenzhe Zhu Qingqing Luan Yue Huang Xiangliang Zhang Yue Zhao 南加州大学 爱荷华州立大学 威斯康星大学麦迪逊分校 德克萨斯大学奥斯汀分校 独立研究者 圣母大学 \{yinian, tiankaiy, panq, yue\.z\}@usc\.edu \{yudizhang628,qingqingluan95\}@gmail\.com zxu684@wisc\.edu shenzhe@utexas\.edu yhuang37@nd\.edu xzhang33@nd\.edu
###### 摘要
安全对齐大型语言模型依赖于偏好数据,但当前的流程通常训练于大型冗余数据集上。现有的数据选择方法通常独立地对每个偏好对进行评分,将方向性的偏好信息压缩为标量的质量或多样性分数。这种以样本为中心的视角在多数据集设置中尤其受限,因为共享的安全方向与数据集特定的残余风险并存。我们提出**DOG-DPO**,一种无训练的数据选择框架,将偏好对视作结构化的几何信号。DOG-DPO首先将每个偏好对表示为模型表示空间中的一个方向。然后,它将多数据集偏好几何分解为一个全局锚定子空间和数据集特定的残余子空间。最后,它通过最大化基于多样性的覆盖来选择子集,在DPO训练前鼓励广泛、非冗余的对齐方向覆盖。在六个安全基准测试和两个模型主干上,DOG-DPO仅使用11%的偏好对就实现了强大的效用-鲁棒性权衡。它恢复了全数据训练的大部分安全收益,同时完全无教师、无训练,并且比代表性选择基线快得多。
免责声明:本文包含可能令读者不适的有害内容。
DOG-DPO:几何动态优化用于安全对齐
Yi Nian Tiankai Yang Yudi Zhang Qi Pan Zelong XuShenzhe Zhu Qingqing Luan Yue Huang Xiangliang Zhang Yue Zhao南加州大学 爱荷华州立大学 威斯康星大学麦迪逊分校 德克萨斯大学奥斯汀分校 独立研究者 圣母大学\{yinian, tiankaiy, panq, yue\.z\}@usc\.edu\{yudizhang628,qingqingluan95\}@gmail\.com zxu684@wisc\.edu shenzhe@utexas\.eduyhuang37@nd\.edu xzhang33@nd\.edu
## 1引言
将大型语言模型(LLM)与安全偏好对齐已成为现代AI系统的核心问题 (Lu等人,2025 (https://arxiv.org/html/2606.07678#bib.bib9); Yang等人,2026 (https://arxiv.org/html/2606.07678#bib.bib10); Wang等人,2024 (https://arxiv.org/html/2606.07678#bib.bib11); Xu等人,2026 (https://arxiv.org/html/2606.07678#bib.bib1))。大多数对齐流程依赖于大规模人类反馈,通常以用于奖励建模或直接偏好优化(DP相似文章
xi-DPO:通过比率奖励边际的直接偏好优化
本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。
GroupDPO:内存高效的分组直接偏好优化
GroupDPO 引入了一种内存高效的分组直接偏好优化算法,该算法利用每个提示的多个候选响应,通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。
AgentDoG 1.5: 轻量且可扩展的AI智能体安全与防护对齐框架
本文提出AgentDoG 1.5,一个面向AI智能体安全的轻量可扩展对齐框架,利用基于分类树引导的训练,仅需极少量样本即可达到与领先闭源模型相当的性能。
DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡
# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:
ODRPO:离散奖励的序数分解用于鲁棒策略优化
介绍了ODRPO,一个将离散奖励分解为序数二元指标的框架,旨在提升LLMs中基于AI反馈的强化学习(RLAIF)策略优化的鲁棒性,在最小开销下实现了高达14.8%的相对改进。