基于噪声追踪对的整流流离线偏好优化
摘要
本文介绍了PNAPO,一种针对整流流模型的离线偏好优化框架,该框架通过噪声样本增强偏好数据,并采用动态正则化来提高训练效率和样本效率。
查看缓存全文
缓存时间: 2026/05/14 08:17
论文页面 - 带噪声追踪对的修正流离线偏好优化
来源:https://huggingface.co/papers/2605.09433
摘要
修正流模型需要先验噪声信息才能有效进行偏好优化,PNAPO 通过向偏好数据中添加噪声样本并采用动态正则化来提升训练效率,从而解决了这一问题。
现有的文本到图像模型偏好数据集通常只存储最终的胜者/败者图像。这种表示对于修正流 (https://huggingface.co/papers?q=rectified%20flow)(RF)模型是不够的,因为这些模型的生成过程天然由特定的先验噪声样本索引,并且遵循近乎直线的去噪轨迹。相比之下,先前的 DPO (https://huggingface.co/papers?q=DPO) 式对齐方法在扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 中通常使用独立的前向加噪过程来估计轨迹,这可能与真实的反向动力学不匹配,并引入不必要的方差。我们提出先验噪声感知偏好优化 (https://huggingface.co/papers?q=Preference%20Optimization)(PNAPO),这是一个专为修正流量身定制的离线对齐框架。PNAPO 通过保留生成每张胜者/败者图像所使用的成对先验噪声来增强偏好数据,将标准的(提示、胜者、败者)三元组转变为六元组。利用 RF 的直线属性,我们通过噪声-图像插值 (https://huggingface.co/papers?q=noise-image%20interpolation) 来估计中间状态,这约束了轨迹估计 (https://huggingface.co/papers?q=trajectory%20estimation) 空间,并为偏好优化 (https://huggingface.co/papers?q=preference%20optimization) 提供了一个更紧凑的代理目标。此外,我们还引入了一种动态正则化策略,该策略根据 (i) 胜者与败者之间的奖励差距 (https://huggingface.co/papers?q=reward%20gap) 和 (ii) 训练进度 (https://huggingface.co/papers?q=training%20progress) 自适应地调整 DPO (https://huggingface.co/papers?q=DPO) 正则化,从而提高了稳定性和样本效率 (https://huggingface.co/papers?q=sample%20efficiency)。在最新一代 RF T2I 主干上的实验表明,PNAPO 在显著降低训练计算量的同时, consistently 改进了偏好指标。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09433)
查看 PDF (https://arxiv.org/pdf/2605.09433)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09433)
在你的 agent 中获取此论文:
hf papers read 2605.09433
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
没有模型链接本论文
请在模型 README.md 中引用 arxiv.org/abs/2605.09433 以从此页面链接。
引用本论文的数据集 0
没有数据集链接本论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.09433 以从此页面链接。
引用本论文的 Space 0
没有 Space 链接本论文
请在 Space README.md 中引用 arxiv.org/abs/2605.09433 以从此页面链接。
包含本论文的收藏 0
没有收藏包含本论文
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以从此页面链接。
相似文章
Flow-DPPO: 针对流匹配模型的散度近端策略优化
Flow-DPPO 在流匹配模型中使用散度近端约束替代比率裁剪,通过精确计算 KL 散度,提升了训练稳定性与多目标优化效果。
用于人类图像动画的隐式偏好对齐
本文介绍了隐式偏好对齐(IPA),这是一种数据高效的训练后框架,可在无需成对偏好数据的情况下改善人类图像动画中的手部动作生成。它利用隐式奖励最大化和手部感知的局部优化来提高生成质量,同时降低数据整理成本。
从“弱”信号到强模型:利用LoRA合并进行偏好差值聚合
本文介绍了偏好差值聚合(PDA)和几何对齐合并(GAM),通过LoRA合并将来自弱模型对的多个“弱”偏好信号进行聚合,在知识推理和智能体搜索任务上平均将强LLM的性能提升超过6%。
DOG-DPO:面向安全对齐的几何动态优化
DOG-DPO 是一种无需训练的数据选择框架,它将偏好对视为结构化几何信号,将多数据集偏好几何分解为锚定子空间和残差子空间,以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。
主动学习作为高效的PRP重排序器
本文将有对排名提示(PRP)重新定义为从噪声比较中进行主动学习,引入了一个具有随机方向预测器的噪声鲁棒框架,以在调用约束下提高排名质量并解决位置偏差问题。