基于噪声追踪对的整流流离线偏好优化

Hugging Face Daily Papers 2026/05/10 00:00 论文

摘要

本文介绍了PNAPO，一种针对整流流模型的离线偏好优化框架，该框架通过噪声样本增强偏好数据，并采用动态正则化来提高训练效率和样本效率。

现有的文生图模型偏好数据集通常只存储最终的胜者/败者图像。这种表示对于整流流（RF）模型来说是不够的，因为其生成过程自然地由特定的先验噪声样本索引，并遵循几乎笔直的去噪轨迹。相比之下，扩散模型先前的DPO式对齐通常使用独立的前向加噪过程来估计轨迹，这可能与真实的反向动力学不匹配，并引入不必要的方差。我们提出了先验噪声感知偏好优化（PNAPO），这是一种专门针对整流流的离策略对齐框架。PNAPO通过保留生成每个胜者/败者图像时使用的配对先验噪声来增强偏好数据，将标准的（提示、胜者、败者）三元组扩展为六元组。利用整流流的直线性质，我们通过噪声-图像插值来估计中间状态，从而约束轨迹估计空间，并为偏好优化提供更紧的代理目标。此外，我们引入了一种动态正则化策略，该策略根据（i）胜者和败者之间的奖励差距以及（ii）训练进度来调整DPO正则化，从而提高稳定性和样本效率。在最新的RF T2I主干网络上的实验表明，PNAPO在显著减少训练计算量的同时，持续改善了偏好指标。

查看原文

查看缓存全文

缓存时间: 2026/05/14 08:17

论文页面 - 带噪声追踪对的修正流离线偏好优化

来源：https://huggingface.co/papers/2605.09433

摘要

修正流模型需要先验噪声信息才能有效进行偏好优化，PNAPO 通过向偏好数据中添加噪声样本并采用动态正则化来提升训练效率，从而解决了这一问题。

现有的文本到图像模型偏好数据集通常只存储最终的胜者/败者图像。这种表示对于修正流 (https://huggingface.co/papers?q=rectified%20flow)（RF）模型是不够的，因为这些模型的生成过程天然由特定的先验噪声样本索引，并且遵循近乎直线的去噪轨迹。相比之下，先前的 DPO (https://huggingface.co/papers?q=DPO) 式对齐方法在扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 中通常使用独立的前向加噪过程来估计轨迹，这可能与真实的反向动力学不匹配，并引入不必要的方差。我们提出先验噪声感知偏好优化 (https://huggingface.co/papers?q=Preference%20Optimization)（PNAPO），这是一个专为修正流量身定制的离线对齐框架。PNAPO 通过保留生成每张胜者/败者图像所使用的成对先验噪声来增强偏好数据，将标准的（提示、胜者、败者）三元组转变为六元组。利用 RF 的直线属性，我们通过噪声-图像插值 (https://huggingface.co/papers?q=noise-image%20interpolation) 来估计中间状态，这约束了轨迹估计 (https://huggingface.co/papers?q=trajectory%20estimation) 空间，并为偏好优化 (https://huggingface.co/papers?q=preference%20optimization) 提供了一个更紧凑的代理目标。此外，我们还引入了一种动态正则化策略，该策略根据 (i) 胜者与败者之间的奖励差距 (https://huggingface.co/papers?q=reward%20gap) 和 (ii) 训练进度 (https://huggingface.co/papers?q=training%20progress) 自适应地调整 DPO (https://huggingface.co/papers?q=DPO) 正则化，从而提高了稳定性和样本效率 (https://huggingface.co/papers?q=sample%20efficiency)。在最新一代 RF T2I 主干上的实验表明，PNAPO 在显著降低训练计算量的同时， consistently 改进了偏好指标。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09433)
查看 PDF (https://arxiv.org/pdf/2605.09433)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09433)

在你的 agent 中获取此论文：

hf papers read 2605.09433

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

没有模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.09433 以从此页面链接。

引用本论文的数据集 0

没有数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.09433 以从此页面链接。

引用本论文的 Space 0

没有 Space 链接本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.09433 以从此页面链接。

包含本论文的收藏 0

没有收藏包含本论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以从此页面链接。

基于噪声追踪对的整流流离线偏好优化

论文页面 - 带噪声追踪对的修正流离线偏好优化

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Space 0

包含本论文的收藏 0

相似文章

D2PO：通过动态偏好优化扩散采样器

PAPA：在线个性化主动偏好对齐

噪声偏好标签下无元数据的元加权直接偏好优化

偏好优化的归一化奖励

面向聊天机器人微调的直接偏好优化：一项实证研究

提交意见反馈