DiffusionOPD:扩散模型中在线策略蒸馏的统一视角

Hugging Face Daily Papers 论文

摘要

DiffusionOPD提出了一种扩散模型的多任务训练范式,利用在线策略蒸馏将任务特定的教师模型高效地整合到统一的学生模型中,在所有评估基准上取得了最先进的结果。

强化学习已成为改进基于扩散的文本到图像模型的有力工具,但现有方法主要局限于单任务优化。将强化学习扩展到多任务面临挑战:联合优化遭遇跨任务干扰和不平衡,而级联强化学习则繁琐且容易导致灾难性遗忘。我们提出DiffusionOPD,一种基于在线策略蒸馏(OPD)的扩散模型多任务训练新范式。DiffusionOPD首先独立训练任务特定的教师模型,然后沿学生自身的轨迹展开将其能力蒸馏到统一的学生模型中。这解耦了单任务探索与多任务整合,避免了从头开始联合求解所有任务的优化负担。理论上,我们将OPD框架从离散令牌扩展到连续状态马尔可夫过程,推导出每步KL散度的闭式目标,通过均值匹配统一了随机SDE和确定性ODE的精化过程。我们正式且经验性地证明,与传统的PPO风格策略梯度相比,该解析梯度具有更低的方差和更好的泛化性。大量实验表明,DiffusionOPD在训练效率和最终性能上持续超越多奖励强化学习和级联强化学习基线,并在所有评估基准上取得了最先进的结果。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - DiffusionOPD:扩散模型中在线策略蒸馏的统一视角

来源:https://huggingface.co/papers/2605.15055

摘要

DiffusionOPD 通过在线策略蒸馏实现了扩散模型的高效多任务训练,在训练效率和最终性能上均优于现有的强化学习方法。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) 已成为改进基于扩散的文本到图像模型的有力工具,但现有方法主要局限于单任务优化。将强化学习扩展到多任务面临挑战:联合优化存在跨任务干扰和不平衡问题,而级联强化学习则繁琐且容易灾难性遗忘。我们提出 DiffusionOPD,一种基于在线策略蒸馏 (https://huggingface.co/papers?q=Online%20Policy%20Distillation) (OPD) 的扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 多任务训练 (https://huggingface.co/papers?q=multi-task%20training) 新范式。DiffusionOPD 首先独立训练任务特定教师 (https://huggingface.co/papers?q=task-specific%20teachers),然后沿着学生自身的 rollout 轨迹将其能力蒸馏到统一学生 (https://huggingface.co/papers?q=unified%20student) 中。这将单任务探索与多任务集成解耦,避免了从头开始联合求解所有任务的优化负担。理论上,我们将 OPD 框架从离散令牌提升到连续状态马尔可夫过程,推导出闭式逐步骤 KL 目标 (https://huggingface.co/papers?q=KL%20objective),该目标通过均值匹配统一了随机 SDE (https://huggingface.co/papers?q=stochastic%20SDE) 和确定性 ODE (https://huggingface.co/papers?q=deterministic%20ODE) 精炼。我们正式且实证地证明,与传统的 PPO 风格策略梯度 (https://huggingface.co/papers?q=PPO-style%20policy%20gradients) 相比,该解析梯度具有更低的方差和更好的泛化性。大量实验表明,DiffusionOPD 在训练效率和最终性能上始终优于多奖励 RL 和级联 RL 基线,并在所有评估基准上取得了最先进的结果。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15055)查看 PDF (https://arxiv.org/pdf/2605.15055)项目页面 (https://quanhaol.github.io/DiffusionOPD-site/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15055)

在您的智能体中获取此论文:

hf papers read 2605.15055

尚未安装最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15055,以便从此页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15055,以便从此页面链接。

引用此论文的 Spaces0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15055,以便从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中,以便从此页面链接。

相似文章

OmniOPD: 通过推测验证实现无Logit的同策略蒸馏

Hugging Face Daily Papers

OmniOPD 提出了一种无Logit的同策略蒸馏方法,利用块级语义相似性和推测验证,在黑盒教师指导下训练学生模型,在数学基准上相比标准OPD实现了高达+28.64%的提升。

学会预见:揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL

本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

基于同伴成功与失败的多 rollout 在策略蒸馏

arXiv cs.LG

提出多 rollout 在策略蒸馏 (MOPD),一种将教师条件化于同伴成功和失败的 rollout 以提供更密集的 token 级监督进行语言模型后训练的方法,在多个基准上提升了性能。

同策略蒸馏(5分钟阅读)

TLDR AI

本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。