DiffusionOPD:扩散模型中在线策略蒸馏的统一视角
摘要
DiffusionOPD提出了一种扩散模型的多任务训练范式,利用在线策略蒸馏将任务特定的教师模型高效地整合到统一的学生模型中,在所有评估基准上取得了最先进的结果。
查看缓存全文
缓存时间: 2026/05/15 04:23
论文页面 - DiffusionOPD:扩散模型中在线策略蒸馏的统一视角
来源:https://huggingface.co/papers/2605.15055
摘要
DiffusionOPD 通过在线策略蒸馏实现了扩散模型的高效多任务训练,在训练效率和最终性能上均优于现有的强化学习方法。
强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) 已成为改进基于扩散的文本到图像模型的有力工具,但现有方法主要局限于单任务优化。将强化学习扩展到多任务面临挑战:联合优化存在跨任务干扰和不平衡问题,而级联强化学习则繁琐且容易灾难性遗忘。我们提出 DiffusionOPD,一种基于在线策略蒸馏 (https://huggingface.co/papers?q=Online%20Policy%20Distillation) (OPD) 的扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 多任务训练 (https://huggingface.co/papers?q=multi-task%20training) 新范式。DiffusionOPD 首先独立训练任务特定教师 (https://huggingface.co/papers?q=task-specific%20teachers),然后沿着学生自身的 rollout 轨迹将其能力蒸馏到统一学生 (https://huggingface.co/papers?q=unified%20student) 中。这将单任务探索与多任务集成解耦,避免了从头开始联合求解所有任务的优化负担。理论上,我们将 OPD 框架从离散令牌提升到连续状态马尔可夫过程,推导出闭式逐步骤 KL 目标 (https://huggingface.co/papers?q=KL%20objective),该目标通过均值匹配统一了随机 SDE (https://huggingface.co/papers?q=stochastic%20SDE) 和确定性 ODE (https://huggingface.co/papers?q=deterministic%20ODE) 精炼。我们正式且实证地证明,与传统的 PPO 风格策略梯度 (https://huggingface.co/papers?q=PPO-style%20policy%20gradients) 相比,该解析梯度具有更低的方差和更好的泛化性。大量实验表明,DiffusionOPD 在训练效率和最终性能上始终优于多奖励 RL 和级联 RL 基线,并在所有评估基准上取得了最先进的结果。
查看 arXiv 页面 (https://arxiv.org/abs/2605.15055)查看 PDF (https://arxiv.org/pdf/2605.15055)项目页面 (https://quanhaol.github.io/DiffusionOPD-site/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15055)
在您的智能体中获取此论文:
hf papers read 2605.15055
尚未安装最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.15055,以便从此页面链接。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.15055,以便从此页面链接。
引用此论文的 Spaces0
暂无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.15055,以便从此页面链接。
包含此论文的收藏集0
暂无收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中,以便从此页面链接。
相似文章
D-OPSD:面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏
本文介绍了 D-OPSD,一种用于步骤蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下,学习新概念或新风格。
OmniOPD: 通过推测验证实现无Logit的同策略蒸馏
OmniOPD 提出了一种无Logit的同策略蒸馏方法,利用块级语义相似性和推测验证,在黑盒教师指导下训练学生模型,在数学基准上相比标准OPD实现了高达+28.64%的提升。
学会预见:揭示 On-Policy 蒸馏效率的解锁机制
本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。
基于同伴成功与失败的多 rollout 在策略蒸馏
提出多 rollout 在策略蒸馏 (MOPD),一种将教师条件化于同伴成功和失败的 rollout 以提供更密集的 token 级监督进行语言模型后训练的方法,在多个基准上提升了性能。
同策略蒸馏(5分钟阅读)
本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。