DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

Hugging Face Daily Papers 2026/05/14 00:00 论文

摘要

DiffusionOPD提出了一种扩散模型的多任务训练范式，利用在线策略蒸馏将任务特定的教师模型高效地整合到统一的学生模型中，在所有评估基准上取得了最先进的结果。

强化学习已成为改进基于扩散的文本到图像模型的有力工具，但现有方法主要局限于单任务优化。将强化学习扩展到多任务面临挑战：联合优化遭遇跨任务干扰和不平衡，而级联强化学习则繁琐且容易导致灾难性遗忘。我们提出DiffusionOPD，一种基于在线策略蒸馏（OPD）的扩散模型多任务训练新范式。DiffusionOPD首先独立训练任务特定的教师模型，然后沿学生自身的轨迹展开将其能力蒸馏到统一的学生模型中。这解耦了单任务探索与多任务整合，避免了从头开始联合求解所有任务的优化负担。理论上，我们将OPD框架从离散令牌扩展到连续状态马尔可夫过程，推导出每步KL散度的闭式目标，通过均值匹配统一了随机SDE和确定性ODE的精化过程。我们正式且经验性地证明，与传统的PPO风格策略梯度相比，该解析梯度具有更低的方差和更好的泛化性。大量实验表明，DiffusionOPD在训练效率和最终性能上持续超越多奖励强化学习和级联强化学习基线，并在所有评估基准上取得了最先进的结果。

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

来源：https://huggingface.co/papers/2605.15055

摘要

DiffusionOPD 通过在线策略蒸馏实现了扩散模型的高效多任务训练，在训练效率和最终性能上均优于现有的强化学习方法。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) 已成为改进基于扩散的文本到图像模型的有力工具，但现有方法主要局限于单任务优化。将强化学习扩展到多任务面临挑战：联合优化存在跨任务干扰和不平衡问题，而级联强化学习则繁琐且容易灾难性遗忘。我们提出 DiffusionOPD，一种基于在线策略蒸馏 (https://huggingface.co/papers?q=Online%20Policy%20Distillation) (OPD) 的扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 多任务训练 (https://huggingface.co/papers?q=multi-task%20training) 新范式。DiffusionOPD 首先独立训练任务特定教师 (https://huggingface.co/papers?q=task-specific%20teachers)，然后沿着学生自身的 rollout 轨迹将其能力蒸馏到统一学生 (https://huggingface.co/papers?q=unified%20student) 中。这将单任务探索与多任务集成解耦，避免了从头开始联合求解所有任务的优化负担。理论上，我们将 OPD 框架从离散令牌提升到连续状态马尔可夫过程，推导出闭式逐步骤 KL 目标 (https://huggingface.co/papers?q=KL%20objective)，该目标通过均值匹配统一了随机 SDE (https://huggingface.co/papers?q=stochastic%20SDE) 和确定性 ODE (https://huggingface.co/papers?q=deterministic%20ODE) 精炼。我们正式且实证地证明，与传统的 PPO 风格策略梯度 (https://huggingface.co/papers?q=PPO-style%20policy%20gradients) 相比，该解析梯度具有更低的方差和更好的泛化性。大量实验表明，DiffusionOPD 在训练效率和最终性能上始终优于多奖励 RL 和级联 RL 基线，并在所有评估基准上取得了最先进的结果。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15055)查看 PDF (https://arxiv.org/pdf/2605.15055)项目页面 (https://quanhaol.github.io/DiffusionOPD-site/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15055)

在您的智能体中获取此论文：

hf papers read 2605.15055

尚未安装最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15055，以便从此页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15055，以便从此页面链接。

引用此论文的 Spaces0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15055，以便从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中，以便从此页面链接。

DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

论文页面 - DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

D-OPSD：面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏

DOPD: 双在线策略蒸馏

dOPSD：扩散语言模型中的在线策略自蒸馏方法

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

TurnOPD: 使在线策略蒸馏对回合感知以实现高效长程智能体训练

提交意见反馈