SafeDiffusion-R1: 在线奖励引导的安全扩散后训练
摘要
SafeDiffusion-R1 引入了一个基于 GRPO 和引导奖励机制的在线强化学习框架,用于提升扩散模型的安全性,无需监督数据或奖励调优,在多个有害类别上实现了最先进的性能。
查看缓存全文
缓存时间: 2026/05/19 10:31
论文页面 - SafeDiffusion-R1:面向安全扩散后训练的在线奖励引导
来源:https://huggingface.co/papers/2605.18719
摘要
一种新颖的扩散模型在线强化学习框架,无需监督配对数据或奖励调优即可提升安全性,在多个危害类别上达到最先进性能。
扩散模型 (https://huggingface.co/papers?q=Diffusion%20models) 已被广泛研究用于去除预训练期间习得的不安全内容。现有方法需要昂贵的监督数据,要么是不安全文本配对安全图像的真值,要么是负/正图像对,这使得它们难以规模化扩展。此外,离线生成合成数据的离线强化学习和监督微调方法容易出现灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting),从而降低生成质量。我们提出一种新颖的在线强化学习 (https://huggingface.co/papers?q=online%20reinforcement%20learning) 框架,通过在负向和正向文本提示上使用组相对策略优化 (https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization)(GRPO)进行后训练,解决了数据稀缺和模型退化这两个问题。为了消除对专门安全/不安全奖励模型 (https://huggingface.co/papers?q=safe%2Funsafe%20reward%20models) 进行微调的需求,我们引入了引导奖励机制 (https://huggingface.co/papers?q=steering%20reward%20mechanism),该机制利用了CLIP嵌入 (https://huggingface.co/papers?q=CLIP%20embeddings) 的固有属性:在嵌入空间中将文本表示转向正向安全方向并远离负向方向。我们的在线策略方法使模型能够从多样化的提示(包括明确的不安全内容)中学习,而不会出现灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting)。大量实验表明,我们的方法将不适当内容降至 18.07%(对比 SD v1.4 的 48.9%),裸体检测降至 15(对比基线 646),同时在 GenEval (https://huggingface.co/papers?q=GenEval) 上将组合生成质量 (https://huggingface.co/papers?q=compositional%20generation%20quality) 从 42.08% 提升至 47.83%。值得注意的是,这些安全性提升可泛化至七个危害类别中的域外不安全提示,在无需监督配对数据或奖励调优的情况下实现最先进性能。Github:https://github.com/MAXNORM8650/SafeDiffusion-R1。
查看 arXiv 页面 (https://arxiv.org/abs/2605.18719) 查看 PDF (https://arxiv.org/pdf/2605.18719) 项目页面 (https://maxnorm8650.github.io/SafeDiffusion-R1/) GitHub (https://github.com/MAXNORM8650/SafeDiffusion-R1) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18719)
在您的 agent 中获取本文:
hf papers read 2605.18719
没有最新的 CLI? curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 1
ItsMaxNorm/SafeDiffusion-R1 文本到图像 • 更新于约2小时前 (https://huggingface.co/ItsMaxNorm/SafeDiffusion-R1)
引用本文的数据集 1
ItsMaxNorm/SafeDiffusion-R1-dataset 查看器 • 更新于1分钟前 • 236k (https://huggingface.co/datasets/ItsMaxNorm/SafeDiffusion-R1-dataset)
引用本文的 Space 0
没有指向此页面的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.18719 以在本页面中链接它。
包含本文的收藏集 0
没有包含本文的收藏集
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在本页面中链接它。
相似文章
ReflectDrive-2:面向离散扩散驾驶模型的强化学习对齐自编辑方法
ReflectDrive-2 是一款新型自动驾驶离散扩散规划器,通过强化学习实现轨迹 token 的自编辑,在 NAVSIM 基准测试中取得了高性能和低延迟。
@svlevine: 一种使用扩散进行离策略强化学习的新方法:如果我们有离策略数据,我们需要找出扩散后期…
一种新的离策略强化学习方法,使用扩散模型,通过反转扩散过程来处理离策略数据。
不破坏的引导:基于机制的离散扩散语言模型干预
本文介绍了一种新颖的自适应调度器,用于利用稀疏自编码器引导离散扩散语言模型,结果表明,基于特定属性提交时机进行针对性干预,比均匀方法能提升控制质量和强度。
恢复扩散策略中的隐藏奖励
本论文探讨了在基于扩散的策略中恢复隐藏奖励的方法,旨在提高此类模型的对齐程度或效率。
通过扩散策略优化扩展世界模型强化学习
提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。