SafeDiffusion-R1: 在线奖励引导的安全扩散后训练

Hugging Face Daily Papers 2026/05/18 00:00 论文

diffusion-models safety reinforcement-learning grpo clip fine-tuning generative-ai

摘要

SafeDiffusion-R1 引入了一个基于 GRPO 和引导奖励机制的在线强化学习框架，用于提升扩散模型的安全性，无需监督数据或奖励调优，在多个有害类别上实现了最先进的性能。

扩散模型已被广泛研究用于去除预训练过程中学习到的不安全内容。现有方法需要昂贵的监督数据，或是不安全文本配安全图像的真实标注，或是负/正图像对，这使得它们难以规模化。此外，离线强化学习和生成离线合成数据的监督微调方法会遭受灾难性遗忘，导致生成质量下降。我们提出了一种新颖的在线强化学习框架，通过在负向和正向文本提示上使用组相对策略优化（GRPO）进行后训练，同时解决数据稀缺和模型退化问题。为了消除微调专用安全/不安全奖励模型的需求，我们引入了一种引导奖励机制，该机制利用 CLIP 嵌入的一个固有特性：在嵌入空间中将文本表示朝向正向安全方向引导，远离负向不安全方向。我们的在线策略方法使模型能够从多样化的提示（包括明确的不安全内容）中学习，而不会出现灾难性遗忘。大量实验表明，我们的方法将不当内容降至 18.07%（SD v1.4 为 48.9%），裸体检测降至 15 次（基线为 646 次），同时将 GenEval 上的组合生成质量从 42.08% 提升至 47.83%。值得注意的是，这些安全收益泛化到了七个有害类别的域外不安全提示中，在没有监督配对数据或奖励调优的情况下实现了最先进的性能。Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.

查看原文

查看缓存全文

缓存时间: 2026/05/19 10:31

论文页面 - SafeDiffusion-R1：面向安全扩散后训练的在线奖励引导

来源：https://huggingface.co/papers/2605.18719

摘要

一种新颖的扩散模型在线强化学习框架，无需监督配对数据或奖励调优即可提升安全性，在多个危害类别上达到最先进性能。

扩散模型 (https://huggingface.co/papers?q=Diffusion%20models) 已被广泛研究用于去除预训练期间习得的不安全内容。现有方法需要昂贵的监督数据，要么是不安全文本配对安全图像的真值，要么是负/正图像对，这使得它们难以规模化扩展。此外，离线生成合成数据的离线强化学习和监督微调方法容易出现灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting)，从而降低生成质量。我们提出一种新颖的在线强化学习 (https://huggingface.co/papers?q=online%20reinforcement%20learning) 框架，通过在负向和正向文本提示上使用组相对策略优化 (https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization)（GRPO）进行后训练，解决了数据稀缺和模型退化这两个问题。为了消除对专门安全/不安全奖励模型 (https://huggingface.co/papers?q=safe%2Funsafe%20reward%20models) 进行微调的需求，我们引入了引导奖励机制 (https://huggingface.co/papers?q=steering%20reward%20mechanism)，该机制利用了CLIP嵌入 (https://huggingface.co/papers?q=CLIP%20embeddings) 的固有属性：在嵌入空间中将文本表示转向正向安全方向并远离负向方向。我们的在线策略方法使模型能够从多样化的提示（包括明确的不安全内容）中学习，而不会出现灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting)。大量实验表明，我们的方法将不适当内容降至 18.07%（对比 SD v1.4 的 48.9%），裸体检测降至 15（对比基线 646），同时在 GenEval (https://huggingface.co/papers?q=GenEval) 上将组合生成质量 (https://huggingface.co/papers?q=compositional%20generation%20quality) 从 42.08% 提升至 47.83%。值得注意的是，这些安全性提升可泛化至七个危害类别中的域外不安全提示，在无需监督配对数据或奖励调优的情况下实现最先进性能。Github：https://github.com/MAXNORM8650/SafeDiffusion-R1。

查看 arXiv 页面 (https://arxiv.org/abs/2605.18719) 查看 PDF (https://arxiv.org/pdf/2605.18719) 项目页面 (https://maxnorm8650.github.io/SafeDiffusion-R1/) GitHub (https://github.com/MAXNORM8650/SafeDiffusion-R1) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18719)

在您的 agent 中获取本文：

hf papers read 2605.18719

没有最新的 CLI？ curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 1

ItsMaxNorm/SafeDiffusion-R1 文本到图像 • 更新于约2小时前 (https://huggingface.co/ItsMaxNorm/SafeDiffusion-R1)

引用本文的数据集 1

ItsMaxNorm/SafeDiffusion-R1-dataset 查看器 • 更新于1分钟前 • 236k (https://huggingface.co/datasets/ItsMaxNorm/SafeDiffusion-R1-dataset)

引用本文的 Space 0

没有指向此页面的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.18719 以在本页面中链接它。

包含本文的收藏集 0

没有包含本文的收藏集

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在本页面中链接它。

SafeDiffusion-R1: 在线奖励引导的安全扩散后训练

论文页面 - SafeDiffusion-R1：面向安全扩散后训练的在线奖励引导

摘要

引用本文的模型 1

ItsMaxNorm/SafeDiffusion-R1 文本到图像 • 更新于约2小时前 (https://huggingface.co/ItsMaxNorm/SafeDiffusion-R1)

引用本文的数据集 1

ItsMaxNorm/SafeDiffusion-R1-dataset 查看器 • 更新于1分钟前 • 236k (https://huggingface.co/datasets/ItsMaxNorm/SafeDiffusion-R1-dataset)

引用本文的 Space 0

包含本文的收藏集 0

相似文章

ReflectDrive-2：面向离散扩散驾驶模型的强化学习对齐自编辑方法

@svlevine: 一种使用扩散进行离策略强化学习的新方法：如果我们有离策略数据，我们需要找出扩散后期…

不破坏的引导：基于机制的离散扩散语言模型干预

恢复扩散策略中的隐藏奖励

通过扩散策略优化扩展世界模型强化学习

提交意见反馈