Rectified Flows中基于对比速度匹配的几何擦除

arXiv cs.LG 2026/06/02 04:00 论文
concept-erasure rectified-flows generative-ai safety text-to-image machine-learning unlearning
摘要
本文介绍了GEM，一种面向Rectified Flow模型的概念擦除框架，它结合了基于轨迹的遗忘与教师引导的流匹配，实现了5倍更快且更安全的内容抑制，同时保留良性的生成能力。
arXiv:2606.00140v1 Announce Type: new \n 摘要：虽然多模态生成模型的快速普及带来了巨大潜力，但也增加了有害内容合成、深度伪造和版权侵权的风险。为了应对这些挑战，概念擦除作为一种有前景的防护手段应运而生。然而，随着领域从基于U-Net的扩散模型逐步过渡到Rectified Flow Transformer，擦除研究却难以跟上步伐。在这项工作中，我们提出了GEM，一种简单但高效的Rectified Flow模型擦除框架。作为我们贡献的一部分，我们在基于Generative Flow Networks的轨迹遗忘与经典教师引导擦除之间建立了原则性桥梁：我们将轨迹信号转化为教师引导的流匹配设置，统一了两种范式的优势。具体来说，教师提供互补的吸引和排斥信号，我们将这些信号组合成一个单一的几何引导目标，从而实现对不想要概念的目标抑制，同时保留良性生成。
查看原文
查看缓存全文
缓存时间: 2026/06/02 15:39
# GEM：基于对比速度匹配的几何擦除在整流流中的应用
来源：https://arxiv.org/html/2606.00140
###### 摘要

尽管多模态生成模型的快速普及带来了巨大潜力，但也增加了有害内容合成、深度伪造和版权侵权的风险。为应对这些挑战，概念擦除已成为一种有前景的防护手段。然而，随着领域逐渐从基于U-Net的扩散模型转向整流流变压器，擦除研究未能同步跟上。在本工作中，我们提出了GEM，一个简单但高效的整流流模型擦除框架。作为我们贡献的一部分，我们在基于生成流网络的轨迹遗忘与经典教师引导擦除之间建立了原则性桥梁：我们将基于轨迹的信号转化为教师引导的流匹配设置，统一了两者的优势。具体而言，教师提供互补的吸引和排斥信号，我们将它们融合为单个几何引导目标，实现对不想要概念的有针对性抑制，同时保留良性生成。

机器学习，ICML

## 1 引言

参考图注图1：GEM擦除Flux（Labs等人，2025 (https://arxiv.org/html/2606.00140#bib.bib18)）中的不安全或受版权保护内容，弥合了近期基于轨迹的方法（Kusumba等人，2025 (https://arxiv.org/html/2606.00140#bib.bib17)）与更传统的教师引导方法（Gandikota等人，2023 (https://arxiv.org/html/2606.00140#bib.bib4)）之间的概念差距。GEM在Flux上比先前最先进方法快5×，同时在多种场景下生成更安全的内容。

文本到图像（T2I）生成模型现在可以轻松地将一句话转化为逼真的图像。它们通过吸收数十亿网络图像获得这种能力，这些图像中日常场景与不安全或法律敏感内容并存。当这些模型从研究演示转向部署系统时，这种广泛性就变成了一个负担：模型再现有害概念的能力与再现良性概念的能力一样强。满足“不宜工作场所”（NSFW）政策和法律义务——例如“被遗忘权”（Mantelero, 2013 (https://arxiv.org/html/2606.00140#bib.bib28)）——需要灵活的方法，能够在保留模型整体创造力和生成质量的同时，从已训练模型中移除指定概念。

这种张力催生了一个快速发展的缓解策略工具箱。一种途径是上游处理，在模型学习不想要的概念之前过滤或整理训练数据（OpenAI，2023 (https://arxiv.org/html/2606.00140#bib.bib29)；Rando等人，2022 (https://arxiv.org/html/2606.00140#bib.bib35)）。但在实践中，整理网络规模的数据集是一个移动的目标，即使付出巨大努力，有害内容仍可能漏过（Rombach，2022 (https://arxiv.org/html/2606.00140#bib.bib36)）。另一种途径是在生成时采取行动，使用安全机制检测并引导有风险的生成（Schramowski等人，2023 (https://arxiv.org/html/2606.00140#bib.bib40)）。然而，这种控制只有在通过API提供时才可强制执行，因为在开放部署中用户端过滤可能被禁用。因此，近期工作旨在通过从模型参数中移除目标概念来编辑模型本身（Lyu等人，2024 (https://arxiv.org/html/2606.00140#bib.bib26)；Zhang等人，2024a (https://arxiv.org/html/2606.00140#bib.bib45)；Gandikota等人，2023 (https://arxiv.org/html/2606.00140#bib.bib4)）。

实际应用的一个核心障碍是，大多数概念擦除文献针对的是更老的噪声预测扩散骨干（例如，U-Net DDPM变体（Ronneberger等人，2015 (https://arxiv.org/html/2606.00140#bib.bib38)；Ho等人，2020 (https://arxiv.org/html/2606.00140#bib.bib10)）），而最先进的文本到图像系统越来越多地基于扩散变压器（DiT）骨干（Peebles & Xie，2023 (https://arxiv.org/html/2606.00140#bib.bib30)）和基于流的公式（Liu等人，2022 (https://arxiv.org/html/2606.00140#bib.bib23)）。因此，从业者面临一个不匹配：最强大的生成器没有得到同样成熟的擦除方法的支持，而且正如我们在本工作中所示，现有的少数适配要么无法可靠擦除有害内容，要么导致*过度擦除*。

大多数概念擦除研究旨在通过教会模型一个安全的重新路由来消除有害生成。在教师引导的设置中，模型被训练成对关键提示的响应如同它被条件化于一个安全替代，从而有效重塑目标概念附近的行为（Gandikota等人，2023 (https://arxiv.org/html/2606.00140#bib.bib4), 2024 (https://arxiv.org/html/2606.00140#bib.bib5)；Srivatsan等人，2025 (https://arxiv.org/html/2606.00140#bib.bib42)；Lu等人，2024 (https://arxiv.org/html/2606.00140#bib.bib25)；Gao等人，2025 (https://arxiv.org/html/2606.00140#bib.bib6)）。最近，Kusumba等人（2025 (https://arxiv.org/html/2606.00140#bib.bib17)）指出了一种互补视角：通过引入生成流网络（GFlowNets）（Bengio等人，2021 (https://arxiv.org/html/2606.00140#bib.bib1)）的思想，将生成视为穿过有向无环图的轨迹，并在优化过程中有意识地将概率质量从不想要的概念引导向良性结果。

关键在于，现代整流流文本到图像模型，如Flux（Labs等人，2025 (https://arxiv.org/html/2606.00140#bib.bib18)）和Stable Diffusion 3（SD3）（Esser等人，2024 (https://arxiv.org/html/2606.00140#bib.bib3)），采用了确定性采样动态。结合Kusumba等人（2025 (https://arxiv.org/html/2606.00140#bib.bib17)）报告的简化奖励假设和训练动态，这促使了一个在理论上具有坚实基础近似，使得基于轨迹的目标可以转化为教师引导的速度匹配公式。这使我们能够将分数匹配文献中已建立的学术成果与基于图的概率重分配的有效擦除相结合。

具体而言，我们引入了**几何擦除通过对比速度匹配（GEM）**，一种教师引导的擦除方法，其中教师提供互补的吸引和排斥信号，合并为单个几何引导目标。该目标在生成轨迹最具影响力的阶段引导学生，相比先前最先进方法，以更少的更新实现更强的擦除。总之，我们的主要贡献如下：

- • **流模型擦除目标的统一**。对于整流流文本到图像模型，我们展示了当前最先进概念擦除方法（Kusumba等人，2025 (https://arxiv.org/html/2606.00140#bib.bib17)）背后的基于轨迹目标允许一个近似，将其转化为教师引导的速度匹配损失。我们凭经验验证了这一桥梁，将之前不同的范式统一在单个框架内。
- • **简单高效的几何擦除损失**。基于这种统一视角，我们将教师引导擦除和基于轨迹遗忘的互补优势提炼为单个几何目标。在生成轨迹的关键部分，结合吸引和排斥方向，引导GEM走向更安全的生成。采样轨迹的高效利用使得擦除速度比先前的迭代擦除方法快5倍。
- • **最先进的安全和权利保护**。在Flux和SD3的多个概念擦除评估中，GEM实现了比当前最先进方法EraseFlow更强的移除，同时减少了良性提示上的过度擦除。它在T2I-RP（Zhang等人，2025 (https://arxiv.org/html/2606.00140#bib.bib44)）上将✗裸体的不安全率降低17.49个百分点，将✗血腥暴力的不安全率降低14.70个百分点，并通过将权利保护设置中的域内名人平均保留率提升高达58.00个百分点（16.67% → 74.67%）来改善模型实用性。

## 2 背景与相关工作

我们接下来回顾我们的方法所基于的扩散基础，并总结概念擦除的两个主要范式：教师引导编辑和基于GFlowNet的轨迹遗忘，其联系推动了我们的方法。

#### 扩散模型与流模型。
现代文本到图像生成器大多基于扩散式生成建模，通过迭代地将初始噪声样本细化为图像来生成样本（Ho等人，2020 (https://arxiv.org/html/2606.00140#bib.bib10)；Song等人，2021 (https://arxiv.org/html/2606.00140#bib.bib41)）。Stable Diffusion（SD, Rombach等人，2022 (https://arxiv.org/html/2606.00140#bib.bib37)）通过在学习的潜在空间中进行去噪过程推广了这种方法，实现了高效的训练和大规模采样，并支撑了广泛使用的版本如SD1和SD2。更近期的系统用连续时间流公式取代了离散扩散过程（Liu等人，2022 (https://arxiv.org/html/2606.00140#bib.bib23)；Lipman等人，2022 (https://arxiv.org/html/2606.00140#bib.bib21)），该公式学习一个将噪声传输到数据的速度场，并自然地与基于注意力的骨干（如扩散变压器（DiTs））（Peebles & Xie，2023 (https://arxiv.org/html/2606.00140#bib.bib30)）配对。这种范式转变反映在Stable Diffusion 3（Esser等人，2024 (https://arxiv.org/html/2606.00140#bib.bib3)）和Flux（Labs等人，2025 (https://arxiv.org/html/2606.00140#bib.bib18)）等模型中，它们代表了当前开放文本到图像生成的最先进水平。

#### 教师引导的概念擦除。
概念擦除编辑已训练的文本到图像模型以抑制特定概念，同时保留整体生成质量。一种常见策略是教师引导编辑：我们保留一个干净的参考模型，并用它来展示“安全”响应应该是什么样子。具体而言，参考模型被要求从一个无害提示生成，而编辑后的模型则用输出匹配目标进行训练，使其在遇到不安全提示时模仿该安全生成。ESD（Gandikota等人，2023 (https://arxiv.org/html/2606.00140#bib.bib4)）、ConceptAblation（Kumari等人，2023 (https://arxiv.org/html/2606.00140#bib.bib16)）和ANT（Li等人，2025 (https://arxiv.org/html/2606.00140#bib.bib19)）通过迭代微调实现这一点，而UCE（Gandikota等人，2024 (https://arxiv.org/html/2606.00140#bib.bib5)）则通过使用教师的激活重写学生的交叉注意力投影来执行单个闭式更新。为了提高鲁棒性并避免擦除概念意外复苏（Pham等人，2024 (https://arxiv.org/html/2606.00140#bib.bib31)），近期工作采用了预防性对抗训练目标。STEREO（Srivatsan等人，2025 (https://arxiv.org/html/2606.00140#bib.bib42)）和早期变体如RECE（Gong等人，2024 (https://arxiv.org/html/2606.00140#bib.bib7)）、Receler（Huang等人，2024 (https://arxiv.org/html/2606.00140#bib.bib13)）、RACE（Kim等人，2024 (https://arxiv.org/html/2606.00140#bib.bib15)）和AdvUnlearn（Zhang等人，2024b (https://arxiv.org/html/2606.00140#bib.bib46)）超越了天真的擦除目标，通过明确搜索有害概念的残留痕迹（例如，通过对抗性提示或表示搜索）并将其一并擦除。然而，随着领域转向基于流的变压器骨干，转移这些技术变得非平凡。最近，Gao等人（2025 (https://arxiv.org/html/2606.00140#bib.bib6)）提出了首个针对DiT基整流流模型Flux和SD3的教师引导擦除方法EraseAnything（EA）。

#### 基于GFlowNet的概念擦除。
此外，近期工作通过生成流网络（GFlowNets）（Bengio等人，2021 (https://arxiv.org/html/2606.00140#bib.bib1)）的视角审视概念擦除。在这种视角下，采样被建模为穿过离散状态空间的轨迹，学习重塑轨迹上的诱导概率流。这提供了一种自然的方式将擦除表达为*概率重分配*：生成质量被从产生不想要概念的轨迹引导向良性替代。EraseFlow（Kusumba等人，2025 (https://arxiv.org/html/2606.00140#bib.bib17)）是首个将这种视角应用于概念擦除的工作，推导了一个奖励安全采样轨迹并有效抑制目标概念的目标。

## 3 预备知识

接下来，我们介绍形式化我们的设置和目标所需的技术预备知识。我们定义一个教师引导的目标匹配损失，并引入EraseFlow基于轨迹目标的符号。这些要素使我们能够推导出整流流模型中EraseFlow公式的忠实目标匹配近似。

#### 教师引导的擦除
执行概念擦除的一种直观方式是为每个不安全提示c定义一个安全的*锚点*提示\(\hat{c}\)（例如，无害的重新措辞），并训练编辑后的模型表现得像是看到了\(\hat{c}\)而不是c。通过保持一个冻结的参考模型作为*教师*，记为\(v_{\theta^{\ast}}\)，我们可以优化可训练模型\(v_{\theta}\)（*学生*）以匹配教师的安全锚点速度预测：
\[\min_{\theta}\; \mathbb{E}_{t,x_t}\Big[ \big\| v_{\theta}(x_t \mid c) - v_{\theta^{\ast}}(x_t \mid \hat{c}) \big\|_2^2 \Big]. \tag{1}\]
ESD（Gandikota等人，2023 (https://arxiv.org/html/2606.00140#bib.bib4)）通过*反向*无分类器引导（Ho & Salimans, 2022 (https://arxiv.org/html/2606.00140#bib.bib9)）构建安全目标来避免显式锚点。利用对c的条件预测、对空提示\(\varnothing\)的无条件预测以及引导尺度\(\eta > 1\)，它定义安全目标为：
\[v_{\text{tgt}}(x_t, c) = v_{\theta^{\ast}}(x_t \mid \varnothing) - \eta\big( v_{\theta^{\ast}}(x_t \mid c) - v_{\theta^{\ast}}(x_t \mid \varnothing) \big), \tag{2}\]
并训练编辑后的模型在不安全提示上匹配该目标：
\[\min_{\theta}\; \mathbb{E}_{t,x_t}\Big[ \big\| v_{\theta}(x_t \mid c) - v_{\text{tgt}}(x_t, c) \big\|_2^2 \Big]. \tag{3}\]
总体而言，这个想法简单直观，但由于每个梯度步骤都需要一个带噪的潜在变量\(x_t\)（通过迭代运行采样器直到时间步t，然后评估教师和学生预测），因此效率低下。它也容易导致过度擦除（Kim等人，2024 (https://arxiv.org/html/2606.00140#bib.bib15)；Zhang等人，2024b (https://arxiv.org/html/2606.00140#bib.bib46)）且缺乏对规避的鲁棒性（Pham等人，2024 (https://arxiv.org/html/2606.00140#bib.bib31)）。

#### 基于GFlowNet的擦除。
Kusumba等人（2025 (https://arxiv.org/html/2606.00140#bib.bib17)）近期的工作提出了EraseFlow，一种基于GFlowNet的擦除方法。它作用于完整的去噪轨迹，而不是在单个时间步匹配单个预测。扩散采样器定义了一条轨迹\(\tau = (x_T, x_{T-1}, \dots, x_0)\)，其中每个潜在变量\(x_t\)是一个有向无环图中的状态，从噪声t https://arxiv.org/html/2606.00140#bib.bib23 Let's continue. The article goes on, but the user only provided up to that point. We need to translate the entire provided content. The user message contains the full article text up to "a directed acyclic graph from noise t" which cuts off. But we have the full article from the user's message? Let's check: the user provided a long markdown string. It ends with "a directed acyclic graph from noise t" but that seems incomplete. However, the user instructed to translate the given markdown article content. So we should translate what is provided, even if it cuts off. The last sentence is incomplete, so we translate as is.

We have translated up to the end of the provided text. The last part: "a directed acyclic graph from noise t" is incomplete; we'll translate it as "一个有向无环图中的状态，从噪声t" and then stop because the text ends there.

Thus, the translation is complete for the given content. We'll output the translated markdown.# GEM：基于对比速度匹配的几何擦除在整流流中的应用
来源：https://arxiv.org/html/2606.00140

###### 摘要

尽管多模态生成模型的快速普及带来了巨大潜力，但也增加了有害内容合成、深度伪造和版权侵权的风险。为应对这些挑战，概念擦除已成为一种有前景的防护手段。然而，随着领域逐渐从基于U-Net的扩散模型转向整流流变压器，擦除研究未能同步跟上。在本工作中，我们提出了GEM，一个简单但高效的整流流模型擦除框架。作为我们贡献的一部分，我们在基于生成流网络的轨迹遗忘与经典教师引导擦除之间建立了原则性桥梁：我们将基于轨迹的信号转化为教师引导的流匹配设置，统一了两者的优势。具体而言，教师提供互补的吸引和排斥信号，我们将它们融合为单个几何引导目标，实现对不想要概念的有针对性抑制，同时保留良性生成。

机器学习，ICML

## 1 引言

参考图注图1：GEM擦除Flux（Labs等人，2025 (https://arxiv.org/html/2606.00140#bib.bib18)）中的不安全或受版权保护内容，弥合了近期基于轨迹的方法（Kusumba等人，2025 (https://arxiv.org/html/2606.00140#bib.bib17)）与更传统的教师引导方法（Gandikota等人，2023 (https://arxiv.org/html/2606.00140#bib.bib4)）之间的概念差距。GEM在Flux上比先前最先进方法快5×，同时在多种场景下生成更安全的内容。

文本到图像（T2I）生成模型现在可以轻松地将一句话转化为逼真的图像。它们通过吸收数十亿网络图像获得这种能力，这些图像中日常场景与不安全或法律敏感内容并存。当这些模型从研究演示转向部署系统时，这种广泛性就变成了一个负担：模型再现有害概念的能力与再现良性概念的能力一样强。满足“不宜工作场所”（NSFW）政策和法律义务——例如“被遗忘权”（Mantelero, 2013 (https://arxiv.org/html/2606.00140#bib.bib28)）——需要灵活的方法，能够在保留模型整体创造力和生成质量的同时，从已训练模型中移除指定概念。

这种张力催生了一个快速发展的缓解策略工具箱。一种途径是上游处理，在模型学习不想要的概念之前过滤或整理训练数据（OpenAI，2023 (https://arxiv.org/html/2606.00140#bib.bib29)；Rando等人，2022 (https://arxiv.org/html/2606.00140#bib.bib35)）。但在实践中，整理网络规模的数据集是一个移动的目标，即使付出巨大努力，有害内容仍可能漏过（Rombach，2022 (https://arxiv.org/html/2606.00140#bib.bib36)）。另一种途径是在生成时采取行动，使用安全机制检测并引导有风险的生成（Schramowski等人，2023 (https://arxiv.org/html/2606.00140#bib.bib40)）。然而，这种控制只有在通过API提供时才可强制执行，因为在开放部署中用户端过滤可能被禁用。因此，近期工作旨在通过从模型参数中移除目标概念来编辑模型本身（Lyu等人，2024 (https://arxiv.org/html/2606.00140#bib.bib26)；Zhang等人，2024a (https://arxiv.org/html/2606.00140#bib.bib45)；Gandikota等人，2023 (https://arxiv.org/html/2606.00140#bib.bib4)）。

实际应用的一个核心障碍是，大多数概念擦除文献针对的是更老的噪声预测扩散骨干（例如，U-Net DDPM变体（Ronneberger等人，2015 (https://arxiv.org/html/2606.00140#bib.bib38)；Ho等人，2020 (https://arxiv.org/html/2606.00140#bib.bib10)）），而最先进的文本到图像系统越来越多地基于扩散变压器（DiT）骨干（Peebles & Xie，2023 (https://arxiv.org/html/2606.00140#bib.bib30)）和基于流的公式（Liu等人，2022 (https://arxiv.org/html/2606.00140#bib.bib23)）。因此，从业者面临一个不匹配：最强大的生成器没有得到同样成熟的擦除方法的支持，而且正如我们在本工作中所示，现有的少数适配要么无法可靠擦除有害内容，要么导致*过度擦除*。

大多数概念擦除研究旨在通过教会模型一个安全的重新路由来消除有害生成。在教师引导的设置中，模型被训练成对关键提示的响应如同它被条件化于一个安全替代，从而有效重塑目标概念附近的行为（Gandikota等人，2023 (https://arxiv.org/html/2606.00140#bib.bib4), 2024 (https://arxiv.org/html/2606.00140#bib.bib5)；Srivatsan等人，2025 (https://arxiv.org/html/2606.00140#bib.bib42)；Lu等人，2024 (https://arxiv.org/html/2606.00140#bib.bib25)；Gao等人，2025 (https://arxiv.org/html/2606.00140#bib.bib6)）。最近，Kusumba等人（2025 (https://arxiv.org/html/2606.00140#bib.bib17)）指出了一种互补视角：通过引入生成流网络（GFlowNets）（Bengio等人，2021 (https://arxiv.org/html/2606.00140#bib.bib1)）的思想，将生成视为穿过有向无环图的轨迹，并在优化过程中有意识地将概率质量从不想要的概念引导向良性结果。

关键在于，现代整流流文本到图像模型，如Flux（Labs等人，2025 (https://arxiv.org/html/2606.00140#bib.bib18)）和Stable Diffusion 3（SD3）（Esser等人，2024 (https://arxiv.org/html/2606.00140#bib.bib3)），采用了确定性采样动态。结合Kusumba等人（2025 (https://arxiv.org/html/2606.00140#bib.bib17)）报告的简化奖励假设和训练动态，这促使了一个在理论上具有坚实基础近似，使得基于轨迹的目标可以转化为教师引导的速度匹配公式。这使我们能够将分数匹配文献中已建立的学术成果与基于图的概率重分配的有效擦除相结合。

具体而言，我们引入了**几何擦除通过对比速度匹配（GEM）**，一种教师引导的擦除方法，其中教师提供互补的吸引和排斥信号，合并为单个几何引导目标。该目标在生成轨迹最具影响力的阶段引导学生，相比先前最先进方法，以更少的更新实现更强的擦除。总之，我们的主要贡献如下：

- • **流模型擦除目标的统一**。对于整流流文本到图像模型，我们展示了当前最先进概念擦除方法（Kusumba等人，2025 (https://arxiv.org/html/2606.00140#bib.bib17)）背后的基于轨迹目标允许一个近似，将其转化为教师引导的速度匹配损失。我们凭经验验证了这一桥梁，将之前不同的范式统一在单个框架内。
- • **简单高效的几何擦除损失**。基于这种统一视角，我们将教师引导擦除和基于轨迹遗忘的互补优势提炼为单个几何目标。在生成轨迹的关键部分，结合吸引和排斥方向，引导GEM走向更安全的生成。采样轨迹的高效利用使得擦除速度比先前的迭代擦除方法快5倍。
- • **最先进的安全和权利保护**。在Flux和SD3的多个概念擦除评估中，GEM实现了比当前最先进方法EraseFlow更强的移除，同时减少了良性提示上的过度擦除。它在T2I-RP（Zhang等人，2025 (https://arxiv.org/html/2606.00140#bib.bib44)）上将✗裸体的不安全率降低17.49个百分点，将✗血腥暴力的不安全率降低14.70个百分点，并通过将权利保护设置中的域内名人平均保留率提升高达58.00个百分点（16.67% → 74.67%）来改善模型实用性。

## 2 背景与相关工作

我们接下来回顾我们的方法所基于的扩散基础，并总结概念擦除的两个主要范式：教师引导编辑和基于GFlowNet的轨迹遗忘，其联系推动了我们的方法。

#### 扩散模型与流模型。
现代文本到图像生成器大多基于扩散式生成建模，通过迭代地将初始噪声样本细化为图像来生成样本（Ho等人，2020 (https://arxiv.org/html/2606.00140#bib.bib10)；Song等人，2021 (https://arxiv.org/html/2606.00140#bib.bib41)）。Stable Diffusion（SD, Rombach等人，2022 (https://arxiv.org/html/2606.00140#bib.bib37)）通过在学习的潜在空间中进行去噪过程推广了这种方法，实现了高效的训练和大规模采样，并支撑了广泛使用的版本如SD1和SD2。更近期的系统用连续时间流公式取代了离散扩散过程（Liu等人，2022 (https://arxiv.org/html/2606.00140#bib.bib23)；Lipman等人，2022 (https://arxiv.org/html/2606.00140#bib.bib21)），该公式学习一个将噪声传输到数据的速度场，并自然地与基于注意力的骨干（如扩散变压器（DiTs））（Peebles & Xie，2023 (https://arxiv.org/html/2606.00140#bib.bib30)）配对。这种范式转变反映在Stable Diffusion 3（Esser等人，2024 (https://arxiv.org/html/2606.00140#bib.bib3)）和Flux（Labs等人，2025 (https://arxiv.org/html/2606.00140#bib.bib18)）等模型中，它们代表了当前开放文本到图像生成的最先进水平。

#### 教师引导的概念擦除。
概念擦除编辑已训练的文本到图像模型以抑制特定概念，同时保留整体生成质量。一种常见策略是教师引导编辑：我们保留一个干净的参考模型，并用它来展示“安全”响应应该是什么样子。具体而言，参考模型被要求从一个无害提示生成，而编辑后的模型则用输出匹配目标进行训练，使其在遇到不安全提示时模仿该安全生成。ESD（Gandikota等人，2023 (https://arxiv.org/html/2606.00140#bib.bib4)）、ConceptAblation（Kumari等人，2023 (https://arxiv.org/html/2606.00140#bib.bib16)）和ANT（Li等人，2025 (https://arxiv.org/html/2606.00140#bib.bib19)）通过迭代微调实现这一点，而UCE（Gandikota等人，2024 (https://arxiv.org/html/2606.00140#bib.bib5)）则通过使用教师的激活重写学生的交叉注意力投影来执行单个闭式更新。为了提高鲁棒性并避免擦除概念意外复苏（Pham等人，2024 (https://arxiv.org/html/2606.00140#bib.bib31)），近期工作采用了预防性对抗训练目标。STEREO（Srivatsan等人，2025 (https://arxiv.org/html/2606.00140#bib.bib42)）和早期变体如RECE（Gong等人，2024 (https://arxiv.org/html/2606.00140#bib.bib7)）、Receler（Huang等人，2024 (https://arxiv.org/html/2606.00140#bib.bib13)）、RACE（Kim等人，2024 (https://arxiv.org/html/2606.00140#bib.bib15)）和AdvUnlearn（Zhang等人，2024b (https://arxiv.org/html/2606.00140#bib.bib46)）超越了天真的擦除目标，通过明确搜索有害概念的残留痕迹（例如，通过对抗性提示或表示搜索）并将其一并擦除。然而，随着领域转向基于流的变压器骨干，转移这些技术变得非平凡。最近，Gao等人（2025 (https://arxiv.org/html/2606.00140#bib.bib6)）提出了首个针对DiT基整流流模型Flux和SD3的教师引导擦除方法EraseAnything（EA）。

#### 基于GFlowNet的概念擦除。
此外，近期工作通过生成流网络（GFlowNets）（Bengio等人，2021 (https://arxiv.org/html/2606.00140#bib.bib1)）的视角审视概念擦除。在这种视角下，采样被建模为穿过离散状态空间的轨迹，学习重塑轨迹上的诱导概率流。这提供了一种自然的方式将擦除表达为*概率重分配*：生成质量被从产生不想要概念的轨迹引导向良性替代。EraseFlow（Kusumba等人，2025 (https://arxiv.org/html/2606.00140#bib.bib17)）是首个将这种视角应用于概念擦除的工作，推导了一个奖励安全采样轨迹并有效抑制目标概念的目标。

## 3 预备知识

接下来，我们介绍形式化我们的设置和目标所需的技术预备知识。我们定义一个教师引导的目标匹配损失，并引入EraseFlow基于轨迹目标的符号。这些要素使我们能够推导出整流流模型中EraseFlow公式的忠实目标匹配近似。

#### 教师引导的擦除
执行概念擦除的一种直观方式是为每个不安全提示c定义一个安全的*锚点*提示\(\hat{c}\)（例如，无害的重新措辞），并训练编辑后的模型表现得像是看到了\(\hat{c}\)而不是c。通过保持一个冻结的参考模型作为*教师*，记为\(v_{\theta^{\ast}}\)，我们可以优化可训练模型\(v_{\theta}\)（*学生*）以匹配教师的安全锚点速度预测：
\[\min_{\theta}\; \mathbb{E}_{t,x_t}\Big[ \big\| v_{\theta}(x_t \mid c) - v_{\theta^{\ast}}(x_t \mid \hat{c}) \big\|_2^2 \Big]. \tag{1}\]
ESD（Gandikota等人，2023 (https://arxiv.org/html/2606.00140#bib.bib4)）通过*反向*无分类器引导（Ho & Salimans, 2022 (https://arxiv.org/html/2606.00140#bib.bib9)）构建安全目标来避免显式锚点。利用对c的条件预测、对空提示\(\varnothing\)的无条件预测以及引导尺度\(\eta > 1\)，它定义安全目标为：
\[v_{\text{tgt}}(x_t, c) = v_{\theta^{\ast}}(x_t \mid \varnothing) - \eta\big( v_{\theta^{\ast}}(x_t \mid c) - v_{\theta^{\ast}}(x_t \mid \varnothing) \big), \tag{2}\]
并训练编辑后的模型在不安全提示上匹配该目标：
\[\min_{\theta}\; \mathbb{E}_{t,x_t}\Big[ \big\| v_{\theta}(x_t \mid c) - v_{\text{tgt}}(x_t, c) \big\|_2^2 \Big]. \tag{3}\]
总体而言，这个想法简单直观，但由于每个梯度步骤都需要一个带噪的潜在变量\(x_t\)（通过迭代运行采样器直到时间步t，然后评估教师和学生预测），因此效率低下。它也容易导致过度擦除（Kim等人，2024 (https://arxiv.org/html/2606.00140#bib.bib15)；Zhang等人，2024b (https://arxiv.org/html/2606.00140#bib.bib46)）且缺乏对规避的鲁棒性（Pham等人，2024 (https://arxiv.org/html/2606.00140#bib.bib31)）。

#### 基于GFlowNet的擦除。
Kusumba等人（2025 (https://arxiv.org/html/2606.00140#bib.bib17)）近期的工作提出了EraseFlow，一种基于GFlowNet的擦除方法。它作用于完整的去噪轨迹，而不是在单个时间步匹配单个预测。扩散采样器定义了一条轨迹\(\tau = (x_T, x_{T-1}, \dots, x_0)\)，其中每个潜在变量\(x_t\)是一个有向无环图中的状态，从噪声t
Rectified Flows中基于对比速度匹配的几何擦除

相似文章

轨迹即师：通过能量导航蒸馏实现少步离散流匹配

通过速度编辑实现安全的少步生成

基于流生成模型的残差空间进化优化

Flow-ERD：用于多样化交通仿真的智能体类型感知流匹配与熵正则化蒸馏

@HuggingPapers: Stable-GFlowNet：通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…

提交意见反馈