扩散模型的正交概念擦除

arXiv cs.AI 论文

摘要

本文介绍了正交概念擦除(OCE),一种通过乘法正交参数更新从扩散模型中精确移除目标概念的方法,能够在数秒内高效擦除单个及多达100个概念。

arXiv:2605.28902v1 公告类型:新 摘要:概念擦除已成为缓解扩散模型中不期望或不安全内容的一种有前景的方法,但现有方法仍面临重大限制。基于训练的方法虽然有效,但计算成本高,限制了可扩展性。基于编辑的方法更高效且易于部署,但难以同时实现精确的概念擦除并保留整体生成能力。我们将基于编辑的方法的这一核心局限性归结为对加法参数更新的依赖。我们的实证分析表明,概念语义主要依赖于神经元方向而非神经元幅度,而整体生成能力依赖于神经元的角几何结构。由于加法更新固有地纠缠方向、幅度和角几何结构,它们不可避免地会在概念擦除与整体生成性能之间引入意外干扰。为解决这一问题,我们提出了正交概念擦除(OCE),该方法从几何角度将基于编辑的擦除重新表述为乘法参数更新。具体来说,OCE利用从参数的闭式解推导出的逐层正交变换,在保留神经元幅度和角几何结构的同时实现精确的概念擦除。此外,为解决多概念擦除中的冲突约束问题,OCE引入了具有结构化子空间操作的子空间级目标,实现了更有效且可扩展的擦除。在单概念和多概念擦除上的大量实验表明,OCE在概念擦除和非目标保留方面优于现有方法,能够在4.3秒内擦除多达100个概念。代码:https://github.com/HansSunY/OCE。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:11

# 面向扩散模型的正交概念擦除
来源:https://arxiv.org/html/2605.28902
###### 摘要

概念擦除已成为缓解扩散模型中不良或不安全内容的一种有前景的方法,但现有方法仍面临显著限制。基于训练的方法虽然有效,但其高昂的计算成本限制了可扩展性。基于编辑的方法效率更高且易于部署,却难以同时实现精确的概念擦除和保持整体生成能力。我们将基于编辑方法的这一核心限制归因于对加性参数更新的依赖。我们的实证分析表明,概念语义主要依赖于**神经元方向**而非**神经元幅度**,而整体生成能力则依赖于神经元的**角度几何结构**。由于加性更新天然地纠缠了方向、幅度和角度几何结构,它们不可避免地会在概念擦除与整体生成性能之间引入非预期的干扰。为解决此问题,我们提出了**正交概念擦除(OCE)**,该方法从几何角度将基于编辑的擦除重新表述为参数上的乘性更新。具体而言,OCE 对参数应用源自闭式解的逐层正交变换,从而在精确擦除概念的同时保持神经元幅度和角度几何结构。此外,为了解决多概念擦除中的冲突约束,OCE 引入了子空间级目标函数与结构化子空间操控,实现了更有效且可扩展的擦除。在单概念和多概念擦除上的大量实验表明,OCE 在概念擦除和非目标保持方面优于现有方法,可在 4.3 秒内擦除多达 100 个概念。代码:https://github.com/HansSunY/OCE。

机器学习,ICML

![[未加标题图片]](https://arxiv.org/html/2605.28902v1/x1.png)

图 1:我们提出的方法 OCE 在单概念和多概念擦除中均达到了强大的性能。(a) OCE 在物体和艺术风格擦除中有效移除了**目标概念**,同时保留了**非目标概念**。(b) OCE 支持一次性高效大规模多概念擦除,最多**100 个概念**,仅需 **4.3 秒**。(c) OCE 将先前的加性编辑重新表述为乘性正交编辑,引入了一种新的基于编辑的概念擦除范式。

## 1 引言

文本到图像(T2I)扩散模型(Ho 等,2020 (https://arxiv.org/html/2605.28902#bib.bib1);Song 等,2020a (https://arxiv.org/html/2605.28902#bib.bib3),b (https://arxiv.org/html/2605.28902#bib.bib2);Rombach 等,2022 (https://arxiv.org/html/2605.28902#bib.bib4);Ho 和 Salimans,2022 (https://arxiv.org/html/2605.28902#bib.bib5);Nichoel 等,2021 (https://arxiv.org/html/2605.28902#bib.bib6);Ramesh 等,2022 (https://arxiv.org/html/2605.28902#bib.bib7))在根据文本提示合成高保真度和多样化图像方面取得了显著性能。然而,其令人印象深刻的生成能力可能导致产生非期望的概念,包括受版权保护的内容(Jiang 等,2023 (https://arxiv.org/html/2605.28902#bib.bib8))、冒犯性或敏感视觉属性(Schramowski 等,2023 (https://arxiv.org/html/2605.28902#bib.bib9);Zhang 等,2024c (https://arxiv.org/html/2605.28902#bib.bib10))以及与身份相关的信息(Carlini 等,2023 (https://arxiv.org/html/2605.28902#bib.bib11);Mirsky 和 Lee,2021 (https://arxiv.org/html/2605.28902#bib.bib12)),引发了关于安全性、伦理和隐私的担忧。因此,概念擦除已成为一个关键的研究方向。

概念擦除任务涉及从预训练模型中精确移除特定概念,同时保留先验概念。现有的概念擦除技术大致可分为推理时干预、基于训练和基于编辑的方法。推理时干预方法(Schramowski 等,2023 (https://arxiv.org/html/2605.28902#bib.bib9);Yoon 等,2024 (https://arxiv.org/html/2605.28902#bib.bib17);Wang 等,2025 (https://arxiv.org/html/2605.28902#bib.bib18))在无需修改模型参数的情况下调整采样轨迹,但容易被绕过。基于训练的方法(Kumari 等,2023 (https://arxiv.org/html/2605.28902#bib.bib13);Gandikota 等,2023 (https://arxiv.org/html/2605.28902#bib.bib14);Lyu 等,2024 (https://arxiv.org/html/2605.28902#bib.bib15);Lu 等,2024 (https://arxiv.org/html/2605.28902#bib.bib16))通过微调部分模型参数并精心设计目标来移除目标概念,从而实现概念擦除。虽然有效,但这些方法通常需要多轮优化,导致大量计算时间和开销,严重限制了其在实际场景中的实用性。相比之下,基于编辑的方法(Gandikota 等,2024 (https://arxiv.org/html/2605.28902#bib.bib19);Gong 等,2024 (https://arxiv.org/html/2605.28902#bib.bib20);Li 等,2025c (https://arxiv.org/html/2605.28902#bib.bib21))直接对模型参数(例如交叉注意力层中的投影权重)进行操作,使用闭式解。这使得基于编辑的方法更高效,且更易于扩展到多概念擦除等实际场景。然而,尽管效率高,现有基于编辑的方法仍然存在若干局限。特别是,它们通常表现出擦除精度不足、难以可靠地保留先验概念,并且常常依赖相对复杂的擦除流程,使其不如所期望的那样简洁和原理清晰。

在这项工作中,我们认为现有基于编辑方法(Gandikota 等,2024 (https://arxiv.org/html/2605.28902#bib.bib19);Gong 等,2024 (https://arxiv.org/html/2605.28902#bib.bib20);Li 等,2025c (https://arxiv.org/html/2605.28902#bib.bib21))的核心局限在于概念擦除的表述方式。大多数现有方法将概念擦除定义为模型参数 W+ΔW+\\Delta 的加性更新,如图 1(c) 所示。虽然简单且灵活,但这种加性更新同时扰动了神经元的幅度和方向。更关键的是,即使是微小的加性变化也可能任意改变神经元的角度几何结构,包括神经元间角度和相关性。受先前关于超球面能量研究(Liu 等,2017 (https://arxiv.org/html/2605.28902#bib.bib22),2018 (https://arxiv.org/html/2605.28902#bib.bib23);Chen 等,2020 (https://arxiv.org/html/2605.28902#bib.bib24);Qiu 等,2023 (https://arxiv.org/html/2605.28902#bib.bib25))的启发,我们设计了一个玩具实验,该实验揭示:(1) **神经元方向**对于编码概念语义至关重要,而幅度几乎没有影响;(2) 保持**角度几何结构**对于维持模型的整体生成能力至关重要。因此,加性更新不可避免地纠缠了方向、幅度和角度几何结构,导致不稳定的擦除和较差的先验概念保留。**这激发了对概念擦除的几何视角:与其进行无约束的加性校正,有效的擦除应直接操控编码概念语义的神经元方向,同时保持其幅度和内在角度几何结构。**

从这一几何视角出发,我们提出了面向扩散模型的**正交概念擦除(OCE)**。OCE 并非采用加性更新,而是对模型参数应用源自闭式解的逐层正交变换,通过精确旋转神经元方向来实现概念擦除,同时保持神经元幅度和角度几何结构。此外,为了解决多概念擦除中的冲突约束,我们将向量级擦除目标扩展为子空间级投影目标。具体来说,我们将目标概念和锚定概念表示为其各自的子空间,然后最小化目标子空间中位于锚定子空间正交补之外的分量,这提供了一种更结构化且更温和的概念擦除形式。通过乘性和结构化的更新显式控制神经元方向,OCE 实现了对目标概念的精确擦除,同时保持了非目标概念的生成能力。它为单概念和多概念擦除场景提供了一种原理性且高效的闭式解。本工作的主要贡献总结如下:

- • 我们提出了 OCE,一种几何驱动、基于编辑的方法,通过逐层正交变换执行概念擦除,能够在精确移除目标概念的同时保持预训练模型的内在角度几何结构。
- • 我们引入了一种具有闭式解的结构化子空间级投影目标。通过将向量级擦除扩展为子空间投影形式,OCE 为单概念和多概念擦除提供了一种原理性、可扩展且高效的解决方案,实现了改进的擦除精度和先验概念保持。
- • 在多种擦除任务上进行的大量实验表明,OCE 在擦除有效性和整体生成质量方面持续优于现有的基于训练和基于编辑的方法。

## 2 相关工作

### 2.1 扩散模型中的概念擦除

文本到图像扩散模型可以生成受版权保护、冒犯性和隐私内容,引发了对实际部署的严重担忧。为了更好地规范这些模型生成的内容,早期方法侧重于使用精选数据集重新训练(Rombach,2022 (https://arxiv.org/html/2605.28902#bib.bib26))或引入输出过滤器(Rando 等,2022 (https://arxiv.org/html/2605.28902#bib.bib27))来阻止不良生成。然而,重新训练计算成本高昂,而输出过滤器容易被绕过。这导致人们对概念擦除的兴趣日益增长,该技术选择性地从模型中移除目标概念,可分为三种范式。推理时干预方法(Schramowski 等,2023 (https://arxiv.org/html/2605.28902#bib.bib9);Yoon 等,2024 (https://arxiv.org/html/2605.28902#bib.bib17);Jain 等,2024 (https://arxiv.org/html/2605.28902#bib.bib36);Wang 等,2025 (https://arxiv.org/html/2605.28902#bib.bib18))在生成过程中修改采样轨迹或引导信号以抑制非期望概念。基于训练的方法(Kumari 等,2023 (https://arxiv.org/html/2605.28902#bib.bib13);Gandikota 等,2023 (https://arxiv.org/html/2605.28902#bib.bib14);Zhang 等,2024a (https://arxiv.org/html/2605.28902#bib.bib28);Lyu 等,2024 (https://arxiv.org/html/2605.28902#bib.bib15);Lu 等,2024 (https://arxiv.org/html/2605.28902#bib.bib16);Zhang 等,2024b (https://arxiv.org/html/2605.28902#bib.bib30);Srivatsan 等,2025 (https://arxiv.org/html/2605.28902#bib.bib31);Nguyen 等,2025 (https://arxiv.org/html/2605.28902#bib.bib32);Sun 等,2025 (https://arxiv.org/html/2605.28902#bib.bib58))使用特定的擦除目标和正则化项微调模型参数,以保持整体生成质量。基于编辑的方法(Orgad 等,2023 (https://arxiv.org/html/2605.28902#bib.bib34);Gandikota 等,2024 (https://arxiv.org/html/2605.28902#bib.bib19);Gong 等,2024 (https://arxiv.org/html/2605.28902#bib.bib20);Li 等,2025c (https://arxiv.org/html/2605.28902#bib.bib21);Lin 等,2025 (https://arxiv.org/html/2605.28902#bib.bib35))直接使用闭式更新修改模型参数,以实现更高效的概念移除。与现有基于编辑方法中的加性更新范式不同,我们的方法从几何角度将概念擦除范式重新表述为正交变换,从而实现了更结构化且更有效的概念擦除。

### 2.2 参数空间中的正交化

正交化在参数空间中作为一种对模型进行微调并减少目标间干扰的原理性方法而被广泛探索。在持续学习和多任务学习中,正交梯度方法(Bennani 等,2020 (https://arxiv.org/html/2605.28902#bib.bib37);Farajtabar 等,2020 (https://arxiv.org/html/2605.28902#bib.bib38))将梯度投影到过去任务子空间的正交补上,或者分解更新以减轻任务间的负迁移。最近,正交变换被引入用于参数高效微调。正交微调(OFT)(Qiu 等,2023 (https://arxiv.org/html/2605.28902#bib.bib25))及其变体(Liu 等,2023 (https://arxiv.org/html/2605.28902#bib.bib39);Ma 等,2024 (https://arxiv.org/html/2605.28902#bib.bib40);Qiu 等,2025 (https://arxiv.org/html/2605.28902#bib.bib41))将结构化正交变换应用于权重矩阵,保留了预训练的内在结构。尽管取得了成功,现有的参数空间正交化方法主要侧重于稳定训练动态或文本到图像定制。相比之下,我们的工作利用正交变换作为概念擦除的几何工具,通过在参数空间中进行结构化变换实现有针对性的概念抑制,同时保持模型的整体生成能力。

## 3 概念擦除的几何分析

在本节中,我们从几何角度分析概念擦除,并认为其有效性和稳定性从根本上受神经元的角结构支配。我们的分析围绕两个关键论点展开:(C1) 扩散模型中的概念语义与神经元方向的关联强于与幅度的关联。(C2) 保持神经元间角度几何结构对于维持整体生成质量至关重要。

### 3.1 神经元角度几何结构中的概念表达

我们分析扩散模型中交叉注意力投影矩阵的受控几何变换,以解耦幅度、方向和神经元间几何结构在概念表达中的作用。具体地,我们关注关键矩阵和值矩阵,记作 WW,它们在将文本嵌入映射到视觉语义中起着核心作用。我们设计了三种对 WW 的受控修改:

情况 A:仅幅度缩放。我们将权重按标量因子 α\\alpha 缩放为

W~=αW,α∈(0,1),\tilde{W} = \alpha W, \quad \alpha \in (0,1), (1)

这仅改变神经元幅度。

看图说明图 2:用来展示角度信息在扩散模型概念表达中重要性的玩具实验。情况 B:神经元级正交旋转。我们对单个神经元应用独立的正交变换:

w~i=Qiwi,Qi⊤Qi=I,\tilde{w}_i = Q_i w_i, \quad Q_i^\top Q_i = I, (2)

其中 wiw_i 表示 WW 的第 ii 列,每个 QiQ_i 是一个神经元级正交矩阵。这保持了神经元幅度,但破坏了方向和神经元间角度几何结构。

情况 C:层级正交旋转。我们对整个层应用一个共享的正交变换 QQ:

W~=QW,Q⊤Q=I,\tilde{W} = Q W, \quad Q^\top Q = I, (3)

这仅改变神经元方向。

我们评估了这三种修改对生成概念“猫”的影响,如图 2 所示。对于情况 A,将权重按 α=0.5\\alpha = 0.5 缩放对生成概念“猫”几乎没有影响。相比之下,应用一个小的层级正交旋转(情况 C)导致了生成中“猫”概念的明显语义偏移。

相似文章

用于优化离散扩散语言模型的漂移目标

arXiv cs.CL

本文提出TokenDrift,一种漂移目标方法,通过将分类预测提升至连续语义空间进行反对称漂移,从而优化离散扩散语言模型。在固定去噪步数下,该方法显著提升了生成质量。