通道级语义扰动:面向多样训练范式的不可学习示例

arXiv cs.LG 论文

摘要

本文系统研究了不同训练范式下的不可学习示例,揭示了预训练权重会削弱现有方法的效果,并提出浅层语义伪装(SSC)方法,通过在语义有效子空间中生成扰动来维持不可学习性。

arXiv:2605.05224v1 公告类型:新 摘要:未经授权在模型训练中使用个人数据已成为日益严重的隐私威胁。不可学习示例通过将不可察觉的扰动嵌入良性示例中,以阻碍特征学习来解决这一问题。然而,现有研究主要评估了从零开始训练设置下的不可学习示例,其在广泛采用的预训练-微调(PF)范式下的行为很大程度上未被探索。在这项工作中,我们首次系统研究了不同训练范式下的不可学习示例。我们的分析表明,加载并冻结预训练权重会显著削弱现有不可学习示例方法的有效性。我们进一步通过语义过滤来解释这些发现:虽然不可学习示例倾向于诱导模型过度拟合非语义噪声,从而削弱其语义提取能力,但在预训练-微调范式下,冻结的浅层保留了数据语义,有效过滤了不可学习噪声等干扰信息。基于这些见解,我们提出了一种分层欺骗策略——浅层语义伪装(SSC),将生成过程限制在语义有效的子空间中,旨在绕过预训练权重引入的语义抑制。大量实验表明,即使在具有挑战性的训练范式下(如浅层冻结和语义聚焦预训练),我们的方法也能持续保持数据的不可学习性,从而弥合了基于预训练的不可学习学习中的关键差距。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 06:39

# 通道级语义扰动:面向多样训练范式的不可学习示例  
来源:https://arxiv.org/html/2605.05224  
Bo Wang, Jia Ni, Mengnan Zhao, Zhan Qin, Kui Ren  
稿件收到于2026年4月16日。  
Bo Wang 和 Jia Ni 与大连理工大学信息与通信工程学院合作,邮编116024,中国。  
Mengnan Zhao 与安徽大学计算机科学与技术学院合作,合肥230601,中国(电子邮箱:[email protected])。  
Zhan Qin 和 Kui Ren 与浙江大学计算机科学与技术学院合作,杭州310058,中国。  

###### 摘要  
在模型训练中未经授权使用个人数据已成为日益严重的隐私威胁。不可学习示例(Unlearnable Examples, UEs)通过在正常示例中嵌入难以察觉的扰动来阻碍特征学习,从而解决这一问题。然而,现有研究主要在从头训练(from-scratch)设置下评估UEs,而它们在广泛采用的预训练-微调(Pretraining–Finetuning, PF)范式下的行为尚未得到充分探索。在这项工作中,我们首次系统性地研究了不可学习示例在不同训练范式下的表现。我们的分析表明,加载并冻结预训练权重大幅削弱了现有UEs方法的有效性。我们进一步通过语义滤波(semantic filtering)解释了这些发现:UEs倾向于诱导模型过拟合非语义噪声,从而削弱其语义提取能力;而在PF范式下,冻结的浅层保留了数据语义,有效过滤了如不可学习噪声等干扰信息。基于这些洞见,我们提出了一种分层欺骗策略——浅层语义伪装(Shallow Semantic Camouflage, SSC),将生成过程限制在语义有效的子空间内,旨在绕过预训练权重引入的语义抑制。大量实验表明,即使在具有挑战性的训练范式(如浅层冻结和语义聚焦预训练(SF-Pretrain))下,我们的方法仍能一致地保持数据的不可学习性,弥合了基于预训练的不可学习学习中的关键鸿沟。  

## I. 引言  
大规模数据集的可获得性[2(https://arxiv.org/html/2605.05224#bib.bib1),15(https://arxiv.org/html/2605.05224#bib.bib2)]推动了深度学习的快速发展。这些数据通常从公共来源抓取,且缺乏有效的访问限制[10(https://arxiv.org/html/2605.05224#bib.bib5),17(https://arxiv.org/html/2605.05224#bib.bib4)],导致对数据未经授权使用和知识产权保护的担忧日益加剧[1(https://arxiv.org/html/2605.05224#bib.bib9),41(https://arxiv.org/html/2605.05224#bib.bib27),54(https://arxiv.org/html/2605.05224#bib.bib11)]。例如,大规模网络收集的数据集通常包含用户个人或敏感信息,这些信息可能在模型优化过程中被记忆[47(https://arxiv.org/html/2605.05224#bib.bib13),20(https://arxiv.org/html/2605.05224#bib.bib14),32(https://arxiv.org/html/2605.05224#bib.bib10)],带来严重的隐私泄露风险[14(https://arxiv.org/html/2605.05224#bib.bib15)]。更严重的是,先前工作[34(https://arxiv.org/html/2605.05224#bib.bib64),27(https://arxiv.org/html/2605.05224#bib.bib18),30(https://arxiv.org/html/2605.05224#bib.bib17)]已表明,即使经过数据清洗,攻击者仍能从训练模型中重建高保真度的私密内容或推断敏感属性。为缓解这些问题,近期研究[7(https://arxiv.org/html/2605.05224#bib.bib20),31(https://arxiv.org/html/2605.05224#bib.bib37),43(https://arxiv.org/html/2605.05224#bib.bib38),42(https://arxiv.org/html/2605.05224#bib.bib35),21(https://arxiv.org/html/2605.05224#bib.bib12)]提出了不可学习技术,该技术降低模型在私密数据上的泛化能力,从而阻止未经授权的数据利用。

图1:UEs对未经授权使用的保护效果。为防止原始数据泄露隐私,使用不可学习扰动来抑制特征学习。标准扰动在PF范式下失效,而本文提出的SSC采用通道级语义噪声以提供稳健的数据保护。

早期构建不可学习示例的努力源自误差最小化噪声(Error-Minimizing Noise)范式[12(https://arxiv.org/html/2605.05224#bib.bib31)],该范式通过直接降低每个示例的训练损失来抑制可学习信号。尽管所得扰动在视觉上难以察觉,但不可学习示例[12(https://arxiv.org/html/2605.05224#bib.bib31),5(https://arxiv.org/html/2605.05224#bib.bib34)]对对抗训练[39(https://arxiv.org/html/2605.05224#bib.bib30),49(https://arxiv.org/html/2605.05224#bib.bib23)]表现出脆弱性。同时,训练前的数据处理操作也会降低不可学习扰动的有效性[53(https://arxiv.org/html/2605.05224#bib.bib40),55(https://arxiv.org/html/2605.05224#bib.bib41),19(https://arxiv.org/html/2605.05224#bib.bib42)],因此增强鲁棒性至关重要。为增强鲁棒性,相关方法[6(https://arxiv.org/html/2605.05224#bib.bib32),44(https://arxiv.org/html/2605.05224#bib.bib19),45(https://arxiv.org/html/2605.05224#bib.bib21)]被提出,表现出更强的抗对抗训练能力。然而,误差最小化噪声和鲁棒不可学习示例都面临优化不稳定性问题。为解决此问题,Liu等人[24(https://arxiv.org/html/2605.05224#bib.bib33)]进一步引入了稳定不可学习示例(Stable Unlearnable Examples)。该方法通过对抗随机扰动来训练防御噪声,从而提升其稳定性。尽管近期不可学习方法在阻碍模型学习方面表现出较强的有效性,但它们主要聚焦于从头训练设置。然而,它们在广泛采用的预训练-微调范式[13(https://arxiv.org/html/2605.05224#bib.bib24),26(https://arxiv.org/html/2605.05224#bib.bib25)]下的行为仍未得到充分探索。因此,本工作对不同训练范式下的UEs进行了系统性研究。分析表明,在优化过程中加载并冻结预训练网络权重会显著削弱现有方法的不可学习性。特别是,加载和冻结预训练模型的浅层对保护性能影响显著。基于此,我们进一步观察到,针对预训练权重定制的权重感知扰动可以缓解这种脆弱性,但在实际黑盒场景中,这些生成方法的跨权重迁移能力有限。因此,正常和权重感知的不可学习示例在PF范式下仍然脆弱。我们从语义不匹配的角度进一步解释了这些发现。我们认为,预训练浅层提取语义信息,而现有不可学习扰动大多与自然图像在语义上不一致。这种不匹配使得冻结的浅层能够作为可靠的语义滤波器,忽略语义不匹配的信息并保留自然物体的结构,从而传递更多有用信息。为进一步验证这一假设,我们引入了SF-Pretrain,该方法强制预训练网络提取语义表示,从而专注于自然表示空间,并在浅层学习过程中增强语义滤波能力。实验结果表明,加载强化了语义先验的权重能更有效地降低不可学习性。

在本工作中,为增强UEs在不同训练范式下的数据保护能力,我们进一步提出了一种分层欺骗策略——浅层语义伪装(SSC),以保持被预训练权重和语义聚焦浅层所抑制的不可学习示例的有效性。与仅优化噪声以诱导过拟合的传统方法不同,我们的框架采用参考模型作为语义引导,并施加对抗约束以强制浅层实现严格的语义对齐,从而生成通道级语义扰动。该方法迫使优化过程将扰动从浅层特征转移到表示空间的更高层。在这些空间中,所诱导的扰动能够在传播过程中模拟真实语义。因此,扰动能够绕过浅层滤波并影响更深层的语义处理。大量实验证实,我们的方法不仅在标准迁移设置下表现稳健,而且在浅层冻结和SF-Pretrain等具有挑战性的训练范式下也展现出很强的鲁棒性。我们将主要贡献总结如下:

- • 我们系统性地揭示了预训练-微调范式下不可学习示例的脆弱性。通过对多种微调配置的全面分析,我们发现加载并冻结预训练浅层显著削弱了现有UEs的保护效果。
- • 我们系统性地解释了UEs在PF范式下失效的原因。通过对特征传播和频域行为的分析,我们观察到与自然图像统计的语义不匹配是导致不可学习能力退化的主要原因。
- • 我们提出了一种分层欺骗策略,以在不同训练范式下保持不可学习性。通过强制浅层语义对齐来生成通道级语义扰动,这些扰动能绕过预训练语义滤波器并保持鲁棒性。
- • 在CIFAR-10、CIFAR-100和Tiny-ImageNet上的大量实验表明,我们的分层欺骗策略在不同训练范式下一致优于当前最先进(SOTA)基线方法。

## II. 相关工作

### II-A. 不可学习示例
不可学习示例是一种以数据为核心的隐私保护技术。其核心原理是在训练样本中引入难以察觉的扰动,旨在阻止机器学习模型提取有效的特征表示,从而保护数据隐私。现有关于不可学习示例的研究根据优化目标可大致分为三个方向:提升保护效果、增强扰动鲁棒性、以及增加任务通用性和隐蔽性。

第一类工作侧重于提升保护效果。误差最小化噪声[12(https://arxiv.org/html/2605.05224#bib.bib31)]将UEs生成建模为双层优化问题,诱导模型陷入局部最优。为减轻其计算开销,博弈论不可学习示例(Game-Theoretic Unlearnable Example)[23(https://arxiv.org/html/2605.05224#bib.bib57)]将该过程重新表述为Stackelberg博弈,并通过生成器近似均衡。其他方法从不同角度增强效果。针对对手投毒(Targeted Adversarial Poisoning)[5(https://arxiv.org/html/2605.05224#bib.bib34)]将不可学习性视为数据投毒问题,而神经切线泛化攻击(Neural Tangent Generalization Attack)[50(https://arxiv.org/html/2605.05224#bib.bib58)]利用神经切线核分析,引入黑盒场景下的干净标签泛化失败。自回归方法[38(https://arxiv.org/html/2605.05224#bib.bib59)]进一步去除了对替代模型的依赖,通过不针对特定网络生成扰动来实现。

从鲁棒性角度看,以往研究侧重于在数据增强和防御训练策略下保持扰动的有效性。鲁棒误差最小化(Robust Error-Minimizing)[6(https://arxiv.org/html/2605.05224#bib.bib32)]将对抗训练和关于变换的期望纳入优化过程,以对抗数据增强。稳定误差最小化(Stable Error-Minimizing)[24(https://arxiv.org/html/2605.05224#bib.bib33)]在生成过程中引入一致性正则化,以维持扰动在多种模型参数扰动和输入变换下的不可学习性质。可证明不可学习示例(Provably Unlearnable Examples)[43(https://arxiv.org/html/2605.05224#bib.bib38)]不再仅依赖经验测试准确率,而是采用参数平滑等技术,推导出可达到的测试准确率的认证上限,为模型性能退化提供理论保证。

第三个研究方向考察了在不同任务和模型设置下的通用性与隐蔽性。通用可迁移生成器(Versatile Transferable Generator)[22(https://arxiv.org/html/2605.05224#bib.bib56)]引入了一种对抗域增强策略,通过模拟数据分布的变化来生成扰动,从而提升跨架构迁移性。多模态不可学习示例(Multimodal Unlearnable Examples)[42(https://arxiv.org/html/2605.05224#bib.bib35)]通过联合优化图像扰动和文本触发器,引入了视觉与语言模态之间的协作干扰。深度隐藏(Deep Hiding)[31(https://arxiv.org/html/2605.05224#bib.bib37)]利用可逆神经网络将预定义的语义模式嵌入干净样本,增强了感知隐蔽性。

### II-B. 针对UEs的现有防御
针对不可学习示例的防御旨在通过在模型训练过程中减少难以察觉扰动的影响来恢复数据效用。现有研究可分为三个主要方向:基于预处理的防御、训练阶段防御和生成式净化防御。

基于预处理的防御利用低层扰动特征对图像处理的敏感性,通过数据变换来中和UEs。传统方法采用轻量级操作,如灰度转换、JPEG压缩[25(https://arxiv.org/html/2605.05224#bib.bib39),29(https://arxiv.org/html/2605.05224#bib.bib43)]和空间滤波,以消除UEs引入的捷径[36(https://arxiv.org/html/2605.05224#bib.bib46)]。虽然计算效率高,但这类方法常被具有复杂特征的不可学习示例绕过,且其有效性因具体攻击机制而异。

训练阶段防御将鲁棒性直接整合到模型优化过程中。对抗训练[28(https://arxiv.org/html/2605.05224#bib.bib47)]是一种经典策略,迫使模型学习鲁棒特征。为平衡效率,UEraser[36(https://arxiv.org/html/2605.05224#bib.bib46)]应用多种数据增强的组合(如Mixup[52(https://arxiv.org/html/2605.05224#bib.bib53)]、CutMix[51(https://arxiv.org/html/2605.05224#bib.bib54)]和CutOut[3(https://arxiv.org/html/2605.05224#bib.bib52)])以及损失最大化策略,使数据分布多样化。此外,诸如正交投影[37(https://arxiv.org/html/2605.05224#bib.bib49)]等专门的目标函数在反向传播过程中隔离并抑制不可学习示例的影响。尽管此类方法具有鲁棒性,但它们在训练阶段的计算代价巨大,并且可能导致在干净数据上的性能潜在下降[25(https://arxiv.org/html/2605.05224#bib.bib39)]。

生成式净化防御利用深度生成架构将扰动从干净数据中分离或剥离。例如,D-VAE[48(https://arxiv.org/html/2605.05224#bib.bib50)]采用率约束变分自编码器进行无监督扰动分离,从而在去除有害信号的同时维持数据完整性。

相似文章

智慧在于知道何时沉默:通过注意力转移实现无幻觉的大语言模型遗忘

arXiv cs.CL

本论文引入注意力转移(Attention-Shifting, AS)框架,用于大语言模型的选择性机器遗忘,在有效移除敏感信息与防止幻觉和保持模型性能之间取得平衡。该方法采用重要性感知的注意力抑制和保留增强机制,在标准基准上相比现有遗忘方法实现了高达15%的准确度保持率提升。

乱码也有效:提示空间扰动拓宽推理探索

Hugging Face Daily Papers

本文介绍了 LoPE,这是一种利用提示空间扰动来解决可验证奖励强化学习中“零优势问题”的训练框架,从而增强大语言模型的推理探索能力。

大型语言模型能否重塑基础算法?

Hugging Face Daily Papers

# 论文页面 - 大型语言模型能否重塑基础算法? 来源:[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后,它们还能从零重塑 Dijkstra、Euclid 等基础算法吗?** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域:先用“反学习”把目标算法从模型中抹去,再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。

半监督文本分类的对抗训练方法

OpenAI Blog

本文提出了针对文本分类的对抗训练和虚拟对抗训练方法,通过在RNN中对词嵌入而非原始输入施加扰动来实现。该方法在半监督和监督文本分类基准上取得了最先进的结果,同时降低了过拟合。