用对抗样本攻击机器学习

OpenAI Blog 论文

摘要

本文讨论了针对机器学习模型的对抗攻击,并展示了梯度掩蔽(一种试图拒绝攻击者访问有用梯度的防御技术)为何从根本上是无效的。论文表明,攻击者可以通过训练能够模拟被防御模型行为的替代模型来绕过梯度掩蔽,最终使这一防御策略失效。

对抗样本是指攻击者精心设计的机器学习模型输入,旨在使模型做出错误的预测;它们就像机器的光学错觉。在这篇文章中,我们将展示对抗样本如何在不同媒介中发挥作用,并讨论为什么保护系统免受其侵害可能很困难。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:45

# 用对抗样本攻击机器学习 来源:https://openai.com/index/attacking-machine-learning-with-adversarial-examples/ 为了举例说明简单防御如何失败,让我们看看为什么一种称为"梯度掩蔽"的技术不起作用。 "梯度掩蔽"是在《使用对抗样本对深度学习系统的实用黑盒攻击》(https://arxiv.org/abs/1602.02697)中引入的术语,用来描述一整类失败的防御方法,这些方法通过试图拒绝攻击者访问有用的梯度来工作。 大多数对抗样本构造技术使用模型的梯度进行攻击。换句话说,它们查看一张飞机的图片,测试图像空间中哪个方向会增加"猫"类别的概率,然后沿着那个方向轻微扰动输入。修改后的新图像会被误识别为猫。 但如果没有梯度会怎样——如果对图像的微小修改导致模型输出完全不变呢?这似乎提供了某种防御,因为攻击者不知道应该向哪个方向"推动"图像。 我们可以很容易想到一些非常简单的梯度消除方式。例如,大多数图像分类模型可以以两种模式运行:一种模式输出最可能类别的标识,另一种模式输出概率。如果模型的输出是"99.9% 飞机,0.1% 猫",那么对输入进行微小改变会导致输出也微小改变,梯度告诉我们哪些改变会增加"猫"类别的概率。如果我们以"最可能类别"模式运行模型,那么对输入进行微小改变根本不会改变输出,梯度也就什么都说不了了。 让我们进行一个思想实验,看看通过以"最可能类别"模式而不是"概率模式"运行模型来防御对抗样本的效果。攻击者不再知道到哪里去找会被分类为猫的输入,所以我们可能有某种防御。不幸的是,之前被分类为猫的每张图像现在仍然被分类为猫。如果攻击者能猜出哪些点是对抗样本,这些点仍然会被误分类。我们没有让模型更加稳健,我们只是给了攻击者更少的线索来找出模型防御中的漏洞。 更加不幸的是,攻击者有一个非常好的策略来猜测防御中漏洞的位置。攻击者可以训练自己的模型,一个具有梯度的光滑模型,为其模型生成对抗样本,然后针对我们的非光滑模型部署这些对抗样本。很多时候,我们的模型也会误分类这些样本。最终,我们的思想实验表明隐藏梯度根本没有帮助。 执行梯度掩蔽的防御策略通常会导致一个模型在训练点的特定方向和邻域中非常光滑,这使得对手更难找到指示好的扰动方向的梯度,以对模型造成损害。然而,对手可以训练一个**替代模型**:通过观察防御模型对攻击者精心选择的输入分配的标签,来复制防御模型的副本。

相似文章

神经网络策略的对抗性攻击

OpenAI Blog

OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。

当动作消失:自对弈强化学习中的对抗性动作移除

arXiv cs.LG

本文研究了自对弈强化学习中的对抗性动作掩蔽,攻击者选择性移除受害者动作集中的合法动作。实验表明,在多个环境和算法下,该攻击比随机掩蔽或扰动基线造成的损害显著更大,且受害者即使在长时间训练后也无法恢复。