神经网络策略的对抗性攻击
摘要
OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:46
# 神经网络策略的对抗攻击
来源:https://openai.com/index/adversarial-attacks-on-neural-network-policies/
OpenAI
## 摘要
已知机器学习分类器容易受到由对手精心构造的输入的攻击,从而被迫进行错误分类。这类对抗样本已在计算机视觉应用中得到广泛研究。在本研究中,我们展示了对抗攻击在针对强化学习中的神经网络策略时同样有效。具体而言,我们证明现有的对抗样本生成技术可以显著降低训练后策略的测试时性能。我们的威胁模型考虑了能够向策略原始输入引入小扰动的对手。我们在白盒和黑盒设置下,针对对抗样本攻击的一个子类,刻画了不同任务和训练算法中的易攻击程度。无论学习任务或训练算法如何,我们都观察到性能出现显著下降,即使在不干扰人类感知的小对抗扰动下也是如此。视频可在此处获得(http://rll.berkeley.edu/adversarial)。
相似文章
测试对未知对手的鲁棒性
# 测试对未知对手的鲁棒性 来源:[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(未知攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调了需要在更多样化的未知攻击范围内测量性能
鲁棒对抗性输入
研究人员展示了对抗性图像,这些图像能够在多个尺度和视角下可靠地欺骗神经网络分类器,这对自动驾驶汽车所使用的多尺度图像捕捉系统的鲁棒性假设提出了挑战。
用对抗样本攻击机器学习
本文讨论了针对机器学习模型的对抗攻击,并展示了梯度掩蔽(一种试图拒绝攻击者访问有用梯度的防御技术)为何从根本上是无效的。论文表明,攻击者可以通过训练能够模拟被防御模型行为的替代模型来绕过梯度掩蔽,最终使这一防御策略失效。
对抗图神经网络基准:迈向实用且公平的评价
本文提出了一个全面的基准,用于评估图神经网络中的对抗攻击与防御,强调了需要标准化和公平的实验协议。
OpenAI Red Teaming Network
OpenAI 推出红队测试网络,从多个领域的专家和不同视角众包对 AI 模型的对抗性测试。该计划接受持续申请,提供灵活的时间承诺(每年仅需 5 小时),提供报酬,并强调安全专业知识和来自代表性不足群体的背景。