神经网络策略的对抗性攻击

OpenAI Blog 2017/02/08 08:00 论文

adversarial-attacks reinforcement-learning neural-networks robustness security perturbations

摘要

OpenAI 研究人员展示了对抗性攻击（先前在计算机视觉中研究过）对强化学习中的神经网络策略也同样有效，即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。

暂无内容

查看缓存全文

缓存时间: 2026/04/20 14:46

# 神经网络策略的对抗攻击来源：https://openai.com/index/adversarial-attacks-on-neural-network-policies/ OpenAI ## 摘要已知机器学习分类器容易受到由对手精心构造的输入的攻击，从而被迫进行错误分类。这类对抗样本已在计算机视觉应用中得到广泛研究。在本研究中，我们展示了对抗攻击在针对强化学习中的神经网络策略时同样有效。具体而言，我们证明现有的对抗样本生成技术可以显著降低训练后策略的测试时性能。我们的威胁模型考虑了能够向策略原始输入引入小扰动的对手。我们在白盒和黑盒设置下，针对对抗样本攻击的一个子类，刻画了不同任务和训练算法中的易攻击程度。无论学习任务或训练算法如何，我们都观察到性能出现显著下降，即使在不干扰人类感知的小对抗扰动下也是如此。视频可在此处获得（http://rll.berkeley.edu/adversarial）。

神经网络策略的对抗性攻击

相似文章

测试对未知对手的鲁棒性

鲁棒对抗性输入

用对抗样本攻击机器学习

对抗图神经网络基准：迈向实用且公平的评价

OpenAI Red Teaming Network

提交意见反馈