不同扰动类型之间对抗鲁棒性的迁移

OpenAI Blog 论文

摘要

# 不同扰动类型之间对抗鲁棒性的迁移 来源: [https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/](https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/) OpenAI## 摘要 我们研究深度神经网络在不同扰动类型之间的对抗鲁棒性迁移。虽然大多数关于对抗样本的工作专注于L∞L\_∞和L2L\_2有界扰动,但这些并不能捕捉所有t

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:55

# 对抗鲁棒性在不同扰动类型间的迁移 来源:https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/ OpenAI ## 摘要 我们研究了深度神经网络对抗鲁棒性在不同扰动类型间的迁移。虽然大多数关于对抗样本的研究集中在L∞和L₂有界扰动上,但这些并未涵盖对手可用的所有扰动类型。本研究针对在ImageNet的100类子集上进行对抗训练的模型,评估了5种不同类型的32种攻击。我们的实证结果表明,为了理解对抗鲁棒性是否能在扰动类型间迁移,需要在广泛的扰动大小范围内进行评估。我们进一步证明,对某一扰动类型的鲁棒性可能并不一定能保证,有时甚至可能损害对其他扰动类型的鲁棒性。鉴于这些结果,我们建议对对抗防御的评估应在多种扰动类型和大小的范围内进行。

相似文章

测试对未知对手的鲁棒性

OpenAI Blog

# 测试对未知对手的鲁棒性 来源:[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(未知攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调了需要在更多样化的未知攻击范围内测量性能

鲁棒对抗性输入

OpenAI Blog

研究人员展示了对抗性图像,这些图像能够在多个尺度和视角下可靠地欺骗神经网络分类器,这对自动驾驶汽车所使用的多尺度图像捕捉系统的鲁棒性假设提出了挑战。

神经网络策略的对抗性攻击

OpenAI Blog

OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。

用推理时计算换取对抗鲁棒性

OpenAI Blog

OpenAI 提出证据表明,像 o1 这样的推理模型在获得更多推理时计算来进行更深入思考时,对对抗攻击的抵抗力会增强。这项研究表明,增加计算量可以降低多种任务类型(包括数学、事实性和对抗性图像)的攻击成功率,尽管仍存在一些显著的例外。