无需数据或优化的最大脑损伤:通过符号位翻转干扰神经网络

Hugging Face Daily Papers 论文

摘要

本文证明深度神经网络对参数的最小符号位翻转具有灾难性脆弱性,提出了DNL和1P-DNL方法,无需数据或优化即可识别关键脆弱参数。这种脆弱性跨越多个领域,包括图像分类、目标检测、实例分割和语言模型,对模型安全具有实际意义。

深度神经网络(DNN)可以通过仅翻转少量参数位而遭受灾难性破坏。我们提出了Deep Neural Lesion(DNL),一种无需数据和优化的方法,用于定位关键参数,并提出了增强的单次变体1P-DNL,通过对随机输入进行一次前向和反向传播来优化选择。我们证明这种脆弱性跨越多个领域,包括图像分类、目标检测、实例分割和推理大语言模型。在图像分类中,仅翻转ResNet-50在ImageNet上的两个符号位,准确率降低99.8%。在目标检测和实例分割中,主干网络中的一个或两个符号位翻转导致Mask R-CNN和YOLOv8-seg模型的COCO检测和掩码AP崩溃。在语言建模中,将两个符号位翻转到不同专家中,使Qwen3-30B-A3B-Thinking的准确率从78%降至0%。我们还表明,选择性保护一小部分脆弱的符号位可以为这类攻击提供实际防御。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:26

论文页面 - 无数据或优化的最大脑损伤:通过符号位翻转破坏神经网络

来源:https://huggingface.co/papers/2502.07408

摘要

深度神经网络在多个领域中对极小参数位翻转表现出灾难性脆弱性,可通过针对性保护策略加以识别和缓解。

深度神经网络(Deep Neural Networks,DNNs)仅需翻转少数参数位即可被灾难性破坏。我们提出深度神经病变(Deep Neural Lesion,DNL)——一种无需数据、无需优化的方法,用于定位关键参数,并在此基础上提出改进的单次变体 1P-DNL(1P-DNL),该方法通过在随机输入上进行一次前向和反向传播来优化参数选择。我们证明这种脆弱性跨越多个领域,包括图像分类、目标检测、实例分割以及推理型大语言模型。在图像分类中,仅翻转 ImageNet 上 ResNet-50 的两个符号位即可将准确率降低 99.8%。在目标检测和实例分割中,骨干网络的一或两次符号位翻转可将 Mask R-CNN 和 YOLOv8-seg 模型的 COCO 检测和掩码 AP 降至接近零。在语言建模中,将两个符号位翻转到不同专家可将 Qwen3-30B-A3B-Thinking 的准确率从 78% 降至 0%。我们还表明,有选择地保护少量易受攻击的符号位可为此类攻击提供实用的防御手段。

查看 arXiv 页面(https://arxiv.org/abs/2502.07408)查看 PDF(https://arxiv.org/pdf/2502.07408)项目页面(https://mkimhi.github.io/DNL/)GitHub(https://github.com/IdoGalil/maximal-brain-damage)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2502.07408)

在你的 agent 中获取此论文:

hf papers read 2502.07408

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2502.07408 即可从此页面链接。

引用此论文的数据集

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2502.07408 即可从此页面链接。

引用此论文的 Space

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2502.07408 即可从此页面链接。

包含此论文的收藏夹

没有收藏夹包含此论文

将此论文添加到收藏夹(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

神经网络策略的对抗性攻击

OpenAI Blog

OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。

平坦最小值是幻觉吗?

arXiv cs.LG

本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点,认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明,弱性能够预测泛化,而尖锐性则与之负相关,且随着训练数据增加,大批次泛化优势消失。

通过稀疏电路理解神经网络

OpenAI Blog

OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。