无需数据或优化的最大脑损伤：通过符号位翻转干扰神经网络

Hugging Face Daily Papers 2026/04/16 00:00 论文

摘要

本文证明深度神经网络对参数的最小符号位翻转具有灾难性脆弱性，提出了DNL和1P-DNL方法，无需数据或优化即可识别关键脆弱参数。这种脆弱性跨越多个领域，包括图像分类、目标检测、实例分割和语言模型，对模型安全具有实际意义。

深度神经网络（DNN）可以通过仅翻转少量参数位而遭受灾难性破坏。我们提出了Deep Neural Lesion（DNL），一种无需数据和优化的方法，用于定位关键参数，并提出了增强的单次变体1P-DNL，通过对随机输入进行一次前向和反向传播来优化选择。我们证明这种脆弱性跨越多个领域，包括图像分类、目标检测、实例分割和推理大语言模型。在图像分类中，仅翻转ResNet-50在ImageNet上的两个符号位，准确率降低99.8%。在目标检测和实例分割中，主干网络中的一个或两个符号位翻转导致Mask R-CNN和YOLOv8-seg模型的COCO检测和掩码AP崩溃。在语言建模中，将两个符号位翻转到不同专家中，使Qwen3-30B-A3B-Thinking的准确率从78%降至0%。我们还表明，选择性保护一小部分脆弱的符号位可以为这类攻击提供实际防御。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:26

论文页面 - 无数据或优化的最大脑损伤：通过符号位翻转破坏神经网络

来源：https://huggingface.co/papers/2502.07408

摘要

深度神经网络在多个领域中对极小参数位翻转表现出灾难性脆弱性，可通过针对性保护策略加以识别和缓解。

深度神经网络（Deep Neural Networks，DNNs）仅需翻转少数参数位即可被灾难性破坏。我们提出深度神经病变（Deep Neural Lesion，DNL）——一种无需数据、无需优化的方法，用于定位关键参数，并在此基础上提出改进的单次变体 1P-DNL（1P-DNL），该方法通过在随机输入上进行一次前向和反向传播来优化参数选择。我们证明这种脆弱性跨越多个领域，包括图像分类、目标检测、实例分割以及推理型大语言模型。在图像分类中，仅翻转 ImageNet 上 ResNet-50 的两个符号位即可将准确率降低 99.8%。在目标检测和实例分割中，骨干网络的一或两次符号位翻转可将 Mask R-CNN 和 YOLOv8-seg 模型的 COCO 检测和掩码 AP 降至接近零。在语言建模中，将两个符号位翻转到不同专家可将 Qwen3-30B-A3B-Thinking 的准确率从 78% 降至 0%。我们还表明，有选择地保护少量易受攻击的符号位可为此类攻击提供实用的防御手段。

查看 arXiv 页面（https://arxiv.org/abs/2502.07408）查看 PDF（https://arxiv.org/pdf/2502.07408）项目页面（https://mkimhi.github.io/DNL/）GitHub（https://github.com/IdoGalil/maximal-brain-damage）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2502.07408）

在你的 agent 中获取此论文：

hf papers read 2502.07408

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2502.07408 即可从此页面链接。

引用此论文的数据集

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2502.07408 即可从此页面链接。

引用此论文的 Space

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2502.07408 即可从此页面链接。

包含此论文的收藏夹

没有收藏夹包含此论文

将此论文添加到收藏夹（https://huggingface.co/new-collection）即可从此页面链接。

无需数据或优化的最大脑损伤：通过符号位翻转干扰神经网络

论文页面 - 无数据或优化的最大脑损伤：通过符号位翻转破坏神经网络

摘要

引用此论文的模型

引用此论文的数据集

引用此论文的 Space

包含此论文的收藏夹

相似文章

神经网络策略的对抗性攻击

平坦最小值是幻觉吗？

从信号退化到计算崩溃：揭示LLM量化的两种失效模式

背景也重要：用可迁移攻击攻破医学视觉语言模型

通过稀疏电路理解神经网络

提交意见反馈