无需数据或优化的最大脑损伤:通过符号位翻转干扰神经网络
摘要
本文证明深度神经网络对参数的最小符号位翻转具有灾难性脆弱性,提出了DNL和1P-DNL方法,无需数据或优化即可识别关键脆弱参数。这种脆弱性跨越多个领域,包括图像分类、目标检测、实例分割和语言模型,对模型安全具有实际意义。
查看缓存全文
缓存时间: 2026/04/20 08:26
论文页面 - 无数据或优化的最大脑损伤:通过符号位翻转破坏神经网络
来源:https://huggingface.co/papers/2502.07408
摘要
深度神经网络在多个领域中对极小参数位翻转表现出灾难性脆弱性,可通过针对性保护策略加以识别和缓解。
深度神经网络(Deep Neural Networks,DNNs)仅需翻转少数参数位即可被灾难性破坏。我们提出深度神经病变(Deep Neural Lesion,DNL)——一种无需数据、无需优化的方法,用于定位关键参数,并在此基础上提出改进的单次变体 1P-DNL(1P-DNL),该方法通过在随机输入上进行一次前向和反向传播来优化参数选择。我们证明这种脆弱性跨越多个领域,包括图像分类、目标检测、实例分割以及推理型大语言模型。在图像分类中,仅翻转 ImageNet 上 ResNet-50 的两个符号位即可将准确率降低 99.8%。在目标检测和实例分割中,骨干网络的一或两次符号位翻转可将 Mask R-CNN 和 YOLOv8-seg 模型的 COCO 检测和掩码 AP 降至接近零。在语言建模中,将两个符号位翻转到不同专家可将 Qwen3-30B-A3B-Thinking 的准确率从 78% 降至 0%。我们还表明,有选择地保护少量易受攻击的符号位可为此类攻击提供实用的防御手段。
查看 arXiv 页面(https://arxiv.org/abs/2502.07408)查看 PDF(https://arxiv.org/pdf/2502.07408)项目页面(https://mkimhi.github.io/DNL/)GitHub(https://github.com/IdoGalil/maximal-brain-damage)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2502.07408)
在你的 agent 中获取此论文:
hf papers read 2502.07408
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2502.07408 即可从此页面链接。
引用此论文的数据集
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2502.07408 即可从此页面链接。
引用此论文的 Space
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2502.07408 即可从此页面链接。
包含此论文的收藏夹
没有收藏夹包含此论文
将此论文添加到收藏夹(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
神经网络策略的对抗性攻击
OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。
平坦最小值是幻觉吗?
本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点,认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明,弱性能够预测泛化,而尖锐性则与之负相关,且随着训练数据增加,大批次泛化优势消失。
从信号退化到计算崩溃:揭示LLM量化的两种失效模式
研究者发现激进LLM量化存在两种截然不同的失效模式——信号退化与计算崩溃,并证明无需训练的修复手段仅能缓解前者,表明超低比特模型需进行结构性重建。
背景也重要:用可迁移攻击攻破医学视觉语言模型
MedFocusLeak 首次提出针对医学视觉语言模型的可迁移黑盒对抗攻击,通过不可察觉的背景扰动在六种成像模态上误导临床诊断。
通过稀疏电路理解神经网络
OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。