通过Fisher信息度量模型鲁棒性:谱边界、理论保证与实用算法
摘要
本文提出了一种基于Fisher信息矩阵谱范数的攻击无关鲁棒性度量,为深度神经网络提供了理论边界和可扩展的评估方法。
查看缓存全文
缓存时间: 2026/06/08 19:17
论文页面 - 通过Fisher信息度量模型鲁棒性:谱界、理论保证与实用算法
来源:https://huggingface.co/papers/2606.04767
摘要
提出了一种基于Fisher信息矩阵谱范数的新型攻击无关鲁棒性度量,为深度神经网络鲁棒性评估提供了理论界和可扩展的评估方法。
深度神经网络的鲁棒性对于安全关键型部署至关重要,然而现有评估方法通常依赖特定攻击且缺乏可解释性。我们提出了一种基于Fisher信息矩阵(https://huggingface.co/papers?q=Fisher%20Information%20Matrix)(FIM)的谱范数(https://huggingface.co/papers?q=spectral%20norm)的原则性、攻击无关的鲁棒性度量,该度量量化了模型输出分布对输入扰动的最坏情况敏感性。理论上,我们证明了FIM等于输入雅可比矩阵(https://huggingface.co/papers?q=input%20Jacobian)的方差,并为常见架构(包括VGG(https://huggingface.co/papers?q=VGG)、ResNet(https://huggingface.co/papers?q=ResNet)、DenseNet(https://huggingface.co/papers?q=DenseNet)和Transformer(https://huggingface.co/papers?q=Transformer))推导了闭式谱界,提供了首个理论鲁棒性排名。为了实现可扩展评估,我们开发了高效算法,包括幂迭代(https://huggingface.co/papers?q=power%20iteration)和基于Hutchinson的估计(https://huggingface.co/papers?q=Hutchinson-based%20estimation),同时支持白盒和黑盒设置。在包括CIFAR、ImageNet和医学图像在内的多个数据集以及多种架构上进行的大量实验表明,我们的度量与对抗脆弱性(https://huggingface.co/papers?q=adversarial%20vulnerability)之间存在强相关性。我们的框架作为一种可解释的诊断工具,补充了基于攻击的评估,提供了架构敏感性的见解,并指导了更鲁棒模型的设计。代码可在以下位置获取:https://github.com/franz-chang/SRP/。
查看arXiv页面 (https://arxiv.org/abs/2606.04767) 查看PDF (https://arxiv.org/pdf/2606.04767) GitHub1 (https://github.com/franz-chang/SRP) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04767)
在您的agent中获取此论文:
hf papers read 2606.04767
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型:0个
没有模型链接本论文
在模型README.md中引用arxiv.org/abs/2606.04767可从本页链接至该模型。
引用本论文的数据集:0个
没有数据集链接本论文
在数据集README.md中引用arxiv.org/abs/2606.04767可从本页链接至该数据集。
引用本论文的Space:0个
没有Space链接本论文
在Space README.md中引用arxiv.org/abs/2606.04767可从本页链接至该Space。
包含本论文的收藏:0个
没有收藏包含本论文
将本论文添加到一个收藏 (https://huggingface.co/new-collection) 中可从本页链接至该收藏。
相似文章
模糊 ARTMAP 中的流式对抗鲁棒性:机制对齐评估、渐进式训练及可解释诊断
本文通过引入与机制对齐的白盒攻击代理 WB-Softmax,研究了流式神经架构模糊 ARTMAP 中的对抗鲁棒性。本文评估了渐进式训练和选择性更新策略,以在不进行数据重放的情况下提高鲁棒性,同时为结构性失效提供可解释的诊断。
压力下的风险:语言模型对抗鲁棒性的计算感知评估
本文提出了一种针对LLM对抗鲁棒性的计算感知评估框架,提出了基于FLOPs的风险-计算曲线和度量指标,以更好地评估攻击成本,发现对齐训练具有非单调效应,且计算成本因模型和危害类别而异。
测试对未知对手的鲁棒性
# 测试对未知对手的鲁棒性 来源:[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(未知攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调了需要在更多样化的未知攻击范围内测量性能
Fisher宽度:统计流形上的一种几何复杂度度量
介绍Fisher宽度,这是统计流形上高斯宽度的黎曼类比,它捕捉局部统计曲率且在重参数化下不变。本文发展了其理论,证明了Fisher-Lipschitz类别的泛化界,并在MNIST上展示了可计算估计量。
FragileFlow:通过频谱控制正确但脆弱的预测以增强基础模型的鲁棒性
本文介绍了 FragileFlow,这是一种插件式正则化器,通过频谱分析和 PAC-Bayes 界来控制“正确但脆弱”的预测,从而提高 LLM 和 VLM 的鲁棒性。