AGOP 作为解释：从特征学习到图像分类器中的逐样本归因

arXiv cs.LG 2026/05/14 04:00 论文

explainable-ai attribution feature-learning neural-networks agop image-classifiers xai

摘要

本文介绍了 AGOP-Weighted，这是一种事后归因方法，它将每个样本的梯度乘以训练分布先验，以抑制噪声并突出重要像素，并在合成和逼真的基准测试中展示了相较于现有方法的显著改进。

arXiv:2605.12816v1 公告类型：新摘要：平均梯度外积（AGOP）控制着神经网络中的特征学习：神经特征假设指出，每一层的权重 Gram 矩阵与在训练分布上计算的相应 AGOP 矩阵对齐。我们提出了一个互补的问题：这个相同的量能否作为一种事后归因方法来解释单个预测？我们引入了 AGOP-Weighted：一种新颖的归因方法，它将每个样本的梯度乘以 sqrt(diag(M) / max diag(M))，这是一种训练分布先验，可以抑制梯度噪声并放大一致重要的像素——这是任何先前归因方法中都没有的组合。我们形式化了两个伴随变体——AGOP-Local（每个样本的梯度，等同于 VanillaGrad）和 AGOP-Global（直接使用 diag(M) 作为零成本显著性图）——并实现了一个高效的训练时累积钩子；AGOP-Global 随后需要零推理成本（磁盘查找），而 AGOP-Weighted 只需一次梯度传递。我们进行了首次严格比较，将 AGOP 归因与 Integrated Gradients (IG)、SmoothGrad、GradCAM 和 VanillaGrad 在两个具有像素级真实标注的基准上进行了对比：(i) 合成 XAI-TRIS 基准（四个分类场景，8x8 图像，CNN8by8）和 (ii) 逼真的 CLEVR-XAI 基准（从 ImageNet 微调的 ResNet-18）。AGOP-Weighted 在线性任务上比 IG 高出 44% 的 mIoU；AGOP-Global 在乘法任务上（IG 低于随机水平）以零推理成本实现了比 IG 高出 7 倍的 mIoU。这两个发现都泛化到了 CLEVR-XAI 上的 ResNet-18（分别提高了 18% 和 37%）。我们进一步表明，GradCAM 由于空间分辨率崩溃在小分辨率图像上失败，并且 diag(M) 的质量在整个训练过程中单调提高，即使在分类准确率趋于平稳之后也是如此。

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:19

# AGOP作为解释：从特征学习到图像分类器中的逐样本归因
来源：https://arxiv.org/abs/2605.12816
查看PDF（https://arxiv.org/pdf/2605.12816）

> **摘要：**平均梯度外积（AGOP）控制着神经网络中的特征学习：神经特征假设指出，每一层的权重Gram矩阵与在训练分布上计算得到的相应AGOP矩阵对齐。我们提出了一个互补的问题：同一量能否作为事后归因方法用于解释单个预测？我们引入了AGOP-Weighted：一种新颖的归因方法，它将每样本梯度乘以 sqrt(diag(M) / max diag(M))，这是一种训练分布先验，它抑制梯度噪声并放大始终重要的像素——这种组合在之前的任何归因方法中都不存在。我们形式化了两个伴随变体——AGOP-Local（每样本梯度，等价于VanillaGrad）和AGOP-Global（直接使用diag(M)作为零成本显著性图）——并实现了一个高效的训练时累积钩子；AGOP-Global因此需要零推理成本（磁盘查找），而AGOP-Weighted仅需一次梯度传递。我们在两个具有像素级真实标注的基准上首次对AGOP归因与集成梯度（IG）、SmoothGrad、GradCAM和VanillaGrad进行了严格比较：(i) 合成XAI-TRIS基准（四个分类场景，8x8图像，CNN8by8）和(ii) 照片级真实的CLEVR-XAI基准（从ImageNet微调的ResNet-18）。在线性任务上，AGOP-Weighted的mIoU比IG高44%；在乘法任务上（IG低于随机水平），AGOP-Global在零推理成本下实现了比IG高7倍的mIoU。这两种发现均推广到CLEVR-XAI上的ResNet-18（分别提高18%和37%）。我们还表明，GradCAM由于空间分辨率崩溃在小分辨率图像上失效，并且diag(M)的质量在训练过程中单调提升，即使在分类准确率达到平台期之后。

## 提交历史

来自：Raj Kiran Gupta Katakam [查看邮件](https://arxiv.org/show-email/6727765e/2605.12816) **\[v1\]** 2026年5月12日，星期二 23:15:47 UTC（37 KB）

AGOP 作为解释：从特征学习到图像分类器中的逐样本归因

相似文章

从权重扰动到特征归因：解释全连接神经网络

归因合同：生成式语言模型中的特征归因

GRPO 下基于梯度的 LoRA 秩分配：一项实证研究

平衡聚合：理解与修复 GRPO 中的聚合偏差

基于路径策略梯度的非短视主动特征获取

提交意见反馈