AGOP 作为解释:从特征学习到图像分类器中的逐样本归因

arXiv cs.LG 论文

摘要

本文介绍了 AGOP-Weighted,这是一种事后归因方法,它将每个样本的梯度乘以训练分布先验,以抑制噪声并突出重要像素,并在合成和逼真的基准测试中展示了相较于现有方法的显著改进。

arXiv:2605.12816v1 公告类型:新 摘要:平均梯度外积(AGOP)控制着神经网络中的特征学习:神经特征假设指出,每一层的权重 Gram 矩阵与在训练分布上计算的相应 AGOP 矩阵对齐。我们提出了一个互补的问题:这个相同的量能否作为一种事后归因方法来解释单个预测?我们引入了 AGOP-Weighted:一种新颖的归因方法,它将每个样本的梯度乘以 sqrt(diag(M) / max diag(M)),这是一种训练分布先验,可以抑制梯度噪声并放大一致重要的像素——这是任何先前归因方法中都没有的组合。我们形式化了两个伴随变体——AGOP-Local(每个样本的梯度,等同于 VanillaGrad)和 AGOP-Global(直接使用 diag(M) 作为零成本显著性图)——并实现了一个高效的训练时累积钩子;AGOP-Global 随后需要零推理成本(磁盘查找),而 AGOP-Weighted 只需一次梯度传递。我们进行了首次严格比较,将 AGOP 归因与 Integrated Gradients (IG)、SmoothGrad、GradCAM 和 VanillaGrad 在两个具有像素级真实标注的基准上进行了对比:(i) 合成 XAI-TRIS 基准(四个分类场景,8x8 图像,CNN8by8)和 (ii) 逼真的 CLEVR-XAI 基准(从 ImageNet 微调的 ResNet-18)。AGOP-Weighted 在线性任务上比 IG 高出 44% 的 mIoU;AGOP-Global 在乘法任务上(IG 低于随机水平)以零推理成本实现了比 IG 高出 7 倍的 mIoU。这两个发现都泛化到了 CLEVR-XAI 上的 ResNet-18(分别提高了 18% 和 37%)。我们进一步表明,GradCAM 由于空间分辨率崩溃在小分辨率图像上失败,并且 diag(M) 的质量在整个训练过程中单调提高,即使在分类准确率趋于平稳之后也是如此。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:19

# AGOP作为解释:从特征学习到图像分类器中的逐样本归因
来源:https://arxiv.org/abs/2605.12816
查看PDF(https://arxiv.org/pdf/2605.12816)

> **摘要:**平均梯度外积(AGOP)控制着神经网络中的特征学习:神经特征假设指出,每一层的权重Gram矩阵与在训练分布上计算得到的相应AGOP矩阵对齐。我们提出了一个互补的问题:同一量能否作为事后归因方法用于解释单个预测?我们引入了AGOP-Weighted:一种新颖的归因方法,它将每样本梯度乘以 sqrt(diag(M) / max diag(M)),这是一种训练分布先验,它抑制梯度噪声并放大始终重要的像素——这种组合在之前的任何归因方法中都不存在。我们形式化了两个伴随变体——AGOP-Local(每样本梯度,等价于VanillaGrad)和AGOP-Global(直接使用diag(M)作为零成本显著性图)——并实现了一个高效的训练时累积钩子;AGOP-Global因此需要零推理成本(磁盘查找),而AGOP-Weighted仅需一次梯度传递。我们在两个具有像素级真实标注的基准上首次对AGOP归因与集成梯度(IG)、SmoothGrad、GradCAM和VanillaGrad进行了严格比较:(i) 合成XAI-TRIS基准(四个分类场景,8x8图像,CNN8by8)和(ii) 照片级真实的CLEVR-XAI基准(从ImageNet微调的ResNet-18)。在线性任务上,AGOP-Weighted的mIoU比IG高44%;在乘法任务上(IG低于随机水平),AGOP-Global在零推理成本下实现了比IG高7倍的mIoU。这两种发现均推广到CLEVR-XAI上的ResNet-18(分别提高18%和37%)。我们还表明,GradCAM由于空间分辨率崩溃在小分辨率图像上失效,并且diag(M)的质量在训练过程中单调提升,即使在分类准确率达到平台期之后。

## 提交历史

来自:Raj Kiran Gupta Katakam [查看邮件](https://arxiv.org/show-email/6727765e/2605.12816) **\[v1\]** 2026年5月12日,星期二 23:15:47 UTC(37 KB)

相似文章

归因合同:生成式语言模型中的特征归因

arXiv cs.LG

本文介绍了归因合同(Attribution Contract),这是生成式语言模型中特征归因声明的一种规范,解决了特征定义不清以及归因方法评估方式模糊的问题。论文以自回归模型和扩散模型为例,展示了归因何时具有信息量,何时可能产生误导。

平衡聚合:理解与修复 GRPO 中的聚合偏差

Hugging Face Daily Papers

本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题,并提出了平衡聚合(Balanced Aggregation, BA)方法。该方法通过对正负子集分别计算 token 级均值,从而提高了训练稳定性和最终性能。