AGOP 作为解释:从特征学习到图像分类器中的逐样本归因
摘要
本文介绍了 AGOP-Weighted,这是一种事后归因方法,它将每个样本的梯度乘以训练分布先验,以抑制噪声并突出重要像素,并在合成和逼真的基准测试中展示了相较于现有方法的显著改进。
arXiv:2605.12816v1 公告类型:新
摘要:平均梯度外积(AGOP)控制着神经网络中的特征学习:神经特征假设指出,每一层的权重 Gram 矩阵与在训练分布上计算的相应 AGOP 矩阵对齐。我们提出了一个互补的问题:这个相同的量能否作为一种事后归因方法来解释单个预测?我们引入了 AGOP-Weighted:一种新颖的归因方法,它将每个样本的梯度乘以 sqrt(diag(M) / max diag(M)),这是一种训练分布先验,可以抑制梯度噪声并放大一致重要的像素——这是任何先前归因方法中都没有的组合。我们形式化了两个伴随变体——AGOP-Local(每个样本的梯度,等同于 VanillaGrad)和 AGOP-Global(直接使用 diag(M) 作为零成本显著性图)——并实现了一个高效的训练时累积钩子;AGOP-Global 随后需要零推理成本(磁盘查找),而 AGOP-Weighted 只需一次梯度传递。我们进行了首次严格比较,将 AGOP 归因与 Integrated Gradients (IG)、SmoothGrad、GradCAM 和 VanillaGrad 在两个具有像素级真实标注的基准上进行了对比:(i) 合成 XAI-TRIS 基准(四个分类场景,8x8 图像,CNN8by8)和 (ii) 逼真的 CLEVR-XAI 基准(从 ImageNet 微调的 ResNet-18)。AGOP-Weighted 在线性任务上比 IG 高出 44% 的 mIoU;AGOP-Global 在乘法任务上(IG 低于随机水平)以零推理成本实现了比 IG 高出 7 倍的 mIoU。这两个发现都泛化到了 CLEVR-XAI 上的 ResNet-18(分别提高了 18% 和 37%)。我们进一步表明,GradCAM 由于空间分辨率崩溃在小分辨率图像上失败,并且 diag(M) 的质量在整个训练过程中单调提高,即使在分类准确率趋于平稳之后也是如此。
查看缓存全文
缓存时间: 2026/05/14 06:19
# AGOP作为解释:从特征学习到图像分类器中的逐样本归因 来源:https://arxiv.org/abs/2605.12816 查看PDF(https://arxiv.org/pdf/2605.12816) > **摘要:**平均梯度外积(AGOP)控制着神经网络中的特征学习:神经特征假设指出,每一层的权重Gram矩阵与在训练分布上计算得到的相应AGOP矩阵对齐。我们提出了一个互补的问题:同一量能否作为事后归因方法用于解释单个预测?我们引入了AGOP-Weighted:一种新颖的归因方法,它将每样本梯度乘以 sqrt(diag(M) / max diag(M)),这是一种训练分布先验,它抑制梯度噪声并放大始终重要的像素——这种组合在之前的任何归因方法中都不存在。我们形式化了两个伴随变体——AGOP-Local(每样本梯度,等价于VanillaGrad)和AGOP-Global(直接使用diag(M)作为零成本显著性图)——并实现了一个高效的训练时累积钩子;AGOP-Global因此需要零推理成本(磁盘查找),而AGOP-Weighted仅需一次梯度传递。我们在两个具有像素级真实标注的基准上首次对AGOP归因与集成梯度(IG)、SmoothGrad、GradCAM和VanillaGrad进行了严格比较:(i) 合成XAI-TRIS基准(四个分类场景,8x8图像,CNN8by8)和(ii) 照片级真实的CLEVR-XAI基准(从ImageNet微调的ResNet-18)。在线性任务上,AGOP-Weighted的mIoU比IG高44%;在乘法任务上(IG低于随机水平),AGOP-Global在零推理成本下实现了比IG高7倍的mIoU。这两种发现均推广到CLEVR-XAI上的ResNet-18(分别提高18%和37%)。我们还表明,GradCAM由于空间分辨率崩溃在小分辨率图像上失效,并且diag(M)的质量在训练过程中单调提升,即使在分类准确率达到平台期之后。 ## 提交历史 来自:Raj Kiran Gupta Katakam [查看邮件](https://arxiv.org/show-email/6727765e/2605.12816) **\[v1\]** 2026年5月12日,星期二 23:15:47 UTC(37 KB)
相似文章
从权重扰动到特征归因:解释全连接神经网络
提出一种基于权重扰动的特征归因方法(XWP和XWPc),用于全连接神经网络,在标准基线指标上取得了有竞争力的性能。
归因合同:生成式语言模型中的特征归因
本文介绍了归因合同(Attribution Contract),这是生成式语言模型中特征归因声明的一种规范,解决了特征定义不清以及归因方法评估方式模糊的问题。论文以自回归模型和扩散模型为例,展示了归因何时具有信息量,何时可能产生误导。
GRPO 下基于梯度的 LoRA 秩分配:一项实证研究
本研究通过实证表明,在监督微调中有效的基于梯度的 LoRA 秩分配,在基于 GRPO 的强化学习中会导致性能下降,原因在于梯度景观更为平缓以及存在梯度放大效应。
平衡聚合:理解与修复 GRPO 中的聚合偏差
本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题,并提出了平衡聚合(Balanced Aggregation, BA)方法。该方法通过对正负子集分别计算 token 级均值,从而提高了训练稳定性和最终性能。
基于路径策略梯度的非短视主动特征获取
本文提出了 NM-PPG,这是一种利用路径策略梯度优化昂贵预测场景中顺序特征选择的非短视主动特征获取方法。