面向工业视觉检测的架构感知解释审计

arXiv cs.LG 论文

摘要

本文针对工业视觉检测提出了一种架构感知的解释审计协议,通过晶圆图和异常检测数据集上的实验证明,解释方法的保真度受其与模型原生决策机制的结构兼容性约束。

arXiv:2605.14255v1 公告类型: 新 摘要: 工业视觉检测系统日益依赖深度分类器,其热力图解释在视觉上可能看似合理,却未能识别实际驱动模型决策的图像区域。本文将基于原生读出假设(native-readout hypothesis)的架构感知解释审计协议付诸实践:解释方法基于扰动的保真度受其与模型原生决策机制的结构距离制约。在WM-811K晶圆图(9类,172k图像)上,采用三随机种子零填充扰动协议时,尽管ViT-Tiny + Attention Rollout的分类准确率较低,但其Deletion AUC达到0.211,而Swin-Tiny / ResNet18+CBAM / DenseNet121 + Grad-CAM的Deletion AUC在0.432-0.525之间(Cohen's d绝对值>1.1)。Swin-Tiny将架构族与读出结构解耦:尽管是Transformer,但其空间特征图层次结构使其兼容Grad-CAM,表明关键因素是读出结构而非架构族。模型无关的对照方法RISE将所有架构族的Deletion AUC压缩至约0.1,表明差距源于解释路径;值得注意的是,RISE优于所有原生方法,因此原生读出是兼容性原则而非最优性保证。模糊填充敏感性分析显示,在不同扰动基线条件下,架构族排序发生反转,进一步证实保真度排名是(模型、解释器、扰动算子)三元组的联合属性。在MVTec AD(预训练模型)上的探索性边界条件研究表明,审计结果依赖于数据集/任务,并识别出需要限定的条件。该协议提供可操作的指导:解释路径应根据读出结构与模型架构协同设计,部署的热力图应附带量化保真度指标。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:28

# 架构感知的解释审计:面向工业视觉检测的抽象

来源:https://arxiv.org/html/2605.14255

1*都柏林学院,北京工业大学,中国北京*  
2*计算机学院,北京工业大学,中国北京*

工业视觉检测系统日益依赖深度分类器,其热力图解释在视觉上可能看似合理,却未能识别真正驱动模型决策的图像区域。本文基于**原生读出假说**,将一种**架构感知的解释审计协议**付诸实践:解释方法的扰动基忠诚度受限于其与模型原生决策机制的结构距离。在 WM-811K 晶圆图(9 类,172,000 张图像)上,采用三随机种子零填充扰动协议,ViT-Tiny + Attention Rollout 的删除 AUC 达到 0.211,而 Swin-Tiny / ResNet18+CBAM / DenseNet121 + Grad-CAM 的删除 AUC 在 0.432–0.525 之间(|Cohen’s d| > 1.1),尽管 ViT-Tiny 的分类准确率较低。Swin-Tiny 将架构家族与读出结构解耦:尽管它是一个 Transformer,但其空间特征图层次结构使其兼容 Grad-CAM,这表明操作因素在于**读出结构**而非架构家族。一个模型无关的控制方法(RISE)将所有家族的删除 AUC 压缩至 ≈0.1,表明差距源于解释器路径;值得注意的是,RISE 优于所有原生方法,因此原生读出是一个兼容性原则而非最优性保证。模糊填充扰动敏感性分析表明,在不同的扰动基线下面,家族排序发生逆转,这强化了忠诚度排名是(模型、解释器、扰动算子)三元组的联合属性。在 MVTec AD(预训练模型)上进行的探索性边界条件研究表明,审计结果依赖于数据集/任务,并指出了需要限定的条件。该协议提供了可操作指导:解释路径应根据读出结构与模型架构协同设计,部署的热力图应附有定量忠诚度指标。

## 1 引言

### 1.1 动机

深度学习如今已部署在仅凭预测结果不足以构成可靠产物的决策场景中——医疗诊断、自动驾驶、信用评分以及工业质量检测都需要一个配套的解释,供下游审查者(临床医生、工程师、审计员)进行质询。针对这一需求,出现了一种标准操作程序:训练现有最强的分类器,然后附加一个事后解释方法,将其热力图呈现为模型推理的窗口。这种配对将解释方法视为一个**中立的测量工具**,独立于它所检查的分类器。在这种假设下,从业者唯一关心的是选择计算成本低、视觉清晰的方法;Grad-CAM、Integrated Gradients、LIME 或基于注意力的方法之间的选择被简化为便利性决策。本文收集的证据表明,这一假设在系统上且可度量地是错误的。解释方法并非对其所应用的模型保持中立;其**忠诚度**——在特定评估协议下其输出追踪与预测相关证据的程度——根据其数学机制是否匹配模型的内部决策机制,差异可超过两倍。

这一问题与工业 5.0 向以人为本、可持续和韧性工业的转型相符 [21],在此背景下,AI 系统被期望支持人类验证,而不仅仅是最大化预测效率。在制造业和工业信息物理系统中,XAI 日益被视为一种提高可信度与可靠性的机制,使人类操作员能够理解并验证 AI 决策 [22]。在此背景下,视觉检测中的解释图应作为审计工件对待:它们必须帮助工程师验证分类器是否依赖有意义的缺陷证据,而非虚假的空间先验。

为严格研究这一主张,需要一个测试平台,其中比较的模型家族在架构上差异显著,真实标签信号定义清晰,数据集足够小使得多随机种子复制在计算上可行,且误导性解释的实际风险不可忽视。WM-811K 半导体晶圆图 [18] 满足所有四个标准。该基准包含 811,457 张晶圆图,其中 172,950 张带有人工分配的缺陷模式标签,涵盖 9 个类别,已成为晶圆图缺陷分类的标准测试平台。当代工业 XAI 实践在此基准上通常完全按照上述方式进行——训练高容量模型,附加事后解释器,显示热力图——忠诚度要么未加保护,要么被定性断言。因此,WM-811K 在本文中作为更广泛 XAI 方法论问题的**案例研究**,而非目的本身:下文开发的架构主张和统计协议应能在任何一个深度分类器与事后解释器配对的情境下进行测试,无论成像领域如何。

### 1.2 原生读出假说

本文提出并测试一个机制性假说,称为**原生读出假说**:解释方法的扰动基忠诚度受限于其与所解释模型的原生决策机制的结构距离。在本文中,“原生读出”指一种解释方法,其数学机制直接读取参与模型前向决策路径的内部算子(例如注意力矩阵),与事后重构重要性的代理方法(例如激活梯度)相对。注意,“原生”表示算子对齐,而非与前向计算的字面同一:例如,Attention Rollout 会平均头部并在层间递归相乘,这并非模型在推理过程中实际计算的内容,但它读取的是前向传递中路由信息的同一注意力算子。“结构距离”并非比喻:它通过两个具体代理指标操作化。第一个是解释路径是**直接读取**模型内部路由信息的算子(如 Attention Rollout 从 Transformer 的注意力矩阵中读取),还是**从外部通过梯度近似**(如 Grad-CAM 通过卷积激活)。第二个是解释生成的 spatial 粒度——Vision Transformer 的 patch 尺度与深度卷积块的有效感受野。

在此假说下,可推导出五个预测。第一,**原生读取**的解释应比事后近似决策机制的解释产生更低的删除 AUC 和更高的插入 AUC。第二,各家族的忠诚度排名应**不敏感**于其分类排名,因为这两个量衡量的是结构上独立的属性。第三,忠诚度排名应在不同随机种子间保持稳定,因为它反映的是架构结构而非学习到的权重配置。第四,**模型无关**的解释器——将模型视为黑盒——应大幅压缩各家族间的忠诚度排名,因为它完全绕过了原生读出路径;如果在模型无关方法下差距仍然存在,则该效应归因于架构的表示而非解释器。第五,**层次化 Transformer**——使用自注意力但通过多阶段金字塔保持空间特征图——应与 Grad-CAM 而非 Attention Rollout 对齐,因为其空间层次结构提供了直接的基于梯度的读出路径,尽管底层计算基于注意力;该预测将架构家族(CNN vs Transformer)与读出结构(空间层次 vs 全局注意力)解耦。重要的是,原生读出假说是诊断性而非规范性的:它预测了架构特定解释路径之间的相对忠诚度,并识别出兼容的模型-解释器配对,但它并不意味着原生解释总是比模型无关的扰动方法(如 RISE)更忠诚。本文的其余部分将在 WM-811K 上评估这五个预测,并在 MVTec AD 上测试边界条件。

### 1.3 贡献

本文的贡献有四个方面:  
(i) **假说与审计协议**。本文提出了原生读出假说——一个可证伪的结构性主张,将解释忠诚度与架构-解释器兼容性联系起来——并将其操作化为一个可复用的工业视觉检测审计协议,附带选择模型-解释器配对的可操作指导。一个统计上严谨的评估设计(逐类分解、合并 Cohen’s d、bootstrap 置信区间、三随机种子复制)在有限的样本预算下强化了推断。  
(ii) **在 WM-811K 上的多家族经验审计**。对四个模型家族——无注意力 CNN、注意力增强 CNN、层次化 Transformer 和全局注意力 Transformer——进行的定量交叉家族忠诚度审计,填补了晶圆 XAI 文献中仅定性呈现热力图的空白。Swin-Tiny 作为一个受控的证伪测试,将架构家族与读出结构解耦,表明空间层次而非卷积/注意力区分是 Grad-CAM 兼容性的操作因素。  
(iii) **控制与消融**。模型无关控制方法(RISE)压缩了家族级忠诚度差异,表明差距源于解释器路径。一个 2×2 消融设计将 ViT 的优势分解为读出直接性与多层路径深度。模糊填充扰动基线敏感性分析表明家族排序依赖于协议,强化了忠诚度排名是(模型、解释器、扰动算子)三元组的联合属性。  
(iv) **边界条件分析**。在 MVTec AD(预训练模型,256×256 RGB)上的研究表明,审计结果依赖于数据集/任务/架构,并指出了假说需要限定的条件。

## 2 相关工作

### 2.1 晶圆图 XAI

晶圆图分类的可解释 AI 兴趣在 2025–2026 年仍是一个热点。Khatun 等人 [13] 提出了一个 0.15M 参数的 CBAM 增强 CNN,在平衡的 WM-811K 子集上达到 99.88% 的测试准确率,并将预测与 Grad-CAM、Integrated Gradients [11] 和遮挡敏感性 [12] 配对。Lee 等人 [14] 结合 CNN、Grad-CAM、LIME 和温度缩放,同时报告准确率、校准和双重视觉解释。Park 和 Kim [16] 走相反路径,用本质上可解释且对标签噪声鲁棒的模糊推理系统替代 CNN。Lee 等人 [15] 表明,结合 Radon 和密度特征的 CNN 集成在 WM-811K 上达到 95.09% 的准确率。这些贡献以及 Pilli [17] 关于人机回环 XAI 晶圆检测的论文,都存在一个结构性局限:每个工作将一个分类器与一个解释器配对,并定性报告热力图,而不询问解释器和分类器在机制上是否兼容。

### 2.2 更广泛 XAI 文献中的忠诚度

在更广泛的可解释性文献中,Jain 和 Wallace [9] 在 NLP 中记录了忠诚度-合理性的差距,表明循环模型中的注意力权重通常对底层决策不忠诚。Chefer 等人 [10] 通过结合 Layer-wise Relevance Propagation 与注意力梯度解决了 Vision Transformers 的这一差距。Attention Rollout [6] 以及删除/插入扰动协议 [7, 8] 提供了本文使用的测量工具。据作者所知,尚未有统一测试在工业成像基准上检验解释方法与其模型决策机制之间的结构距离是否能预测该方法达到的忠诚度。本文填补了这一空白。

### 2.3 模型无关解释与跨数据集验证

RISE(Randomized Input Sampling for Explanation)[7] 通过用随机遮罩输入探测模型并用模型输出置信度加权遮罩来生成重要性图。因为它将模型视为纯黑盒,它为解开架构驱动与解释器驱动的忠诚度差异提供了一个原则性控制。MVTec AD [19] 是一个广泛使用的工业异常检测基准,包含 15 个物体类别的 5,354 张图像,具有像素级缺陷标注。其更高分辨率(700–1024 px)、自然 RGB 图像以及真实掩码使其成为 WM-811K 低分辨率灰度晶圆图的互补测试平台。DeiT [20] 提供了在 ImageNet 上预训练的数据高效 Vision Transformer 变体,使得在自然图像任务上与预训练 CNN 进行公平比较成为可能。

### 2.4 工业视觉检测中的可信 AI

从工业 4.0 自动化向工业 5.0 的转变强调以人为本、可持续和韧性的生产系统,其中 AI 被期望支持人类验证而非仅最大化预测效率 [21]。制造业和工业信息物理系统中 XAI 的最新综述同样强调,可解释性对于工业环境中 AI 决策的可信度、可靠性和人类验证至关重要 [22]。尽管有这种认识,现有的工业检测论文压倒性地定性呈现热力图——展示某个方法“突出了正确区域”——而不审计被突出的像素是否真正驱动了模型的预测。本研究通过操作化一个定量忠诚度审计来解决这一空白,该审计可应用于工业视觉检测中的任何分类器-解释器配对。

参见标题 图 1:图 1. WM-811K 标注类别分布
参见标题 图 2:图 2. 样本晶圆图(每类 4 张,64×64)。黑色=背景,红色=正常芯片,黄色=缺陷芯片

## 3 方法

### 3.1 数据集

WM-811K 基准 [18] 包含 811,457 张晶圆图,其中 172,950 张带有人工分配的缺陷模式标签,涵盖 9 个类别(None、Center、Donut、Edge-Loc、Edge-Ring、Loc、Random、Scratch、Near-Full)。该数据集严重不平衡,约 85% 的标注图属于无缺陷的“None”类。图 1–2 显示了类别分布和代表性晶圆图。由于多数类单独就超过标注数据的五分之四,原始准确率是对模型行为无信息的汇总;因此本研究采用平衡准确率和宏平均 F1 作为主要性能指标,两者平等对待每个类别,并保持对少数模式性能的敏感性。数据集按 70/15/15 比例划分为训练集、验证集和测试集,使用**批次族分组**策略。在该策略下,来自同一制造批次的所有晶圆被限制在单个分区内,因此没有批次出现在多个分割中。批次使用 WM-811K 元数据中的 `lotName` 字段标识;无

相似文章

具有随时有效保证的 AI 系统自适应审计

arXiv cs.AI

本文引入了一种统计框架,利用安全随时有效推断(SAVI)技术对 AI 系统进行自适应审计,旨在基于有限数据得出严谨的结论。文章提出了一种“通过赌博进行测试”的方法,以验证模型的鲁棒性,同时在自适应采样过程中控制第一类错误。

有效的解释支持不确定性下的规划

arXiv cs.CL

本研究论文提出了一种计算模型,通过模拟过程性解释在不确定性下如何指导行动规划来评估其有效性。通过四项实验,作者表明,被该模型赋予更高分数的解释被认为更有用,并能带来更好的导航表现。